[2026-01-25 16:46:05,239] [WARNING] [axolotl.utils.trainer.prepare_optim_env:658] [PID:796] P2P support not detected, setting `NCCL_P2P_DISABLE=1`
[2026-01-25 16:46:05,434] [DEBUG] [axolotl.utils.config.log_gpu_memory_usage:127] [PID:796] baseline 0.000GB ()
[2026-01-25 16:46:05,434] [INFO] [axolotl.cli.config.load_cfg:259] [PID:796] config:
{
  "accelerator_config": {
    "dispatch_batches": false,
    "split_batches": false
  },
  "activation_offloading": false,
  "adapter": "lora",
  "axolotl_config_path": "./qlora-32b.yaml",
  "base_model": "MuXodious/GLM-4.7-Flash-impotent-heresy",
  "base_model_config": "MuXodious/GLM-4.7-Flash-impotent-heresy",
  "batch_size": 2,
  "bf16": true,
  "capabilities": {
    "bf16": true,
    "compute_capability": "sm_89",
    "fp8": false,
    "n_gpu": 2,
    "n_node": 1
  },
  "context_parallel_size": 1,
  "dataloader_num_workers": 2,
  "dataloader_pin_memory": true,
  "dataloader_prefetch_factor": 256,
  "dataset_num_proc": 54,
  "dataset_prepared_path": "last_run_prepared",
  "ddp": true,
  "device": "cuda:0",
  "device_map": {
    "": 0
  },
  "dion_rank_fraction": 1.0,
  "dion_rank_multiple_of": 1,
  "env_capabilities": {
    "torch_version": "2.10.0"
  },
  "eval_batch_size": 1,
  "eval_causal_lm_metrics": [
    "sacrebleu",
    "comet",
    "ter",
    "chrf"
  ],
  "eval_max_new_tokens": 128,
  "eval_sample_packing": true,
  "eval_table_size": 0,
  "evals_per_epoch": 1,
  "experimental_skip_move_to_device": true,
  "flash_attention": true,
  "fp16": false,
  "fsdp": [
    "full_shard",
    "auto_wrap"
  ],
  "fsdp_config": {
    "auto_wrap_policy": "TRANSFORMER_BASED_WRAP",
    "cpu_ram_efficient_loading": true,
    "offload_params": true,
    "state_dict_type": "FULL_STATE_DICT",
    "sync_module_states": true,
    "transformer_layer_cls_to_wrap": "Glm4MoeLiteDecoderLayer",
    "use_orig_params": false
  },
  "gradient_accumulation_steps": 1,
  "gradient_checkpointing": true,
  "gradient_checkpointing_kwargs": {
    "use_reentrant": true
  },
  "include_tkps": true,
  "learning_rate": 0.0002,
  "lisa_layers_attribute": "model.layers",
  "load_best_model_at_end": false,
  "load_in_4bit": false,
  "load_in_8bit": false,
  "local_rank": 0,
  "logging_steps": 1,
  "lora_alpha": 48,
  "lora_dropout": 0.05,
  "lora_r": 24,
  "lora_target_modules": [
    "gate_proj",
    "down_proj",
    "up_proj",
    "q_proj",
    "v_proj",
    "k_proj",
    "o_proj"
  ],
  "loraplus_lr_embedding": 1e-06,
  "loss_watchdog_patience": 3,
  "loss_watchdog_threshold": 5.0,
  "lr_scheduler": "cosine",
  "max_steps": 496,
  "mean_resizing_embeddings": false,
  "micro_batch_size": 1,
  "model_config_type": "glm4_moe_lite",
  "num_epochs": 1.0,
  "optimizer": "adamw_torch_fused",
  "otel_metrics_host": "localhost",
  "otel_metrics_port": 8000,
  "output_dir": "./outputs/qlora-out",
  "pad_to_sequence_len": true,
  "pretrain_multipack_attn": true,
  "pretraining_dataset": [
    {
      "path": "Guilherme34/Dataset-for-updating-llm-to-be-aware-of-the-situation",
      "split": "train",
      "text_column": "text",
      "trust_remote_code": false,
      "type": "pretrain"
    }
  ],
  "profiler_steps_start": 0,
  "qlora_sharded_model_loading": false,
  "ray_num_workers": 1,
  "resources_per_worker": {
    "GPU": 1
  },
  "sample_packing": true,
  "sample_packing_bin_size": 200,
  "sample_packing_group_size": 100000,
  "save_only_model": false,
  "save_safetensors": true,
  "save_steps": 45,
  "sequence_len": 1024,
  "shuffle_before_merging_datasets": false,
  "shuffle_merged_datasets": true,
  "skip_prepare_dataset": false,
  "special_tokens": {
    "pad_token": "<|endoftext|>"
  },
  "streaming_multipack_buffer_size": 10000,
  "strict": false,
  "tensor_parallel_size": 1,
  "tf32": false,
  "tiled_mlp_use_original_mlp": true,
  "tokenizer_config": "MuXodious/GLM-4.7-Flash-impotent-heresy",
  "tokenizer_save_jinja_files": true,
  "torch_dtype": "torch.bfloat16",
  "train_on_inputs": false,
  "trl": {
    "log_completions": false,
    "mask_truncated_completions": false,
    "ref_model_mixup_alpha": 0.9,
    "ref_model_sync_steps": 64,
    "scale_rewards": true,
    "sync_ref_model": false,
    "use_vllm": false,
    "vllm_server_host": "0.0.0.0",
    "vllm_server_port": 8000
  },
  "use_otel_metrics": false,
  "use_ray": false,
  "val_set_size": 0.0,
  "vllm": {
    "device": "auto",
    "dtype": "auto",
    "gpu_memory_utilization": 0.9,
    "host": "0.0.0.0",
    "port": 8000
  },
  "warmup_ratio": 0.1,
  "weight_decay": 0.0,
  "world_size": 2
}
[2026-01-25 16:46:05,435] [WARNING] [axolotl.cli.checks.check_accelerate_default_config:19] [PID:796] accelerate config file found at /root/.cache/huggingface/accelerate/default_config.yaml. This can lead to unexpected errors
[2026-01-25 16:46:07,406] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:285] [PID:796] EOS: 154820 / <|endoftext|>
[2026-01-25 16:46:07,406] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:286] [PID:796] BOS: None / None
[2026-01-25 16:46:07,406] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:287] [PID:796] PAD: 154820 / <|endoftext|>
[2026-01-25 16:46:07,406] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:288] [PID:796] UNK: None / None
[2026-01-25 16:46:09,497] [DEBUG] [axolotl.train.setup_model_and_tokenizer:70] [PID:796] loading tokenizer... MuXodious/GLM-4.7-Flash-impotent-heresy
[2026-01-25 16:46:11,343] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:285] [PID:796] EOS: 154820 / <|endoftext|>
[2026-01-25 16:46:11,343] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:286] [PID:796] BOS: None / None
[2026-01-25 16:46:11,343] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:287] [PID:796] PAD: 154820 / <|endoftext|>
[2026-01-25 16:46:11,343] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:288] [PID:796] UNK: None / None
[2026-01-25 16:46:11,343] [DEBUG] [axolotl.train.setup_model_and_tokenizer:82] [PID:796] Loading model
[2026-01-25 16:46:11,466] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_evaluation_loop:87] [PID:796] Patched Trainer.evaluation_loop with nanmean loss calculation
[2026-01-25 16:46:11,467] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_maybe_log_save_evaluate:138] [PID:796] Patched Trainer._maybe_log_save_evaluate with nanmean loss calculation
[2026-01-25 16:46:11,467] [INFO] [axolotl.loaders.patch_manager._apply_multipack_patches:345] [PID:796] Applying multipack dataloader patch for sample packing...
Loading weights:   0%|                                                                                                                                                                                               | 0/751 [00:00<?, ?it/s]Loading weights:   0%|▏                                                                                                                                               | 1/751 [00:00<00:00, 17331.83it/s, Materializing param=lm_head.weight]Loading weights:   0%|▏                                                                                                                                                | 1/751 [00:00<00:00, 4337.44it/s, Materializing param=lm_head.weight]Loading weights:   0%|▎                                                                                                                                     | 2/751 [00:00<00:00, 3372.98it/s, Materializing param=model.embed_tokens.weight]Loading weights:   0%|▎                                                                                                                                     | 2/751 [00:00<00:00, 1958.13it/s, Materializing param=model.embed_tokens.weight]Loading weights:   0%|▍                                                                                                                         | 3/751 [00:00<00:00, 2012.94it/s, Materializing param=model.layers.0.input_layernorm.weight]Loading weights:   0%|▍                                                                                                                          | 3/751 [00:00<00:00, 842.29it/s, Materializing param=model.layers.0.input_layernorm.weight]Loading weights:   1%|▋                                                                                                                            | 4/751 [00:00<00:00, 876.78it/s, Materializing param=model.layers.0.mlp.down_proj.weight]Loading weights:   1%|▋                                                                                                                            | 4/751 [00:00<00:00, 860.11it/s, Materializing param=model.layers.0.mlp.down_proj.weight]Loading weights:   1%|▊                                                                                                                            | 5/751 [00:00<00:00, 817.22it/s, Materializing param=model.layers.0.mlp.gate_proj.weight]Loading weights:   1%|▊                                                                                                                            | 5/751 [00:00<00:01, 560.72it/s, Materializing param=model.layers.0.mlp.gate_proj.weight]Loading weights:   1%|█                                                                                                                              | 6/751 [00:00<00:01, 585.77it/s, Materializing param=model.layers.0.mlp.up_proj.weight]Loading weights:   1%|█                                                                                                                              | 6/751 [00:00<00:01, 537.88it/s, Materializing param=model.layers.0.mlp.up_proj.weight]Loading weights:   1%|█                                                                                                                 | 7/751 [00:00<00:01, 615.58it/s, Materializing param=model.layers.0.post_attention_layernorm.weight]Loading weights:   1%|█                                                                                                                 | 7/751 [00:00<00:01, 609.23it/s, Materializing param=model.layers.0.post_attention_layernorm.weight]Loading weights:   1%|█▏                                                                                                                | 8/751 [00:00<00:01, 688.07it/s, Materializing param=model.layers.0.self_attn.kv_a_layernorm.weight]Loading weights:   1%|█▏                                                                                                                | 8/751 [00:00<00:01, 613.80it/s, Materializing param=model.layers.0.self_attn.kv_a_layernorm.weight]Loading weights:   1%|█▎                                                                                                            | 9/751 [00:00<00:01, 648.35it/s, Materializing param=model.layers.0.self_attn.kv_a_proj_with_mqa.weight]Loading weights:   1%|█▎                                                                                                            | 9/751 [00:00<00:01, 624.16it/s, Materializing param=model.layers.0.self_attn.kv_a_proj_with_mqa.weight]Loading weights:   1%|█▌                                                                                                                    | 10/751 [00:00<00:01, 669.91it/s, Materializing param=model.layers.0.self_attn.kv_b_proj.weight]Loading weights:   1%|█▌                                                                                                                    | 10/751 [00:00<00:01, 636.49it/s, Materializing param=model.layers.0.self_attn.kv_b_proj.weight]Loading weights:   1%|█▊                                                                                                                       | 11/751 [00:00<00:01, 645.26it/s, Materializing param=model.layers.0.self_attn.o_proj.weight]Loading weights:   1%|█▊                                                                                                                       | 11/751 [00:00<00:01, 640.54it/s, Materializing param=model.layers.0.self_attn.o_proj.weight]Loading weights:   2%|█▊                                                                                                                | 12/751 [00:00<00:01, 689.17it/s, Materializing param=model.layers.0.self_attn.q_a_layernorm.weight]Loading weights:   2%|█▊                                                                                                                | 12/751 [00:00<00:01, 661.14it/s, Materializing param=model.layers.0.self_attn.q_a_layernorm.weight]Loading weights:   2%|██                                                                                                                     | 13/751 [00:00<00:01, 708.78it/s, Materializing param=model.layers.0.self_attn.q_a_proj.weight]Loading weights:   2%|██                                                                                                                     | 13/751 [00:00<00:01, 660.10it/s, Materializing param=model.layers.0.self_attn.q_a_proj.weight]Loading weights:   2%|██▏                                                                                                                    | 14/751 [00:00<00:01, 687.85it/s, Materializing param=model.layers.0.self_attn.q_b_proj.weight]Loading weights:   2%|██▏                                                                                                                    | 14/751 [00:00<00:01, 683.77it/s, Materializing param=model.layers.0.self_attn.q_b_proj.weight]Loading weights:   2%|██▍                                                                                                                       | 15/751 [00:00<00:01, 675.56it/s, Materializing param=model.layers.1.input_layernorm.weight]Loading weights:   2%|██▍                                                                                                                       | 15/751 [00:00<00:01, 634.22it/s, Materializing param=model.layers.1.input_layernorm.weight]Loading weights:   2%|██▌                                                                                                                        | 16/751 [00:00<00:01, 623.18it/s, Materializing param=model.layers.1.mlp.experts.down_proj]Loading weights:   2%|██▌                                                                                                                        | 16/751 [00:00<00:01, 592.99it/s, Materializing param=model.layers.1.mlp.experts.down_proj]Loading weights:   0%|                                                                                                                                                                                               | 0/751 [00:00<?, ?it/s]Loading weights:   0%|▏                                                                                                                                               | 1/751 [00:00<00:00, 15477.14it/s, Materializing param=lm_head.weight]Loading weights:   0%|▏                                                                                                                                                | 1/751 [00:00<00:00, 1985.00it/s, Materializing param=lm_head.weight]Loading weights:   0%|▎                                                                                                                                     | 2/751 [00:00<00:00, 2410.52it/s, Materializing param=model.embed_tokens.weight]Loading weights:   0%|▎                                                                                                                                     | 2/751 [00:00<00:00, 1501.45it/s, Materializing param=model.embed_tokens.weight]Loading weights:   0%|▍                                                                                                                         | 3/751 [00:00<00:00, 1717.80it/s, Materializing param=model.layers.0.input_layernorm.weight]Loading weights:   0%|▍                                                                                                                         | 3/751 [00:00<00:00, 1608.66it/s, Materializing param=model.layers.0.input_layernorm.weight]Loading weights:   1%|▋                                                                                                                           | 4/751 [00:00<00:00, 1729.61it/s, Materializing param=model.layers.0.mlp.down_proj.weight]Loading weights:   1%|▋                                                                                                                           | 4/751 [00:00<00:00, 1565.92it/s, Materializing param=model.layers.0.mlp.down_proj.weight]Loading weights:   1%|▊                                                                                                                           | 5/751 [00:00<00:00, 1772.74it/s, Materializing param=model.layers.0.mlp.gate_proj.weight]Loading weights:   1%|▊                                                                                                                           | 5/751 [00:00<00:00, 1501.72it/s, Materializing param=model.layers.0.mlp.gate_proj.weight]Loading weights:   1%|█                                                                                                                             | 6/751 [00:00<00:00, 1695.01it/s, Materializing param=model.layers.0.mlp.up_proj.weight]Loading weights:   1%|█                                                                                                                             | 6/751 [00:00<00:00, 1651.63it/s, Materializing param=model.layers.0.mlp.up_proj.weight]Loading weights:   1%|█                                                                                                                | 7/751 [00:00<00:00, 1802.23it/s, Materializing param=model.layers.0.post_attention_layernorm.weight]Loading weights:   1%|█                                                                                                                | 7/751 [00:00<00:00, 1631.75it/s, Materializing param=model.layers.0.post_attention_layernorm.weight]Loading weights:   1%|█▏                                                                                                               | 8/751 [00:00<00:00, 1682.69it/s, Materializing param=model.layers.0.self_attn.kv_a_layernorm.weight]Loading weights:   1%|█▏                                                                                                               | 8/751 [00:00<00:00, 1638.96it/s, Materializing param=model.layers.0.self_attn.kv_a_layernorm.weight]Loading weights:   1%|█▎                                                                                                           | 9/751 [00:00<00:00, 1504.29it/s, Materializing param=model.layers.0.self_attn.kv_a_proj_with_mqa.weight]Loading weights:   1%|█▎                                                                                                           | 9/751 [00:00<00:00, 1443.33it/s, Materializing param=model.layers.0.self_attn.kv_a_proj_with_mqa.weight]Loading weights:   1%|█▌                                                                                                                   | 10/751 [00:00<00:00, 1513.42it/s, Materializing param=model.layers.0.self_attn.kv_b_proj.weight]Loading weights:   1%|█▌                                                                                                                   | 10/751 [00:00<00:00, 1479.11it/s, Materializing param=model.layers.0.self_attn.kv_b_proj.weight]Loading weights:   1%|█▊                                                                                                                      | 11/751 [00:00<00:00, 1593.58it/s, Materializing param=model.layers.0.self_attn.o_proj.weight]Loading weights:   1%|█▊                                                                                                                      | 11/751 [00:00<00:00, 1531.78it/s, Materializing param=model.layers.0.self_attn.o_proj.weight]Loading weights:   2%|█▊                                                                                                               | 12/751 [00:00<00:00, 1619.84it/s, Materializing param=model.layers.0.self_attn.q_a_layernorm.weight]Loading weights:   2%|█▊                                                                                                               | 12/751 [00:00<00:00, 1207.08it/s, Materializing param=model.layers.0.self_attn.q_a_layernorm.weight]Loading weights:   2%|██                                                                                                                    | 13/751 [00:00<00:00, 1244.52it/s, Materializing param=model.layers.0.self_attn.q_a_proj.weight]Loading weights:   2%|██                                                                                                                    | 13/751 [00:00<00:00, 1062.74it/s, Materializing param=model.layers.0.self_attn.q_a_proj.weight]Loading weights:   2%|██▏                                                                                                                   | 14/751 [00:00<00:00, 1129.84it/s, Materializing param=model.layers.0.self_attn.q_b_proj.weight]Loading weights:   2%|██▏                                                                                                                   | 14/751 [00:00<00:00, 1110.93it/s, Materializing param=model.layers.0.self_attn.q_b_proj.weight]Loading weights:   2%|██▍                                                                                                                      | 15/751 [00:00<00:00, 1150.62it/s, Materializing param=model.layers.1.input_layernorm.weight]Loading weights:   2%|██▍                                                                                                                      | 15/751 [00:00<00:00, 1120.15it/s, Materializing param=model.layers.1.input_layernorm.weight]Loading weights:   2%|██▌                                                                                                                        | 16/751 [00:00<00:00, 938.68it/s, Materializing param=model.layers.1.mlp.experts.down_proj]Loading weights:   2%|██▌                                                                                                                        | 16/751 [00:00<00:00, 924.90it/s, Materializing param=model.layers.1.mlp.experts.down_proj]Loading weights:   2%|██▊                                                                                                                         | 17/751 [00:01<01:13, 10.05it/s, Materializing param=model.layers.1.mlp.experts.down_proj]Loading weights:   2%|██▋                                                                                                                      | 17/751 [00:01<01:13, 10.05it/s, Materializing param=model.layers.1.mlp.experts.gate_up_proj]Loading weights:   2%|██▋                                                                                                                      | 17/751 [00:01<01:13, 10.05it/s, Materializing param=model.layers.1.mlp.experts.gate_up_proj]Loading weights:   2%|██▊                                                                                                                         | 17/751 [00:01<01:14,  9.82it/s, Materializing param=model.layers.1.mlp.experts.down_proj]Loading weights:   2%|██▋                                                                                                                      | 17/751 [00:01<01:14,  9.82it/s, Materializing param=model.layers.1.mlp.experts.gate_up_proj]Loading weights:   2%|██▋                                                                                                                      | 17/751 [00:01<01:14,  9.82it/s, Materializing param=model.layers.1.mlp.experts.gate_up_proj]Loading weights:   2%|██▋                                                                                                              | 18/751 [00:06<01:12, 10.05it/s, Materializing param=model.layers.1.mlp.gate.e_score_correction_bias]Loading weights:   2%|██▋                                                                                                              | 18/751 [00:06<01:12, 10.05it/s, Materializing param=model.layers.1.mlp.gate.e_score_correction_bias]Loading weights:   3%|██▊                                                                                                              | 19/751 [00:06<05:03,  2.41it/s, Materializing param=model.layers.1.mlp.gate.e_score_correction_bias]Loading weights:   3%|███▎                                                                                                                              | 19/751 [00:06<05:03,  2.41it/s, Materializing param=model.layers.1.mlp.gate.weight]Loading weights:   3%|███▎                                                                                                                              | 19/751 [00:06<05:03,  2.41it/s, Materializing param=model.layers.1.mlp.gate.weight]Loading weights:   3%|██▉                                                                                                           | 20/751 [00:06<05:03,  2.41it/s, Materializing param=model.layers.1.mlp.shared_experts.down_proj.weight]Loading weights:   3%|██▉                                                                                                           | 20/751 [00:06<05:03,  2.41it/s, Materializing param=model.layers.1.mlp.shared_experts.down_proj.weight]Loading weights:   3%|███                                                                                                           | 21/751 [00:06<05:02,  2.41it/s, Materializing param=model.layers.1.mlp.shared_experts.gate_proj.weight]Loading weights:   3%|███                                                                                                           | 21/751 [00:06<05:02,  2.41it/s, Materializing param=model.layers.1.mlp.shared_experts.gate_proj.weight]Loading weights:   3%|███▎                                                                                                            | 22/751 [00:06<05:02,  2.41it/s, Materializing param=model.layers.1.mlp.shared_experts.up_proj.weight]Loading weights:   3%|███▎                                                                                                            | 22/751 [00:06<05:02,  2.41it/s, Materializing param=model.layers.1.mlp.shared_experts.up_proj.weight]Loading weights:   3%|███▍                                                                                                              | 23/751 [00:06<05:01,  2.41it/s, Materializing param=model.layers.1.post_attention_layernorm.weight]Loading weights:   3%|███▍                                                                                                              | 23/751 [00:06<05:01,  2.41it/s, Materializing param=model.layers.1.post_attention_layernorm.weight]Loading weights:   3%|███▋                                                                                                              | 24/751 [00:06<05:01,  2.41it/s, Materializing param=model.layers.1.self_attn.kv_a_layernorm.weight]Loading weights:   3%|███▋                                                                                                              | 24/751 [00:06<05:01,  2.41it/s, Materializing param=model.layers.1.self_attn.kv_a_layernorm.weight]Loading weights:   3%|███▋                                                                                                          | 25/751 [00:06<05:01,  2.41it/s, Materializing param=model.layers.1.self_attn.kv_a_proj_with_mqa.weight]Loading weights:   3%|███▋                                                                                                          | 25/751 [00:06<05:01,  2.41it/s, Materializing param=model.layers.1.self_attn.kv_a_proj_with_mqa.weight]Loading weights:   3%|████                                                                                                                   | 26/751 [00:06<05:00,  2.41it/s, Materializing param=model.layers.1.self_attn.kv_b_proj.weight]Loading weights:   3%|████                                                                                                                   | 26/751 [00:06<05:00,  2.41it/s, Materializing param=model.layers.1.self_attn.kv_b_proj.weight]Loading weights:   4%|████▍                                                                                                                     | 27/751 [00:06<05:00,  2.41it/s, Materializing param=model.layers.1.self_attn.o_proj.weight]Loading weights:   4%|████▍                                                                                                                     | 27/751 [00:06<05:00,  2.41it/s, Materializing param=model.layers.1.self_attn.o_proj.weight]Loading weights:   4%|████▎                                                                                                              | 28/751 [00:06<04:59,  2.41it/s, Materializing param=model.layers.1.self_attn.q_a_layernorm.weight]Loading weights:   4%|████▎                                                                                                              | 28/751 [00:06<04:59,  2.41it/s, Materializing param=model.layers.1.self_attn.q_a_layernorm.weight]Loading weights:   4%|████▋                                                                                                                   | 29/751 [00:06<04:59,  2.41it/s, Materializing param=model.layers.1.self_attn.q_a_proj.weight]Loading weights:   4%|████▋                                                                                                                   | 29/751 [00:06<04:59,  2.41it/s, Materializing param=model.layers.1.self_attn.q_a_proj.weight]Loading weights:   2%|██▉                                                                                                                      | 18/751 [00:06<05:28,  2.23it/s, Materializing param=model.layers.1.mlp.experts.gate_up_proj]Loading weights:   4%|████▊                                                                                                                   | 30/751 [00:06<04:59,  2.41it/s, Materializing param=model.layers.1.self_attn.q_b_proj.weight]Loading weights:   4%|████▊                                                                                                                   | 30/751 [00:06<04:59,  2.41it/s, Materializing param=model.layers.1.self_attn.q_b_proj.weight]Loading weights:   2%|██▋                                                                                                              | 18/751 [00:06<05:28,  2.23it/s, Materializing param=model.layers.1.mlp.gate.e_score_correction_bias]Loading weights:   2%|██▋                                                                                                              | 18/751 [00:06<05:28,  2.23it/s, Materializing param=model.layers.1.mlp.gate.e_score_correction_bias]Loading weights:   4%|█████                                                                                                                      | 31/751 [00:06<04:58,  2.41it/s, Materializing param=model.layers.2.input_layernorm.weight]Loading weights:   4%|█████                                                                                                                      | 31/751 [00:06<04:58,  2.41it/s, Materializing param=model.layers.2.input_layernorm.weight]Loading weights:   3%|███▎                                                                                                                              | 19/751 [00:06<05:28,  2.23it/s, Materializing param=model.layers.1.mlp.gate.weight]Loading weights:   3%|███▎                                                                                                                              | 19/751 [00:06<05:28,  2.23it/s, Materializing param=model.layers.1.mlp.gate.weight]Loading weights:   4%|█████▎                                                                                                                      | 32/751 [00:06<04:58,  2.41it/s, Materializing param=model.layers.2.mlp.experts.down_proj]Loading weights:   4%|█████▎                                                                                                                      | 32/751 [00:06<04:58,  2.41it/s, Materializing param=model.layers.2.mlp.experts.down_proj]Loading weights:   3%|██▉                                                                                                           | 20/751 [00:06<05:28,  2.23it/s, Materializing param=model.layers.1.mlp.shared_experts.down_proj.weight]Loading weights:   3%|██▉                                                                                                           | 20/751 [00:06<05:28,  2.23it/s, Materializing param=model.layers.1.mlp.shared_experts.down_proj.weight]Loading weights:   3%|███                                                                                                           | 21/751 [00:06<05:27,  2.23it/s, Materializing param=model.layers.1.mlp.shared_experts.gate_proj.weight]Loading weights:   3%|███                                                                                                           | 21/751 [00:06<05:27,  2.23it/s, Materializing param=model.layers.1.mlp.shared_experts.gate_proj.weight]Loading weights:   3%|███▎                                                                                                            | 22/751 [00:06<05:27,  2.23it/s, Materializing param=model.layers.1.mlp.shared_experts.up_proj.weight]Loading weights:   3%|███▎                                                                                                            | 22/751 [00:06<05:27,  2.23it/s, Materializing param=model.layers.1.mlp.shared_experts.up_proj.weight]Loading weights:   3%|███▍                                                                                                              | 23/751 [00:06<05:26,  2.23it/s, Materializing param=model.layers.1.post_attention_layernorm.weight]Loading weights:   3%|███▍                                                                                                              | 23/751 [00:06<05:26,  2.23it/s, Materializing param=model.layers.1.post_attention_layernorm.weight]Loading weights:   3%|███▋                                                                                                              | 24/751 [00:06<05:26,  2.23it/s, Materializing param=model.layers.1.self_attn.kv_a_layernorm.weight]Loading weights:   3%|███▋                                                                                                              | 24/751 [00:06<05:26,  2.23it/s, Materializing param=model.layers.1.self_attn.kv_a_layernorm.weight]Loading weights:   3%|███▋                                                                                                          | 25/751 [00:06<05:25,  2.23it/s, Materializing param=model.layers.1.self_attn.kv_a_proj_with_mqa.weight]Loading weights:   3%|███▋                                                                                                          | 25/751 [00:06<05:25,  2.23it/s, Materializing param=model.layers.1.self_attn.kv_a_proj_with_mqa.weight]Loading weights:   3%|████                                                                                                                   | 26/751 [00:06<05:25,  2.23it/s, Materializing param=model.layers.1.self_attn.kv_b_proj.weight]Loading weights:   3%|████                                                                                                                   | 26/751 [00:06<05:25,  2.23it/s, Materializing param=model.layers.1.self_attn.kv_b_proj.weight]Loading weights:   4%|████▍                                                                                                                     | 27/751 [00:06<05:24,  2.23it/s, Materializing param=model.layers.1.self_attn.o_proj.weight]Loading weights:   4%|████▍                                                                                                                     | 27/751 [00:06<05:24,  2.23it/s, Materializing param=model.layers.1.self_attn.o_proj.weight]Loading weights:   4%|████▎                                                                                                              | 28/751 [00:06<05:24,  2.23it/s, Materializing param=model.layers.1.self_attn.q_a_layernorm.weight]Loading weights:   4%|████▎                                                                                                              | 28/751 [00:06<05:24,  2.23it/s, Materializing param=model.layers.1.self_attn.q_a_layernorm.weight]Loading weights:   4%|████▋                                                                                                                   | 29/751 [00:06<05:23,  2.23it/s, Materializing param=model.layers.1.self_attn.q_a_proj.weight]Loading weights:   4%|████▋                                                                                                                   | 29/751 [00:06<05:23,  2.23it/s, Materializing param=model.layers.1.self_attn.q_a_proj.weight]Loading weights:   4%|████▊                                                                                                                   | 30/751 [00:06<05:23,  2.23it/s, Materializing param=model.layers.1.self_attn.q_b_proj.weight]Loading weights:   4%|████▊                                                                                                                   | 30/751 [00:06<05:23,  2.23it/s, Materializing param=model.layers.1.self_attn.q_b_proj.weight]Loading weights:   4%|█████                                                                                                                      | 31/751 [00:06<05:23,  2.23it/s, Materializing param=model.layers.2.input_layernorm.weight]Loading weights:   4%|█████                                                                                                                      | 31/751 [00:06<05:23,  2.23it/s, Materializing param=model.layers.2.input_layernorm.weight]Loading weights:   4%|█████▎                                                                                                                      | 32/751 [00:06<05:22,  2.23it/s, Materializing param=model.layers.2.mlp.experts.down_proj]Loading weights:   4%|█████▎                                                                                                                      | 32/751 [00:06<05:22,  2.23it/s, Materializing param=model.layers.2.mlp.experts.down_proj]Loading weights:   4%|█████▍                                                                                                                      | 33/751 [00:07<02:49,  4.23it/s, Materializing param=model.layers.2.mlp.experts.down_proj]Loading weights:   4%|█████▍                                                                                                                      | 33/751 [00:07<02:51,  4.19it/s, Materializing param=model.layers.2.mlp.experts.down_proj]Loading weights:   4%|█████▎                                                                                                                   | 33/751 [00:07<02:49,  4.23it/s, Materializing param=model.layers.2.mlp.experts.gate_up_proj]Loading weights:   4%|█████▎                                                                                                                   | 33/751 [00:07<02:51,  4.19it/s, Materializing param=model.layers.2.mlp.experts.gate_up_proj]Loading weights:   4%|█████▎                                                                                                                   | 33/751 [00:07<02:49,  4.23it/s, Materializing param=model.layers.2.mlp.experts.gate_up_proj]Loading weights:   4%|█████▎                                                                                                                   | 33/751 [00:07<02:51,  4.19it/s, Materializing param=model.layers.2.mlp.experts.gate_up_proj]Loading weights:   5%|█████▍                                                                                                                   | 34/751 [00:11<05:02,  2.37it/s, Materializing param=model.layers.2.mlp.experts.gate_up_proj]Loading weights:   5%|█████                                                                                                            | 34/751 [00:11<05:02,  2.37it/s, Materializing param=model.layers.2.mlp.gate.e_score_correction_bias]Loading weights:   5%|█████                                                                                                            | 34/751 [00:11<05:02,  2.37it/s, Materializing param=model.layers.2.mlp.gate.e_score_correction_bias]Loading weights:   5%|██████                                                                                                                            | 35/751 [00:11<05:02,  2.37it/s, Materializing param=model.layers.2.mlp.gate.weight]Loading weights:   5%|██████                                                                                                                            | 35/751 [00:11<05:02,  2.37it/s, Materializing param=model.layers.2.mlp.gate.weight]Loading weights:   5%|█████▎                                                                                                        | 36/751 [00:11<05:01,  2.37it/s, Materializing param=model.layers.2.mlp.shared_experts.down_proj.weight]Loading weights:   5%|█████▎                                                                                                        | 36/751 [00:11<05:01,  2.37it/s, Materializing param=model.layers.2.mlp.shared_experts.down_proj.weight]Loading weights:   5%|█████▍                                                                                                        | 37/751 [00:11<05:01,  2.37it/s, Materializing param=model.layers.2.mlp.shared_experts.gate_proj.weight]Loading weights:   5%|█████▍                                                                                                        | 37/751 [00:11<05:01,  2.37it/s, Materializing param=model.layers.2.mlp.shared_experts.gate_proj.weight]Loading weights:   5%|█████▋                                                                                                          | 38/751 [00:11<05:00,  2.37it/s, Materializing param=model.layers.2.mlp.shared_experts.up_proj.weight]Loading weights:   5%|█████▋                                                                                                          | 38/751 [00:11<05:00,  2.37it/s, Materializing param=model.layers.2.mlp.shared_experts.up_proj.weight]Loading weights:   5%|█████▉                                                                                                            | 39/751 [00:11<05:00,  2.37it/s, Materializing param=model.layers.2.post_attention_layernorm.weight]Loading weights:   5%|█████▉                                                                                                            | 39/751 [00:11<05:00,  2.37it/s, Materializing param=model.layers.2.post_attention_layernorm.weight]Loading weights:   5%|██████                                                                                                            | 40/751 [00:11<05:00,  2.37it/s, Materializing param=model.layers.2.self_attn.kv_a_layernorm.weight]Loading weights:   5%|██████                                                                                                            | 40/751 [00:11<05:00,  2.37it/s, Materializing param=model.layers.2.self_attn.kv_a_layernorm.weight]Loading weights:   5%|██████                                                                                                        | 41/751 [00:11<04:59,  2.37it/s, Materializing param=model.layers.2.self_attn.kv_a_proj_with_mqa.weight]Loading weights:   5%|██████                                                                                                        | 41/751 [00:11<04:59,  2.37it/s, Materializing param=model.layers.2.self_attn.kv_a_proj_with_mqa.weight]Loading weights:   6%|██████▋                                                                                                                | 42/751 [00:11<04:59,  2.37it/s, Materializing param=model.layers.2.self_attn.kv_b_proj.weight]Loading weights:   6%|██████▋                                                                                                                | 42/751 [00:11<04:59,  2.37it/s, Materializing param=model.layers.2.self_attn.kv_b_proj.weight]Loading weights:   6%|██████▉                                                                                                                   | 43/751 [00:11<04:58,  2.37it/s, Materializing param=model.layers.2.self_attn.o_proj.weight]Loading weights:   6%|██████▉                                                                                                                   | 43/751 [00:11<04:58,  2.37it/s, Materializing param=model.layers.2.self_attn.o_proj.weight]Loading weights:   6%|██████▋                                                                                                            | 44/751 [00:11<04:58,  2.37it/s, Materializing param=model.layers.2.self_attn.q_a_layernorm.weight]Loading weights:   6%|██████▋                                                                                                            | 44/751 [00:11<04:58,  2.37it/s, Materializing param=model.layers.2.self_attn.q_a_layernorm.weight]Loading weights:   6%|███████▏                                                                                                                | 45/751 [00:11<04:57,  2.37it/s, Materializing param=model.layers.2.self_attn.q_a_proj.weight]Loading weights:   6%|███████▏                                                                                                                | 45/751 [00:11<04:57,  2.37it/s, Materializing param=model.layers.2.self_attn.q_a_proj.weight]Loading weights:   6%|███████▎                                                                                                                | 46/751 [00:11<04:57,  2.37it/s, Materializing param=model.layers.2.self_attn.q_b_proj.weight]Loading weights:   6%|███████▎                                                                                                                | 46/751 [00:11<04:57,  2.37it/s, Materializing param=model.layers.2.self_attn.q_b_proj.weight]Loading weights:   6%|███████▋                                                                                                                   | 47/751 [00:11<04:57,  2.37it/s, Materializing param=model.layers.3.input_layernorm.weight]Loading weights:   6%|███████▋                                                                                                                   | 47/751 [00:11<04:57,  2.37it/s, Materializing param=model.layers.3.input_layernorm.weight]Loading weights:   6%|███████▉                                                                                                                    | 48/751 [00:11<04:56,  2.37it/s, Materializing param=model.layers.3.mlp.experts.down_proj]Loading weights:   6%|███████▉                                                                                                                    | 48/751 [00:11<04:56,  2.37it/s, Materializing param=model.layers.3.mlp.experts.down_proj]Loading weights:   5%|█████▍                                                                                                                   | 34/751 [00:11<05:05,  2.34it/s, Materializing param=model.layers.2.mlp.experts.gate_up_proj]Loading weights:   5%|█████                                                                                                            | 34/751 [00:11<05:05,  2.34it/s, Materializing param=model.layers.2.mlp.gate.e_score_correction_bias]Loading weights:   5%|█████                                                                                                            | 34/751 [00:11<05:05,  2.34it/s, Materializing param=model.layers.2.mlp.gate.e_score_correction_bias]Loading weights:   5%|██████                                                                                                                            | 35/751 [00:11<05:05,  2.34it/s, Materializing param=model.layers.2.mlp.gate.weight]Loading weights:   5%|██████                                                                                                                            | 35/751 [00:11<05:05,  2.34it/s, Materializing param=model.layers.2.mlp.gate.weight]Loading weights:   5%|█████▎                                                                                                        | 36/751 [00:11<05:05,  2.34it/s, Materializing param=model.layers.2.mlp.shared_experts.down_proj.weight]Loading weights:   5%|█████▎                                                                                                        | 36/751 [00:11<05:05,  2.34it/s, Materializing param=model.layers.2.mlp.shared_experts.down_proj.weight]Loading weights:   5%|█████▍                                                                                                        | 37/751 [00:11<05:04,  2.34it/s, Materializing param=model.layers.2.mlp.shared_experts.gate_proj.weight]Loading weights:   5%|█████▍                                                                                                        | 37/751 [00:11<05:04,  2.34it/s, Materializing param=model.layers.2.mlp.shared_experts.gate_proj.weight]Loading weights:   5%|█████▋                                                                                                          | 38/751 [00:11<05:04,  2.34it/s, Materializing param=model.layers.2.mlp.shared_experts.up_proj.weight]Loading weights:   5%|█████▋                                                                                                          | 38/751 [00:11<05:04,  2.34it/s, Materializing param=model.layers.2.mlp.shared_experts.up_proj.weight]Loading weights:   5%|█████▉                                                                                                            | 39/751 [00:11<05:03,  2.34it/s, Materializing param=model.layers.2.post_attention_layernorm.weight]Loading weights:   5%|█████▉                                                                                                            | 39/751 [00:11<05:03,  2.34it/s, Materializing param=model.layers.2.post_attention_layernorm.weight]Loading weights:   5%|██████                                                                                                            | 40/751 [00:11<05:03,  2.34it/s, Materializing param=model.layers.2.self_attn.kv_a_layernorm.weight]Loading weights:   5%|██████                                                                                                            | 40/751 [00:11<05:03,  2.34it/s, Materializing param=model.layers.2.self_attn.kv_a_layernorm.weight]Loading weights:   5%|██████                                                                                                        | 41/751 [00:11<05:02,  2.34it/s, Materializing param=model.layers.2.self_attn.kv_a_proj_with_mqa.weight]Loading weights:   5%|██████                                                                                                        | 41/751 [00:11<05:02,  2.34it/s, Materializing param=model.layers.2.self_attn.kv_a_proj_with_mqa.weight]Loading weights:   6%|██████▋                                                                                                                | 42/751 [00:11<05:02,  2.34it/s, Materializing param=model.layers.2.self_attn.kv_b_proj.weight]Loading weights:   6%|██████▋                                                                                                                | 42/751 [00:11<05:02,  2.34it/s, Materializing param=model.layers.2.self_attn.kv_b_proj.weight]Loading weights:   6%|██████▉                                                                                                                   | 43/751 [00:11<05:02,  2.34it/s, Materializing param=model.layers.2.self_attn.o_proj.weight]Loading weights:   6%|██████▉                                                                                                                   | 43/751 [00:11<05:02,  2.34it/s, Materializing param=model.layers.2.self_attn.o_proj.weight]Loading weights:   6%|██████▋                                                                                                            | 44/751 [00:11<05:01,  2.34it/s, Materializing param=model.layers.2.self_attn.q_a_layernorm.weight]Loading weights:   6%|██████▋                                                                                                            | 44/751 [00:11<05:01,  2.34it/s, Materializing param=model.layers.2.self_attn.q_a_layernorm.weight]Loading weights:   6%|███████▏                                                                                                                | 45/751 [00:11<05:01,  2.34it/s, Materializing param=model.layers.2.self_attn.q_a_proj.weight]Loading weights:   6%|███████▏                                                                                                                | 45/751 [00:11<05:01,  2.34it/s, Materializing param=model.layers.2.self_attn.q_a_proj.weight]Loading weights:   6%|███████▎                                                                                                                | 46/751 [00:11<05:00,  2.34it/s, Materializing param=model.layers.2.self_attn.q_b_proj.weight]Loading weights:   6%|███████▎                                                                                                                | 46/751 [00:11<05:00,  2.34it/s, Materializing param=model.layers.2.self_attn.q_b_proj.weight]Loading weights:   6%|███████▋                                                                                                                   | 47/751 [00:11<05:00,  2.34it/s, Materializing param=model.layers.3.input_layernorm.weight]Loading weights:   6%|███████▋                                                                                                                   | 47/751 [00:11<05:00,  2.34it/s, Materializing param=model.layers.3.input_layernorm.weight]Loading weights:   6%|███████▉                                                                                                                    | 48/751 [00:11<04:59,  2.34it/s, Materializing param=model.layers.3.mlp.experts.down_proj]Loading weights:   6%|███████▉                                                                                                                    | 48/751 [00:11<04:59,  2.34it/s, Materializing param=model.layers.3.mlp.experts.down_proj]Loading weights:   7%|████████                                                                                                                    | 49/751 [00:13<02:57,  3.96it/s, Materializing param=model.layers.3.mlp.experts.down_proj]Loading weights:   7%|████████                                                                                                                    | 49/751 [00:13<02:58,  3.94it/s, Materializing param=model.layers.3.mlp.experts.down_proj]Loading weights:   7%|███████▉                                                                                                                 | 49/751 [00:13<02:58,  3.94it/s, Materializing param=model.layers.3.mlp.experts.gate_up_proj]Loading weights:   7%|███████▉                                                                                                                 | 49/751 [00:13<02:57,  3.96it/s, Materializing param=model.layers.3.mlp.experts.gate_up_proj]Loading weights:   7%|███████▉                                                                                                                 | 49/751 [00:13<02:58,  3.94it/s, Materializing param=model.layers.3.mlp.experts.gate_up_proj]Loading weights:   7%|███████▉                                                                                                                 | 49/751 [00:13<02:57,  3.96it/s, Materializing param=model.layers.3.mlp.experts.gate_up_proj]Loading weights:   7%|████████                                                                                                                 | 50/751 [00:16<04:54,  2.38it/s, Materializing param=model.layers.3.mlp.experts.gate_up_proj]Loading weights:   7%|███████▌                                                                                                         | 50/751 [00:16<04:54,  2.38it/s, Materializing param=model.layers.3.mlp.gate.e_score_correction_bias]Loading weights:   7%|███████▌                                                                                                         | 50/751 [00:16<04:54,  2.38it/s, Materializing param=model.layers.3.mlp.gate.e_score_correction_bias]Loading weights:   7%|████████▊                                                                                                                         | 51/751 [00:16<04:54,  2.38it/s, Materializing param=model.layers.3.mlp.gate.weight]Loading weights:   7%|████████▊                                                                                                                         | 51/751 [00:16<04:54,  2.38it/s, Materializing param=model.layers.3.mlp.gate.weight]Loading weights:   7%|███████▌                                                                                                      | 52/751 [00:16<04:54,  2.38it/s, Materializing param=model.layers.3.mlp.shared_experts.down_proj.weight]Loading weights:   7%|███████▌                                                                                                      | 52/751 [00:16<04:54,  2.38it/s, Materializing param=model.layers.3.mlp.shared_experts.down_proj.weight]Loading weights:   7%|███████▊                                                                                                      | 53/751 [00:16<04:53,  2.38it/s, Materializing param=model.layers.3.mlp.shared_experts.gate_proj.weight]Loading weights:   7%|███████▊                                                                                                      | 53/751 [00:16<04:53,  2.38it/s, Materializing param=model.layers.3.mlp.shared_experts.gate_proj.weight]Loading weights:   7%|████████                                                                                                        | 54/751 [00:16<04:53,  2.38it/s, Materializing param=model.layers.3.mlp.shared_experts.up_proj.weight]Loading weights:   7%|████████                                                                                                        | 54/751 [00:16<04:53,  2.38it/s, Materializing param=model.layers.3.mlp.shared_experts.up_proj.weight]Loading weights:   7%|████████▎                                                                                                         | 55/751 [00:16<04:52,  2.38it/s, Materializing param=model.layers.3.post_attention_layernorm.weight]Loading weights:   7%|████████▎                                                                                                         | 55/751 [00:16<04:52,  2.38it/s, Materializing param=model.layers.3.post_attention_layernorm.weight]Loading weights:   7%|████████▌                                                                                                         | 56/751 [00:16<04:52,  2.38it/s, Materializing param=model.layers.3.self_attn.kv_a_layernorm.weight]Loading weights:   7%|████████▌                                                                                                         | 56/751 [00:16<04:52,  2.38it/s, Materializing param=model.layers.3.self_attn.kv_a_layernorm.weight]Loading weights:   8%|████████▎                                                                                                     | 57/751 [00:16<04:51,  2.38it/s, Materializing param=model.layers.3.self_attn.kv_a_proj_with_mqa.weight]Loading weights:   8%|████████▎                                                                                                     | 57/751 [00:16<04:51,  2.38it/s, Materializing param=model.layers.3.self_attn.kv_a_proj_with_mqa.weight]Loading weights:   8%|█████████▏                                                                                                             | 58/751 [00:16<04:51,  2.38it/s, Materializing param=model.layers.3.self_attn.kv_b_proj.weight]Loading weights:   8%|█████████▏                                                                                                             | 58/751 [00:16<04:51,  2.38it/s, Materializing param=model.layers.3.self_attn.kv_b_proj.weight]Loading weights:   8%|█████████▌                                                                                                                | 59/751 [00:16<04:51,  2.38it/s, Materializing param=model.layers.3.self_attn.o_proj.weight]Loading weights:   8%|█████████▌                                                                                                                | 59/751 [00:16<04:51,  2.38it/s, Materializing param=model.layers.3.self_attn.o_proj.weight]Loading weights:   8%|█████████▏                                                                                                         | 60/751 [00:16<04:50,  2.38it/s, Materializing param=model.layers.3.self_attn.q_a_layernorm.weight]Loading weights:   8%|█████████▏                                                                                                         | 60/751 [00:16<04:50,  2.38it/s, Materializing param=model.layers.3.self_attn.q_a_layernorm.weight]Loading weights:   8%|█████████▋                                                                                                              | 61/751 [00:16<04:50,  2.38it/s, Materializing param=model.layers.3.self_attn.q_a_proj.weight]Loading weights:   8%|█████████▋                                                                                                              | 61/751 [00:16<04:50,  2.38it/s, Materializing param=model.layers.3.self_attn.q_a_proj.weight]Loading weights:   8%|█████████▉                                                                                                              | 62/751 [00:16<04:49,  2.38it/s, Materializing param=model.layers.3.self_attn.q_b_proj.weight]Loading weights:   8%|█████████▉                                                                                                              | 62/751 [00:16<04:49,  2.38it/s, Materializing param=model.layers.3.self_attn.q_b_proj.weight]Loading weights:   8%|██████████▎                                                                                                                | 63/751 [00:16<04:49,  2.38it/s, Materializing param=model.layers.4.input_layernorm.weight]Loading weights:   8%|██████████▎                                                                                                                | 63/751 [00:16<04:49,  2.38it/s, Materializing param=model.layers.4.input_layernorm.weight]Loading weights:   9%|██████████▌                                                                                                                 | 64/751 [00:16<04:49,  2.38it/s, Materializing param=model.layers.4.mlp.experts.down_proj]Loading weights:   9%|██████████▌                                                                                                                 | 64/751 [00:16<04:49,  2.38it/s, Materializing param=model.layers.4.mlp.experts.down_proj]Loading weights:   7%|████████                                                                                                                 | 50/751 [00:16<04:53,  2.39it/s, Materializing param=model.layers.3.mlp.experts.gate_up_proj]Loading weights:   7%|███████▌                                                                                                         | 50/751 [00:16<04:53,  2.39it/s, Materializing param=model.layers.3.mlp.gate.e_score_correction_bias]Loading weights:   7%|███████▌                                                                                                         | 50/751 [00:16<04:53,  2.39it/s, Materializing param=model.layers.3.mlp.gate.e_score_correction_bias]Loading weights:   7%|████████▊                                                                                                                         | 51/751 [00:16<04:53,  2.39it/s, Materializing param=model.layers.3.mlp.gate.weight]Loading weights:   7%|████████▊                                                                                                                         | 51/751 [00:16<04:53,  2.39it/s, Materializing param=model.layers.3.mlp.gate.weight]Loading weights:   7%|███████▌                                                                                                      | 52/751 [00:16<04:52,  2.39it/s, Materializing param=model.layers.3.mlp.shared_experts.down_proj.weight]Loading weights:   7%|███████▌                                                                                                      | 52/751 [00:16<04:52,  2.39it/s, Materializing param=model.layers.3.mlp.shared_experts.down_proj.weight]Loading weights:   7%|███████▊                                                                                                      | 53/751 [00:16<04:52,  2.39it/s, Materializing param=model.layers.3.mlp.shared_experts.gate_proj.weight]Loading weights:   7%|███████▊                                                                                                      | 53/751 [00:16<04:52,  2.39it/s, Materializing param=model.layers.3.mlp.shared_experts.gate_proj.weight]Loading weights:   7%|████████                                                                                                        | 54/751 [00:16<04:52,  2.39it/s, Materializing param=model.layers.3.mlp.shared_experts.up_proj.weight]Loading weights:   7%|████████                                                                                                        | 54/751 [00:16<04:52,  2.39it/s, Materializing param=model.layers.3.mlp.shared_experts.up_proj.weight]Loading weights:   7%|████████▎                                                                                                         | 55/751 [00:16<04:51,  2.39it/s, Materializing param=model.layers.3.post_attention_layernorm.weight]Loading weights:   7%|████████▎                                                                                                         | 55/751 [00:16<04:51,  2.39it/s, Materializing param=model.layers.3.post_attention_layernorm.weight]Loading weights:   7%|████████▌                                                                                                         | 56/751 [00:16<04:51,  2.39it/s, Materializing param=model.layers.3.self_attn.kv_a_layernorm.weight]Loading weights:   7%|████████▌                                                                                                         | 56/751 [00:16<04:51,  2.39it/s, Materializing param=model.layers.3.self_attn.kv_a_layernorm.weight]Loading weights:   8%|████████▎                                                                                                     | 57/751 [00:16<04:50,  2.39it/s, Materializing param=model.layers.3.self_attn.kv_a_proj_with_mqa.weight]Loading weights:   8%|████████▎                                                                                                     | 57/751 [00:16<04:50,  2.39it/s, Materializing param=model.layers.3.self_attn.kv_a_proj_with_mqa.weight]Loading weights:   8%|█████████▏                                                                                                             | 58/751 [00:16<04:50,  2.39it/s, Materializing param=model.layers.3.self_attn.kv_b_proj.weight]Loading weights:   8%|█████████▏                                                                                                             | 58/751 [00:16<04:50,  2.39it/s, Materializing param=model.layers.3.self_attn.kv_b_proj.weight]Loading weights:   8%|█████████▌                                                                                                                | 59/751 [00:16<04:50,  2.39it/s, Materializing param=model.layers.3.self_attn.o_proj.weight]Loading weights:   8%|█████████▌                                                                                                                | 59/751 [00:16<04:50,  2.39it/s, Materializing param=model.layers.3.self_attn.o_proj.weight]Loading weights:   8%|█████████▏                                                                                                         | 60/751 [00:16<04:49,  2.39it/s, Materializing param=model.layers.3.self_attn.q_a_layernorm.weight]Loading weights:   8%|█████████▏                                                                                                         | 60/751 [00:16<04:49,  2.39it/s, Materializing param=model.layers.3.self_attn.q_a_layernorm.weight]Loading weights:   8%|█████████▋                                                                                                              | 61/751 [00:16<04:49,  2.39it/s, Materializing param=model.layers.3.self_attn.q_a_proj.weight]Loading weights:   8%|█████████▋                                                                                                              | 61/751 [00:16<04:49,  2.39it/s, Materializing param=model.layers.3.self_attn.q_a_proj.weight]Loading weights:   8%|█████████▉                                                                                                              | 62/751 [00:16<04:48,  2.39it/s, Materializing param=model.layers.3.self_attn.q_b_proj.weight]Loading weights:   8%|█████████▉                                                                                                              | 62/751 [00:16<04:48,  2.39it/s, Materializing param=model.layers.3.self_attn.q_b_proj.weight]Loading weights:   8%|██████████▎                                                                                                                | 63/751 [00:16<04:48,  2.39it/s, Materializing param=model.layers.4.input_layernorm.weight]Loading weights:   8%|██████████▎                                                                                                                | 63/751 [00:16<04:48,  2.39it/s, Materializing param=model.layers.4.input_layernorm.weight]Loading weights:   9%|██████████▌                                                                                                                 | 64/751 [00:16<04:47,  2.39it/s, Materializing param=model.layers.4.mlp.experts.down_proj]Loading weights:   9%|██████████▌                                                                                                                 | 64/751 [00:16<04:47,  2.39it/s, Materializing param=model.layers.4.mlp.experts.down_proj]Loading weights:   9%|██████████▋                                                                                                                 | 65/751 [00:18<02:58,  3.84it/s, Materializing param=model.layers.4.mlp.experts.down_proj]Loading weights:   9%|██████████▋                                                                                                                 | 65/751 [00:18<02:58,  3.84it/s, Materializing param=model.layers.4.mlp.experts.down_proj]Loading weights:   9%|██████████▍                                                                                                              | 65/751 [00:18<02:58,  3.84it/s, Materializing param=model.layers.4.mlp.experts.gate_up_proj]Loading weights:   9%|██████████▍                                                                                                              | 65/751 [00:18<02:58,  3.84it/s, Materializing param=model.layers.4.mlp.experts.gate_up_proj]Loading weights:   9%|██████████▍                                                                                                              | 65/751 [00:18<02:58,  3.84it/s, Materializing param=model.layers.4.mlp.experts.gate_up_proj]Loading weights:   9%|██████████▍                                                                                                              | 65/751 [00:18<02:58,  3.84it/s, Materializing param=model.layers.4.mlp.experts.gate_up_proj]Loading weights:   9%|██████████▋                                                                                                              | 66/751 [00:22<04:46,  2.39it/s, Materializing param=model.layers.4.mlp.experts.gate_up_proj]Loading weights:   9%|█████████▉                                                                                                       | 66/751 [00:22<04:46,  2.39it/s, Materializing param=model.layers.4.mlp.gate.e_score_correction_bias]Loading weights:   9%|█████████▉                                                                                                       | 66/751 [00:22<04:46,  2.39it/s, Materializing param=model.layers.4.mlp.gate.e_score_correction_bias]Loading weights:   9%|███████████▌                                                                                                                      | 67/751 [00:22<04:45,  2.39it/s, Materializing param=model.layers.4.mlp.gate.weight]Loading weights:   9%|███████████▌                                                                                                                      | 67/751 [00:22<04:45,  2.39it/s, Materializing param=model.layers.4.mlp.gate.weight]Loading weights:   9%|█████████▉                                                                                                    | 68/751 [00:22<04:45,  2.39it/s, Materializing param=model.layers.4.mlp.shared_experts.down_proj.weight]Loading weights:   9%|█████████▉                                                                                                    | 68/751 [00:22<04:45,  2.39it/s, Materializing param=model.layers.4.mlp.shared_experts.down_proj.weight]Loading weights:   9%|██████████                                                                                                    | 69/751 [00:22<04:45,  2.39it/s, Materializing param=model.layers.4.mlp.shared_experts.gate_proj.weight]Loading weights:   9%|██████████                                                                                                    | 69/751 [00:22<04:45,  2.39it/s, Materializing param=model.layers.4.mlp.shared_experts.gate_proj.weight]Loading weights:   9%|██████████▍                                                                                                     | 70/751 [00:22<04:44,  2.39it/s, Materializing param=model.layers.4.mlp.shared_experts.up_proj.weight]Loading weights:   9%|██████████▍                                                                                                     | 70/751 [00:22<04:44,  2.39it/s, Materializing param=model.layers.4.mlp.shared_experts.up_proj.weight]Loading weights:   9%|██████████▊                                                                                                       | 71/751 [00:22<04:44,  2.39it/s, Materializing param=model.layers.4.post_attention_layernorm.weight]Loading weights:   9%|██████████▊                                                                                                       | 71/751 [00:22<04:44,  2.39it/s, Materializing param=model.layers.4.post_attention_layernorm.weight]Loading weights:  10%|██████████▉                                                                                                       | 72/751 [00:22<04:43,  2.39it/s, Materializing param=model.layers.4.self_attn.kv_a_layernorm.weight]Loading weights:  10%|██████████▉                                                                                                       | 72/751 [00:22<04:43,  2.39it/s, Materializing param=model.layers.4.self_attn.kv_a_layernorm.weight]Loading weights:  10%|██████████▋                                                                                                   | 73/751 [00:22<04:43,  2.39it/s, Materializing param=model.layers.4.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  10%|██████████▋                                                                                                   | 73/751 [00:22<04:43,  2.39it/s, Materializing param=model.layers.4.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  10%|███████████▋                                                                                                           | 74/751 [00:22<04:42,  2.39it/s, Materializing param=model.layers.4.self_attn.kv_b_proj.weight]Loading weights:  10%|███████████▋                                                                                                           | 74/751 [00:22<04:42,  2.39it/s, Materializing param=model.layers.4.self_attn.kv_b_proj.weight]Loading weights:  10%|████████████▏                                                                                                             | 75/751 [00:22<04:42,  2.39it/s, Materializing param=model.layers.4.self_attn.o_proj.weight]Loading weights:  10%|████████████▏                                                                                                             | 75/751 [00:22<04:42,  2.39it/s, Materializing param=model.layers.4.self_attn.o_proj.weight]Loading weights:  10%|███████████▋                                                                                                       | 76/751 [00:22<04:42,  2.39it/s, Materializing param=model.layers.4.self_attn.q_a_layernorm.weight]Loading weights:  10%|███████████▋                                                                                                       | 76/751 [00:22<04:42,  2.39it/s, Materializing param=model.layers.4.self_attn.q_a_layernorm.weight]Loading weights:  10%|████████████▎                                                                                                           | 77/751 [00:22<04:41,  2.39it/s, Materializing param=model.layers.4.self_attn.q_a_proj.weight]Loading weights:  10%|████████████▎                                                                                                           | 77/751 [00:22<04:41,  2.39it/s, Materializing param=model.layers.4.self_attn.q_a_proj.weight]Loading weights:  10%|████████████▍                                                                                                           | 78/751 [00:22<04:41,  2.39it/s, Materializing param=model.layers.4.self_attn.q_b_proj.weight]Loading weights:  10%|████████████▍                                                                                                           | 78/751 [00:22<04:41,  2.39it/s, Materializing param=model.layers.4.self_attn.q_b_proj.weight]Loading weights:  11%|████████████▉                                                                                                              | 79/751 [00:22<04:40,  2.39it/s, Materializing param=model.layers.5.input_layernorm.weight]Loading weights:  11%|████████████▉                                                                                                              | 79/751 [00:22<04:40,  2.39it/s, Materializing param=model.layers.5.input_layernorm.weight]Loading weights:  11%|█████████████▏                                                                                                              | 80/751 [00:22<04:40,  2.39it/s, Materializing param=model.layers.5.mlp.experts.down_proj]Loading weights:  11%|█████████████▏                                                                                                              | 80/751 [00:22<04:40,  2.39it/s, Materializing param=model.layers.5.mlp.experts.down_proj]Loading weights:   9%|██████████▋                                                                                                              | 66/751 [00:22<04:47,  2.39it/s, Materializing param=model.layers.4.mlp.experts.gate_up_proj]Loading weights:   9%|█████████▉                                                                                                       | 66/751 [00:22<04:47,  2.39it/s, Materializing param=model.layers.4.mlp.gate.e_score_correction_bias]Loading weights:   9%|█████████▉                                                                                                       | 66/751 [00:22<04:47,  2.39it/s, Materializing param=model.layers.4.mlp.gate.e_score_correction_bias]Loading weights:   9%|███████████▌                                                                                                                      | 67/751 [00:22<04:46,  2.39it/s, Materializing param=model.layers.4.mlp.gate.weight]Loading weights:   9%|███████████▌                                                                                                                      | 67/751 [00:22<04:46,  2.39it/s, Materializing param=model.layers.4.mlp.gate.weight]Loading weights:   9%|█████████▉                                                                                                    | 68/751 [00:22<04:46,  2.39it/s, Materializing param=model.layers.4.mlp.shared_experts.down_proj.weight]Loading weights:   9%|█████████▉                                                                                                    | 68/751 [00:22<04:46,  2.39it/s, Materializing param=model.layers.4.mlp.shared_experts.down_proj.weight]Loading weights:   9%|██████████                                                                                                    | 69/751 [00:22<04:45,  2.39it/s, Materializing param=model.layers.4.mlp.shared_experts.gate_proj.weight]Loading weights:   9%|██████████                                                                                                    | 69/751 [00:22<04:45,  2.39it/s, Materializing param=model.layers.4.mlp.shared_experts.gate_proj.weight]Loading weights:   9%|██████████▍                                                                                                     | 70/751 [00:22<04:45,  2.39it/s, Materializing param=model.layers.4.mlp.shared_experts.up_proj.weight]Loading weights:   9%|██████████▍                                                                                                     | 70/751 [00:22<04:45,  2.39it/s, Materializing param=model.layers.4.mlp.shared_experts.up_proj.weight]Loading weights:   9%|██████████▊                                                                                                       | 71/751 [00:22<04:45,  2.39it/s, Materializing param=model.layers.4.post_attention_layernorm.weight]Loading weights:   9%|██████████▊                                                                                                       | 71/751 [00:22<04:45,  2.39it/s, Materializing param=model.layers.4.post_attention_layernorm.weight]Loading weights:  10%|██████████▉                                                                                                       | 72/751 [00:22<04:44,  2.39it/s, Materializing param=model.layers.4.self_attn.kv_a_layernorm.weight]Loading weights:  10%|██████████▉                                                                                                       | 72/751 [00:22<04:44,  2.39it/s, Materializing param=model.layers.4.self_attn.kv_a_layernorm.weight]Loading weights:  10%|██████████▋                                                                                                   | 73/751 [00:22<04:44,  2.39it/s, Materializing param=model.layers.4.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  10%|██████████▋                                                                                                   | 73/751 [00:22<04:44,  2.39it/s, Materializing param=model.layers.4.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  10%|███████████▋                                                                                                           | 74/751 [00:22<04:43,  2.39it/s, Materializing param=model.layers.4.self_attn.kv_b_proj.weight]Loading weights:  10%|███████████▋                                                                                                           | 74/751 [00:22<04:43,  2.39it/s, Materializing param=model.layers.4.self_attn.kv_b_proj.weight]Loading weights:  10%|████████████▏                                                                                                             | 75/751 [00:22<04:43,  2.39it/s, Materializing param=model.layers.4.self_attn.o_proj.weight]Loading weights:  10%|████████████▏                                                                                                             | 75/751 [00:22<04:43,  2.39it/s, Materializing param=model.layers.4.self_attn.o_proj.weight]Loading weights:  10%|███████████▋                                                                                                       | 76/751 [00:22<04:42,  2.39it/s, Materializing param=model.layers.4.self_attn.q_a_layernorm.weight]Loading weights:  10%|███████████▋                                                                                                       | 76/751 [00:22<04:42,  2.39it/s, Materializing param=model.layers.4.self_attn.q_a_layernorm.weight]Loading weights:  10%|████████████▎                                                                                                           | 77/751 [00:22<04:42,  2.39it/s, Materializing param=model.layers.4.self_attn.q_a_proj.weight]Loading weights:  10%|████████████▎                                                                                                           | 77/751 [00:22<04:42,  2.39it/s, Materializing param=model.layers.4.self_attn.q_a_proj.weight]Loading weights:  10%|████████████▍                                                                                                           | 78/751 [00:22<04:42,  2.39it/s, Materializing param=model.layers.4.self_attn.q_b_proj.weight]Loading weights:  10%|████████████▍                                                                                                           | 78/751 [00:22<04:42,  2.39it/s, Materializing param=model.layers.4.self_attn.q_b_proj.weight]Loading weights:  11%|████████████▉                                                                                                              | 79/751 [00:22<04:41,  2.39it/s, Materializing param=model.layers.5.input_layernorm.weight]Loading weights:  11%|████████████▉                                                                                                              | 79/751 [00:22<04:41,  2.39it/s, Materializing param=model.layers.5.input_layernorm.weight]Loading weights:  11%|█████████████▏                                                                                                              | 80/751 [00:22<04:41,  2.39it/s, Materializing param=model.layers.5.mlp.experts.down_proj]Loading weights:  11%|█████████████▏                                                                                                              | 80/751 [00:22<04:41,  2.39it/s, Materializing param=model.layers.5.mlp.experts.down_proj]Loading weights:  11%|█████████████▎                                                                                                              | 81/751 [00:23<02:59,  3.74it/s, Materializing param=model.layers.5.mlp.experts.down_proj]Loading weights:  11%|█████████████▎                                                                                                              | 81/751 [00:23<02:59,  3.74it/s, Materializing param=model.layers.5.mlp.experts.down_proj]Loading weights:  11%|█████████████                                                                                                            | 81/751 [00:23<02:59,  3.74it/s, Materializing param=model.layers.5.mlp.experts.gate_up_proj]Loading weights:  11%|█████████████                                                                                                            | 81/751 [00:23<02:59,  3.74it/s, Materializing param=model.layers.5.mlp.experts.gate_up_proj]Loading weights:  11%|█████████████                                                                                                            | 81/751 [00:23<02:59,  3.74it/s, Materializing param=model.layers.5.mlp.experts.gate_up_proj]Loading weights:  11%|█████████████                                                                                                            | 81/751 [00:23<02:59,  3.74it/s, Materializing param=model.layers.5.mlp.experts.gate_up_proj]Loading weights:  11%|█████████████▏                                                                                                           | 82/751 [00:27<04:41,  2.38it/s, Materializing param=model.layers.5.mlp.experts.gate_up_proj]Loading weights:  11%|████████████▎                                                                                                    | 82/751 [00:27<04:41,  2.38it/s, Materializing param=model.layers.5.mlp.gate.e_score_correction_bias]Loading weights:  11%|████████████▎                                                                                                    | 82/751 [00:27<04:41,  2.38it/s, Materializing param=model.layers.5.mlp.gate.e_score_correction_bias]Loading weights:  11%|██████████████▎                                                                                                                   | 83/751 [00:27<04:41,  2.38it/s, Materializing param=model.layers.5.mlp.gate.weight]Loading weights:  11%|██████████████▎                                                                                                                   | 83/751 [00:27<04:41,  2.38it/s, Materializing param=model.layers.5.mlp.gate.weight]Loading weights:  11%|████████████▎                                                                                                 | 84/751 [00:27<04:40,  2.38it/s, Materializing param=model.layers.5.mlp.shared_experts.down_proj.weight]Loading weights:  11%|████████████▎                                                                                                 | 84/751 [00:27<04:40,  2.38it/s, Materializing param=model.layers.5.mlp.shared_experts.down_proj.weight]Loading weights:  11%|████████████▍                                                                                                 | 85/751 [00:27<04:40,  2.38it/s, Materializing param=model.layers.5.mlp.shared_experts.gate_proj.weight]Loading weights:  11%|████████████▍                                                                                                 | 85/751 [00:27<04:40,  2.38it/s, Materializing param=model.layers.5.mlp.shared_experts.gate_proj.weight]Loading weights:  11%|████████████▊                                                                                                   | 86/751 [00:27<04:39,  2.38it/s, Materializing param=model.layers.5.mlp.shared_experts.up_proj.weight]Loading weights:  11%|████████████▊                                                                                                   | 86/751 [00:27<04:39,  2.38it/s, Materializing param=model.layers.5.mlp.shared_experts.up_proj.weight]Loading weights:  12%|█████████████▏                                                                                                    | 87/751 [00:27<04:39,  2.38it/s, Materializing param=model.layers.5.post_attention_layernorm.weight]Loading weights:  12%|█████████████▏                                                                                                    | 87/751 [00:27<04:39,  2.38it/s, Materializing param=model.layers.5.post_attention_layernorm.weight]Loading weights:  12%|█████████████▎                                                                                                    | 88/751 [00:27<04:39,  2.38it/s, Materializing param=model.layers.5.self_attn.kv_a_layernorm.weight]Loading weights:  12%|█████████████▎                                                                                                    | 88/751 [00:27<04:39,  2.38it/s, Materializing param=model.layers.5.self_attn.kv_a_layernorm.weight]Loading weights:  12%|█████████████                                                                                                 | 89/751 [00:27<04:38,  2.38it/s, Materializing param=model.layers.5.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  12%|█████████████                                                                                                 | 89/751 [00:27<04:38,  2.38it/s, Materializing param=model.layers.5.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  12%|██████████████▎                                                                                                        | 90/751 [00:27<04:38,  2.38it/s, Materializing param=model.layers.5.self_attn.kv_b_proj.weight]Loading weights:  12%|██████████████▎                                                                                                        | 90/751 [00:27<04:38,  2.38it/s, Materializing param=model.layers.5.self_attn.kv_b_proj.weight]Loading weights:  12%|██████████████▊                                                                                                           | 91/751 [00:27<04:37,  2.38it/s, Materializing param=model.layers.5.self_attn.o_proj.weight]Loading weights:  12%|██████████████▊                                                                                                           | 91/751 [00:27<04:37,  2.38it/s, Materializing param=model.layers.5.self_attn.o_proj.weight]Loading weights:  12%|██████████████                                                                                                     | 92/751 [00:27<04:37,  2.38it/s, Materializing param=model.layers.5.self_attn.q_a_layernorm.weight]Loading weights:  12%|██████████████                                                                                                     | 92/751 [00:27<04:37,  2.38it/s, Materializing param=model.layers.5.self_attn.q_a_layernorm.weight]Loading weights:  12%|██████████████▊                                                                                                         | 93/751 [00:27<04:36,  2.38it/s, Materializing param=model.layers.5.self_attn.q_a_proj.weight]Loading weights:  12%|██████████████▊                                                                                                         | 93/751 [00:27<04:36,  2.38it/s, Materializing param=model.layers.5.self_attn.q_a_proj.weight]Loading weights:  13%|███████████████                                                                                                         | 94/751 [00:27<04:36,  2.38it/s, Materializing param=model.layers.5.self_attn.q_b_proj.weight]Loading weights:  13%|███████████████                                                                                                         | 94/751 [00:27<04:36,  2.38it/s, Materializing param=model.layers.5.self_attn.q_b_proj.weight]Loading weights:  13%|███████████████▌                                                                                                           | 95/751 [00:27<04:36,  2.38it/s, Materializing param=model.layers.6.input_layernorm.weight]Loading weights:  13%|███████████████▌                                                                                                           | 95/751 [00:27<04:36,  2.38it/s, Materializing param=model.layers.6.input_layernorm.weight]Loading weights:  13%|███████████████▊                                                                                                            | 96/751 [00:27<04:35,  2.38it/s, Materializing param=model.layers.6.mlp.experts.down_proj]Loading weights:  13%|███████████████▊                                                                                                            | 96/751 [00:27<04:35,  2.38it/s, Materializing param=model.layers.6.mlp.experts.down_proj]Loading weights:  11%|█████████████▏                                                                                                           | 82/751 [00:27<04:42,  2.37it/s, Materializing param=model.layers.5.mlp.experts.gate_up_proj]Loading weights:  11%|████████████▎                                                                                                    | 82/751 [00:27<04:42,  2.37it/s, Materializing param=model.layers.5.mlp.gate.e_score_correction_bias]Loading weights:  11%|████████████▎                                                                                                    | 82/751 [00:27<04:42,  2.37it/s, Materializing param=model.layers.5.mlp.gate.e_score_correction_bias]Loading weights:  11%|██████████████▎                                                                                                                   | 83/751 [00:27<04:41,  2.37it/s, Materializing param=model.layers.5.mlp.gate.weight]Loading weights:  11%|██████████████▎                                                                                                                   | 83/751 [00:27<04:41,  2.37it/s, Materializing param=model.layers.5.mlp.gate.weight]Loading weights:  11%|████████████▎                                                                                                 | 84/751 [00:27<04:41,  2.37it/s, Materializing param=model.layers.5.mlp.shared_experts.down_proj.weight]Loading weights:  11%|████████████▎                                                                                                 | 84/751 [00:27<04:41,  2.37it/s, Materializing param=model.layers.5.mlp.shared_experts.down_proj.weight]Loading weights:  11%|████████████▍                                                                                                 | 85/751 [00:27<04:40,  2.37it/s, Materializing param=model.layers.5.mlp.shared_experts.gate_proj.weight]Loading weights:  11%|████████████▍                                                                                                 | 85/751 [00:27<04:40,  2.37it/s, Materializing param=model.layers.5.mlp.shared_experts.gate_proj.weight]Loading weights:  11%|████████████▊                                                                                                   | 86/751 [00:27<04:40,  2.37it/s, Materializing param=model.layers.5.mlp.shared_experts.up_proj.weight]Loading weights:  11%|████████████▊                                                                                                   | 86/751 [00:27<04:40,  2.37it/s, Materializing param=model.layers.5.mlp.shared_experts.up_proj.weight]Loading weights:  12%|█████████████▏                                                                                                    | 87/751 [00:27<04:40,  2.37it/s, Materializing param=model.layers.5.post_attention_layernorm.weight]Loading weights:  12%|█████████████▏                                                                                                    | 87/751 [00:27<04:40,  2.37it/s, Materializing param=model.layers.5.post_attention_layernorm.weight]Loading weights:  12%|█████████████▎                                                                                                    | 88/751 [00:27<04:39,  2.37it/s, Materializing param=model.layers.5.self_attn.kv_a_layernorm.weight]Loading weights:  12%|█████████████▎                                                                                                    | 88/751 [00:27<04:39,  2.37it/s, Materializing param=model.layers.5.self_attn.kv_a_layernorm.weight]Loading weights:  12%|█████████████                                                                                                 | 89/751 [00:27<04:39,  2.37it/s, Materializing param=model.layers.5.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  12%|█████████████                                                                                                 | 89/751 [00:27<04:39,  2.37it/s, Materializing param=model.layers.5.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  12%|██████████████▎                                                                                                        | 90/751 [00:27<04:38,  2.37it/s, Materializing param=model.layers.5.self_attn.kv_b_proj.weight]Loading weights:  12%|██████████████▎                                                                                                        | 90/751 [00:27<04:38,  2.37it/s, Materializing param=model.layers.5.self_attn.kv_b_proj.weight]Loading weights:  12%|██████████████▊                                                                                                           | 91/751 [00:27<04:38,  2.37it/s, Materializing param=model.layers.5.self_attn.o_proj.weight]Loading weights:  12%|██████████████▊                                                                                                           | 91/751 [00:27<04:38,  2.37it/s, Materializing param=model.layers.5.self_attn.o_proj.weight]Loading weights:  12%|██████████████                                                                                                     | 92/751 [00:27<04:38,  2.37it/s, Materializing param=model.layers.5.self_attn.q_a_layernorm.weight]Loading weights:  12%|██████████████                                                                                                     | 92/751 [00:27<04:38,  2.37it/s, Materializing param=model.layers.5.self_attn.q_a_layernorm.weight]Loading weights:  12%|██████████████▊                                                                                                         | 93/751 [00:27<04:37,  2.37it/s, Materializing param=model.layers.5.self_attn.q_a_proj.weight]Loading weights:  12%|██████████████▊                                                                                                         | 93/751 [00:27<04:37,  2.37it/s, Materializing param=model.layers.5.self_attn.q_a_proj.weight]Loading weights:  13%|███████████████                                                                                                         | 94/751 [00:27<04:37,  2.37it/s, Materializing param=model.layers.5.self_attn.q_b_proj.weight]Loading weights:  13%|███████████████                                                                                                         | 94/751 [00:27<04:37,  2.37it/s, Materializing param=model.layers.5.self_attn.q_b_proj.weight]Loading weights:  13%|███████████████▌                                                                                                           | 95/751 [00:27<04:36,  2.37it/s, Materializing param=model.layers.6.input_layernorm.weight]Loading weights:  13%|███████████████▌                                                                                                           | 95/751 [00:27<04:36,  2.37it/s, Materializing param=model.layers.6.input_layernorm.weight]Loading weights:  13%|███████████████▊                                                                                                            | 96/751 [00:27<04:36,  2.37it/s, Materializing param=model.layers.6.mlp.experts.down_proj]Loading weights:  13%|███████████████▊                                                                                                            | 96/751 [00:27<04:36,  2.37it/s, Materializing param=model.layers.6.mlp.experts.down_proj]Loading weights:  13%|████████████████                                                                                                            | 97/751 [00:29<02:53,  3.78it/s, Materializing param=model.layers.6.mlp.experts.down_proj]Loading weights:  13%|████████████████                                                                                                            | 97/751 [00:29<02:53,  3.77it/s, Materializing param=model.layers.6.mlp.experts.down_proj]Loading weights:  13%|███████████████▋                                                                                                         | 97/751 [00:29<02:53,  3.78it/s, Materializing param=model.layers.6.mlp.experts.gate_up_proj]Loading weights:  13%|███████████████▋                                                                                                         | 97/751 [00:29<02:53,  3.77it/s, Materializing param=model.layers.6.mlp.experts.gate_up_proj]Loading weights:  13%|███████████████▋                                                                                                         | 97/751 [00:29<02:53,  3.78it/s, Materializing param=model.layers.6.mlp.experts.gate_up_proj]Loading weights:  13%|███████████████▋                                                                                                         | 97/751 [00:29<02:53,  3.77it/s, Materializing param=model.layers.6.mlp.experts.gate_up_proj]Loading weights:  13%|███████████████▊                                                                                                         | 98/751 [00:32<04:33,  2.38it/s, Materializing param=model.layers.6.mlp.experts.gate_up_proj]Loading weights:  13%|██████████████▋                                                                                                  | 98/751 [00:32<04:33,  2.38it/s, Materializing param=model.layers.6.mlp.gate.e_score_correction_bias]Loading weights:  13%|██████████████▋                                                                                                  | 98/751 [00:32<04:33,  2.38it/s, Materializing param=model.layers.6.mlp.gate.e_score_correction_bias]Loading weights:  13%|█████████████████▏                                                                                                                | 99/751 [00:32<04:33,  2.38it/s, Materializing param=model.layers.6.mlp.gate.weight]Loading weights:  13%|█████████████████▏                                                                                                                | 99/751 [00:32<04:33,  2.38it/s, Materializing param=model.layers.6.mlp.gate.weight]Loading weights:  13%|██████████████▌                                                                                              | 100/751 [00:32<04:33,  2.38it/s, Materializing param=model.layers.6.mlp.shared_experts.down_proj.weight]Loading weights:  13%|██████████████▌                                                                                              | 100/751 [00:32<04:33,  2.38it/s, Materializing param=model.layers.6.mlp.shared_experts.down_proj.weight]Loading weights:  13%|██████████████▋                                                                                              | 101/751 [00:32<04:32,  2.38it/s, Materializing param=model.layers.6.mlp.shared_experts.gate_proj.weight]Loading weights:  13%|██████████████▋                                                                                              | 101/751 [00:32<04:32,  2.38it/s, Materializing param=model.layers.6.mlp.shared_experts.gate_proj.weight]Loading weights:  14%|███████████████                                                                                                | 102/751 [00:32<04:32,  2.38it/s, Materializing param=model.layers.6.mlp.shared_experts.up_proj.weight]Loading weights:  14%|███████████████                                                                                                | 102/751 [00:32<04:32,  2.38it/s, Materializing param=model.layers.6.mlp.shared_experts.up_proj.weight]Loading weights:  14%|███████████████▍                                                                                                 | 103/751 [00:32<04:31,  2.38it/s, Materializing param=model.layers.6.post_attention_layernorm.weight]Loading weights:  14%|███████████████▍                                                                                                 | 103/751 [00:32<04:31,  2.38it/s, Materializing param=model.layers.6.post_attention_layernorm.weight]Loading weights:  14%|███████████████▋                                                                                                 | 104/751 [00:32<04:31,  2.38it/s, Materializing param=model.layers.6.self_attn.kv_a_layernorm.weight]Loading weights:  14%|███████████████▋                                                                                                 | 104/751 [00:32<04:31,  2.38it/s, Materializing param=model.layers.6.self_attn.kv_a_layernorm.weight]Loading weights:  14%|███████████████▏                                                                                             | 105/751 [00:32<04:31,  2.38it/s, Materializing param=model.layers.6.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  14%|███████████████▏                                                                                             | 105/751 [00:32<04:31,  2.38it/s, Materializing param=model.layers.6.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  14%|████████████████▋                                                                                                     | 106/751 [00:32<04:30,  2.38it/s, Materializing param=model.layers.6.self_attn.kv_b_proj.weight]Loading weights:  14%|████████████████▋                                                                                                     | 106/751 [00:32<04:30,  2.38it/s, Materializing param=model.layers.6.self_attn.kv_b_proj.weight]Loading weights:  14%|█████████████████▏                                                                                                       | 107/751 [00:32<04:30,  2.38it/s, Materializing param=model.layers.6.self_attn.o_proj.weight]Loading weights:  14%|█████████████████▏                                                                                                       | 107/751 [00:32<04:30,  2.38it/s, Materializing param=model.layers.6.self_attn.o_proj.weight]Loading weights:  14%|████████████████▍                                                                                                 | 108/751 [00:32<04:29,  2.38it/s, Materializing param=model.layers.6.self_attn.q_a_layernorm.weight]Loading weights:  14%|████████████████▍                                                                                                 | 108/751 [00:32<04:29,  2.38it/s, Materializing param=model.layers.6.self_attn.q_a_layernorm.weight]Loading weights:  15%|█████████████████▎                                                                                                     | 109/751 [00:32<04:29,  2.38it/s, Materializing param=model.layers.6.self_attn.q_a_proj.weight]Loading weights:  15%|█████████████████▎                                                                                                     | 109/751 [00:32<04:29,  2.38it/s, Materializing param=model.layers.6.self_attn.q_a_proj.weight]Loading weights:  15%|█████████████████▍                                                                                                     | 110/751 [00:32<04:28,  2.38it/s, Materializing param=model.layers.6.self_attn.q_b_proj.weight]Loading weights:  15%|█████████████████▍                                                                                                     | 110/751 [00:32<04:28,  2.38it/s, Materializing param=model.layers.6.self_attn.q_b_proj.weight]Loading weights:  15%|██████████████████                                                                                                        | 111/751 [00:32<04:28,  2.38it/s, Materializing param=model.layers.7.input_layernorm.weight]Loading weights:  15%|██████████████████                                                                                                        | 111/751 [00:32<04:28,  2.38it/s, Materializing param=model.layers.7.input_layernorm.weight]Loading weights:  15%|██████████████████▎                                                                                                        | 112/751 [00:32<04:28,  2.38it/s, Materializing param=model.layers.7.mlp.experts.down_proj]Loading weights:  15%|██████████████████▎                                                                                                        | 112/751 [00:32<04:28,  2.38it/s, Materializing param=model.layers.7.mlp.experts.down_proj]Loading weights:  13%|███████████████▊                                                                                                         | 98/751 [00:32<04:35,  2.37it/s, Materializing param=model.layers.6.mlp.experts.gate_up_proj]Loading weights:  13%|██████████████▋                                                                                                  | 98/751 [00:32<04:35,  2.37it/s, Materializing param=model.layers.6.mlp.gate.e_score_correction_bias]Loading weights:  13%|██████████████▋                                                                                                  | 98/751 [00:32<04:35,  2.37it/s, Materializing param=model.layers.6.mlp.gate.e_score_correction_bias]Loading weights:  13%|█████████████████▏                                                                                                                | 99/751 [00:32<04:34,  2.37it/s, Materializing param=model.layers.6.mlp.gate.weight]Loading weights:  13%|█████████████████▏                                                                                                                | 99/751 [00:32<04:34,  2.37it/s, Materializing param=model.layers.6.mlp.gate.weight]Loading weights:  13%|██████████████▌                                                                                              | 100/751 [00:32<04:34,  2.37it/s, Materializing param=model.layers.6.mlp.shared_experts.down_proj.weight]Loading weights:  13%|██████████████▌                                                                                              | 100/751 [00:32<04:34,  2.37it/s, Materializing param=model.layers.6.mlp.shared_experts.down_proj.weight]Loading weights:  13%|██████████████▋                                                                                              | 101/751 [00:32<04:33,  2.37it/s, Materializing param=model.layers.6.mlp.shared_experts.gate_proj.weight]Loading weights:  13%|██████████████▋                                                                                              | 101/751 [00:32<04:33,  2.37it/s, Materializing param=model.layers.6.mlp.shared_experts.gate_proj.weight]Loading weights:  14%|███████████████                                                                                                | 102/751 [00:32<04:33,  2.37it/s, Materializing param=model.layers.6.mlp.shared_experts.up_proj.weight]Loading weights:  14%|███████████████                                                                                                | 102/751 [00:32<04:33,  2.37it/s, Materializing param=model.layers.6.mlp.shared_experts.up_proj.weight]Loading weights:  14%|███████████████▍                                                                                                 | 103/751 [00:32<04:33,  2.37it/s, Materializing param=model.layers.6.post_attention_layernorm.weight]Loading weights:  14%|███████████████▍                                                                                                 | 103/751 [00:32<04:33,  2.37it/s, Materializing param=model.layers.6.post_attention_layernorm.weight]Loading weights:  14%|███████████████▋                                                                                                 | 104/751 [00:32<04:32,  2.37it/s, Materializing param=model.layers.6.self_attn.kv_a_layernorm.weight]Loading weights:  14%|███████████████▋                                                                                                 | 104/751 [00:32<04:32,  2.37it/s, Materializing param=model.layers.6.self_attn.kv_a_layernorm.weight]Loading weights:  14%|███████████████▏                                                                                             | 105/751 [00:32<04:32,  2.37it/s, Materializing param=model.layers.6.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  14%|███████████████▏                                                                                             | 105/751 [00:32<04:32,  2.37it/s, Materializing param=model.layers.6.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  14%|████████████████▋                                                                                                     | 106/751 [00:32<04:31,  2.37it/s, Materializing param=model.layers.6.self_attn.kv_b_proj.weight]Loading weights:  14%|████████████████▋                                                                                                     | 106/751 [00:32<04:31,  2.37it/s, Materializing param=model.layers.6.self_attn.kv_b_proj.weight]Loading weights:  14%|█████████████████▏                                                                                                       | 107/751 [00:32<04:31,  2.37it/s, Materializing param=model.layers.6.self_attn.o_proj.weight]Loading weights:  14%|█████████████████▏                                                                                                       | 107/751 [00:32<04:31,  2.37it/s, Materializing param=model.layers.6.self_attn.o_proj.weight]Loading weights:  14%|████████████████▍                                                                                                 | 108/751 [00:32<04:30,  2.37it/s, Materializing param=model.layers.6.self_attn.q_a_layernorm.weight]Loading weights:  14%|████████████████▍                                                                                                 | 108/751 [00:32<04:30,  2.37it/s, Materializing param=model.layers.6.self_attn.q_a_layernorm.weight]Loading weights:  15%|█████████████████▎                                                                                                     | 109/751 [00:32<04:30,  2.37it/s, Materializing param=model.layers.6.self_attn.q_a_proj.weight]Loading weights:  15%|█████████████████▎                                                                                                     | 109/751 [00:32<04:30,  2.37it/s, Materializing param=model.layers.6.self_attn.q_a_proj.weight]Loading weights:  15%|█████████████████▍                                                                                                     | 110/751 [00:32<04:30,  2.37it/s, Materializing param=model.layers.6.self_attn.q_b_proj.weight]Loading weights:  15%|█████████████████▍                                                                                                     | 110/751 [00:32<04:30,  2.37it/s, Materializing param=model.layers.6.self_attn.q_b_proj.weight]Loading weights:  15%|██████████████████                                                                                                        | 111/751 [00:32<04:29,  2.37it/s, Materializing param=model.layers.7.input_layernorm.weight]Loading weights:  15%|██████████████████                                                                                                        | 111/751 [00:32<04:29,  2.37it/s, Materializing param=model.layers.7.input_layernorm.weight]Loading weights:  15%|██████████████████▎                                                                                                        | 112/751 [00:32<04:29,  2.37it/s, Materializing param=model.layers.7.mlp.experts.down_proj]Loading weights:  15%|██████████████████▎                                                                                                        | 112/751 [00:32<04:29,  2.37it/s, Materializing param=model.layers.7.mlp.experts.down_proj]Loading weights:  15%|██████████████████▌                                                                                                        | 113/751 [00:34<02:51,  3.72it/s, Materializing param=model.layers.7.mlp.experts.down_proj]Loading weights:  15%|██████████████████▌                                                                                                        | 113/751 [00:34<02:51,  3.72it/s, Materializing param=model.layers.7.mlp.experts.down_proj]Loading weights:  15%|██████████████████                                                                                                      | 113/751 [00:34<02:51,  3.72it/s, Materializing param=model.layers.7.mlp.experts.gate_up_proj]Loading weights:  15%|██████████████████                                                                                                      | 113/751 [00:34<02:51,  3.72it/s, Materializing param=model.layers.7.mlp.experts.gate_up_proj]Loading weights:  15%|██████████████████                                                                                                      | 113/751 [00:34<02:51,  3.72it/s, Materializing param=model.layers.7.mlp.experts.gate_up_proj]Loading weights:  15%|██████████████████                                                                                                      | 113/751 [00:34<02:51,  3.72it/s, Materializing param=model.layers.7.mlp.experts.gate_up_proj]Loading weights:  15%|██████████████████▏                                                                                                     | 114/751 [00:38<04:39,  2.28it/s, Materializing param=model.layers.7.mlp.experts.gate_up_proj]Loading weights:  15%|█████████████████                                                                                               | 114/751 [00:38<04:39,  2.28it/s, Materializing param=model.layers.7.mlp.gate.e_score_correction_bias]Loading weights:  15%|█████████████████                                                                                               | 114/751 [00:38<04:39,  2.28it/s, Materializing param=model.layers.7.mlp.gate.e_score_correction_bias]Loading weights:  15%|███████████████████▊                                                                                                             | 115/751 [00:38<04:39,  2.28it/s, Materializing param=model.layers.7.mlp.gate.weight]Loading weights:  15%|███████████████████▊                                                                                                             | 115/751 [00:38<04:39,  2.28it/s, Materializing param=model.layers.7.mlp.gate.weight]Loading weights:  15%|████████████████▊                                                                                            | 116/751 [00:38<04:38,  2.28it/s, Materializing param=model.layers.7.mlp.shared_experts.down_proj.weight]Loading weights:  15%|████████████████▊                                                                                            | 116/751 [00:38<04:38,  2.28it/s, Materializing param=model.layers.7.mlp.shared_experts.down_proj.weight]Loading weights:  16%|████████████████▉                                                                                            | 117/751 [00:38<04:38,  2.28it/s, Materializing param=model.layers.7.mlp.shared_experts.gate_proj.weight]Loading weights:  16%|████████████████▉                                                                                            | 117/751 [00:38<04:38,  2.28it/s, Materializing param=model.layers.7.mlp.shared_experts.gate_proj.weight]Loading weights:  16%|█████████████████▍                                                                                             | 118/751 [00:38<04:37,  2.28it/s, Materializing param=model.layers.7.mlp.shared_experts.up_proj.weight]Loading weights:  16%|█████████████████▍                                                                                             | 118/751 [00:38<04:37,  2.28it/s, Materializing param=model.layers.7.mlp.shared_experts.up_proj.weight]Loading weights:  16%|█████████████████▉                                                                                               | 119/751 [00:38<04:37,  2.28it/s, Materializing param=model.layers.7.post_attention_layernorm.weight]Loading weights:  16%|█████████████████▉                                                                                               | 119/751 [00:38<04:37,  2.28it/s, Materializing param=model.layers.7.post_attention_layernorm.weight]Loading weights:  16%|██████████████████                                                                                               | 120/751 [00:38<04:36,  2.28it/s, Materializing param=model.layers.7.self_attn.kv_a_layernorm.weight]Loading weights:  16%|██████████████████                                                                                               | 120/751 [00:38<04:36,  2.28it/s, Materializing param=model.layers.7.self_attn.kv_a_layernorm.weight]Loading weights:  16%|█████████████████▌                                                                                           | 121/751 [00:38<04:36,  2.28it/s, Materializing param=model.layers.7.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  16%|█████████████████▌                                                                                           | 121/751 [00:38<04:36,  2.28it/s, Materializing param=model.layers.7.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  16%|███████████████████▏                                                                                                  | 122/751 [00:38<04:36,  2.28it/s, Materializing param=model.layers.7.self_attn.kv_b_proj.weight]Loading weights:  16%|███████████████████▏                                                                                                  | 122/751 [00:38<04:36,  2.28it/s, Materializing param=model.layers.7.self_attn.kv_b_proj.weight]Loading weights:  16%|███████████████████▊                                                                                                     | 123/751 [00:38<04:35,  2.28it/s, Materializing param=model.layers.7.self_attn.o_proj.weight]Loading weights:  16%|███████████████████▊                                                                                                     | 123/751 [00:38<04:35,  2.28it/s, Materializing param=model.layers.7.self_attn.o_proj.weight]Loading weights:  17%|██████████████████▊                                                                                               | 124/751 [00:38<04:35,  2.28it/s, Materializing param=model.layers.7.self_attn.q_a_layernorm.weight]Loading weights:  17%|██████████████████▊                                                                                               | 124/751 [00:38<04:35,  2.28it/s, Materializing param=model.layers.7.self_attn.q_a_layernorm.weight]Loading weights:  17%|███████████████████▊                                                                                                   | 125/751 [00:38<04:34,  2.28it/s, Materializing param=model.layers.7.self_attn.q_a_proj.weight]Loading weights:  17%|███████████████████▊                                                                                                   | 125/751 [00:38<04:34,  2.28it/s, Materializing param=model.layers.7.self_attn.q_a_proj.weight]Loading weights:  17%|███████████████████▉                                                                                                   | 126/751 [00:38<04:34,  2.28it/s, Materializing param=model.layers.7.self_attn.q_b_proj.weight]Loading weights:  17%|███████████████████▉                                                                                                   | 126/751 [00:38<04:34,  2.28it/s, Materializing param=model.layers.7.self_attn.q_b_proj.weight]Loading weights:  17%|████████████████████▋                                                                                                     | 127/751 [00:38<04:33,  2.28it/s, Materializing param=model.layers.8.input_layernorm.weight]Loading weights:  17%|████████████████████▋                                                                                                     | 127/751 [00:38<04:33,  2.28it/s, Materializing param=model.layers.8.input_layernorm.weight]Loading weights:  17%|████████████████████▉                                                                                                      | 128/751 [00:38<04:33,  2.28it/s, Materializing param=model.layers.8.mlp.experts.down_proj]Loading weights:  17%|████████████████████▉                                                                                                      | 128/751 [00:38<04:33,  2.28it/s, Materializing param=model.layers.8.mlp.experts.down_proj]Loading weights:  15%|██████████████████▏                                                                                                     | 114/751 [00:38<04:40,  2.27it/s, Materializing param=model.layers.7.mlp.experts.gate_up_proj]Loading weights:  15%|█████████████████                                                                                               | 114/751 [00:38<04:40,  2.27it/s, Materializing param=model.layers.7.mlp.gate.e_score_correction_bias]Loading weights:  15%|█████████████████                                                                                               | 114/751 [00:38<04:40,  2.27it/s, Materializing param=model.layers.7.mlp.gate.e_score_correction_bias]Loading weights:  15%|███████████████████▊                                                                                                             | 115/751 [00:38<04:39,  2.27it/s, Materializing param=model.layers.7.mlp.gate.weight]Loading weights:  15%|███████████████████▊                                                                                                             | 115/751 [00:38<04:39,  2.27it/s, Materializing param=model.layers.7.mlp.gate.weight]Loading weights:  15%|████████████████▊                                                                                            | 116/751 [00:38<04:39,  2.27it/s, Materializing param=model.layers.7.mlp.shared_experts.down_proj.weight]Loading weights:  15%|████████████████▊                                                                                            | 116/751 [00:38<04:39,  2.27it/s, Materializing param=model.layers.7.mlp.shared_experts.down_proj.weight]Loading weights:  16%|████████████████▉                                                                                            | 117/751 [00:38<04:38,  2.27it/s, Materializing param=model.layers.7.mlp.shared_experts.gate_proj.weight]Loading weights:  16%|████████████████▉                                                                                            | 117/751 [00:38<04:38,  2.27it/s, Materializing param=model.layers.7.mlp.shared_experts.gate_proj.weight]Loading weights:  16%|█████████████████▍                                                                                             | 118/751 [00:38<04:38,  2.27it/s, Materializing param=model.layers.7.mlp.shared_experts.up_proj.weight]Loading weights:  16%|█████████████████▍                                                                                             | 118/751 [00:38<04:38,  2.27it/s, Materializing param=model.layers.7.mlp.shared_experts.up_proj.weight]Loading weights:  16%|█████████████████▉                                                                                               | 119/751 [00:38<04:37,  2.27it/s, Materializing param=model.layers.7.post_attention_layernorm.weight]Loading weights:  16%|█████████████████▉                                                                                               | 119/751 [00:38<04:37,  2.27it/s, Materializing param=model.layers.7.post_attention_layernorm.weight]Loading weights:  16%|██████████████████                                                                                               | 120/751 [00:38<04:37,  2.27it/s, Materializing param=model.layers.7.self_attn.kv_a_layernorm.weight]Loading weights:  16%|██████████████████                                                                                               | 120/751 [00:38<04:37,  2.27it/s, Materializing param=model.layers.7.self_attn.kv_a_layernorm.weight]Loading weights:  16%|█████████████████▌                                                                                           | 121/751 [00:38<04:37,  2.27it/s, Materializing param=model.layers.7.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  16%|█████████████████▌                                                                                           | 121/751 [00:38<04:37,  2.27it/s, Materializing param=model.layers.7.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  16%|███████████████████▏                                                                                                  | 122/751 [00:38<04:36,  2.27it/s, Materializing param=model.layers.7.self_attn.kv_b_proj.weight]Loading weights:  16%|███████████████████▏                                                                                                  | 122/751 [00:38<04:36,  2.27it/s, Materializing param=model.layers.7.self_attn.kv_b_proj.weight]Loading weights:  16%|███████████████████▊                                                                                                     | 123/751 [00:38<04:36,  2.27it/s, Materializing param=model.layers.7.self_attn.o_proj.weight]Loading weights:  16%|███████████████████▊                                                                                                     | 123/751 [00:38<04:36,  2.27it/s, Materializing param=model.layers.7.self_attn.o_proj.weight]Loading weights:  17%|██████████████████▊                                                                                               | 124/751 [00:38<04:35,  2.27it/s, Materializing param=model.layers.7.self_attn.q_a_layernorm.weight]Loading weights:  17%|██████████████████▊                                                                                               | 124/751 [00:38<04:35,  2.27it/s, Materializing param=model.layers.7.self_attn.q_a_layernorm.weight]Loading weights:  17%|███████████████████▊                                                                                                   | 125/751 [00:38<04:35,  2.27it/s, Materializing param=model.layers.7.self_attn.q_a_proj.weight]Loading weights:  17%|███████████████████▊                                                                                                   | 125/751 [00:38<04:35,  2.27it/s, Materializing param=model.layers.7.self_attn.q_a_proj.weight]Loading weights:  17%|███████████████████▉                                                                                                   | 126/751 [00:38<04:34,  2.27it/s, Materializing param=model.layers.7.self_attn.q_b_proj.weight]Loading weights:  17%|███████████████████▉                                                                                                   | 126/751 [00:38<04:34,  2.27it/s, Materializing param=model.layers.7.self_attn.q_b_proj.weight]Loading weights:  17%|████████████████████▋                                                                                                     | 127/751 [00:38<04:34,  2.27it/s, Materializing param=model.layers.8.input_layernorm.weight]Loading weights:  17%|████████████████████▋                                                                                                     | 127/751 [00:38<04:34,  2.27it/s, Materializing param=model.layers.8.input_layernorm.weight]Loading weights:  17%|████████████████████▉                                                                                                      | 128/751 [00:38<04:33,  2.27it/s, Materializing param=model.layers.8.mlp.experts.down_proj]Loading weights:  17%|████████████████████▉                                                                                                      | 128/751 [00:38<04:33,  2.27it/s, Materializing param=model.layers.8.mlp.experts.down_proj]Loading weights:  17%|█████████████████████▏                                                                                                     | 129/751 [00:40<03:01,  3.43it/s, Materializing param=model.layers.8.mlp.experts.down_proj]Loading weights:  17%|█████████████████████▏                                                                                                     | 129/751 [00:40<03:01,  3.43it/s, Materializing param=model.layers.8.mlp.experts.down_proj]Loading weights:  17%|████████████████████▌                                                                                                   | 129/751 [00:40<03:01,  3.43it/s, Materializing param=model.layers.8.mlp.experts.gate_up_proj]Loading weights:  17%|████████████████████▌                                                                                                   | 129/751 [00:40<03:01,  3.43it/s, Materializing param=model.layers.8.mlp.experts.gate_up_proj]Loading weights:  17%|████████████████████▌                                                                                                   | 129/751 [00:40<03:01,  3.43it/s, Materializing param=model.layers.8.mlp.experts.gate_up_proj]Loading weights:  17%|████████████████████▌                                                                                                   | 129/751 [00:40<03:01,  3.43it/s, Materializing param=model.layers.8.mlp.experts.gate_up_proj]Loading weights:  17%|████████████████████▊                                                                                                   | 130/751 [00:44<04:30,  2.29it/s, Materializing param=model.layers.8.mlp.experts.gate_up_proj]Loading weights:  17%|███████████████████▍                                                                                            | 130/751 [00:44<04:30,  2.29it/s, Materializing param=model.layers.8.mlp.gate.e_score_correction_bias]Loading weights:  17%|███████████████████▍                                                                                            | 130/751 [00:44<04:30,  2.29it/s, Materializing param=model.layers.8.mlp.gate.e_score_correction_bias]Loading weights:  17%|██████████████████████▌                                                                                                          | 131/751 [00:44<04:30,  2.29it/s, Materializing param=model.layers.8.mlp.gate.weight]Loading weights:  17%|██████████████████████▌                                                                                                          | 131/751 [00:44<04:30,  2.29it/s, Materializing param=model.layers.8.mlp.gate.weight]Loading weights:  18%|███████████████████▏                                                                                         | 132/751 [00:44<04:29,  2.29it/s, Materializing param=model.layers.8.mlp.shared_experts.down_proj.weight]Loading weights:  18%|███████████████████▏                                                                                         | 132/751 [00:44<04:29,  2.29it/s, Materializing param=model.layers.8.mlp.shared_experts.down_proj.weight]Loading weights:  18%|███████████████████▎                                                                                         | 133/751 [00:44<04:29,  2.29it/s, Materializing param=model.layers.8.mlp.shared_experts.gate_proj.weight]Loading weights:  18%|███████████████████▎                                                                                         | 133/751 [00:44<04:29,  2.29it/s, Materializing param=model.layers.8.mlp.shared_experts.gate_proj.weight]Loading weights:  18%|███████████████████▊                                                                                           | 134/751 [00:44<04:28,  2.29it/s, Materializing param=model.layers.8.mlp.shared_experts.up_proj.weight]Loading weights:  18%|███████████████████▊                                                                                           | 134/751 [00:44<04:28,  2.29it/s, Materializing param=model.layers.8.mlp.shared_experts.up_proj.weight]Loading weights:  18%|████████████████████▎                                                                                            | 135/751 [00:44<04:28,  2.29it/s, Materializing param=model.layers.8.post_attention_layernorm.weight]Loading weights:  18%|████████████████████▎                                                                                            | 135/751 [00:44<04:28,  2.29it/s, Materializing param=model.layers.8.post_attention_layernorm.weight]Loading weights:  18%|████████████████████▍                                                                                            | 136/751 [00:44<04:28,  2.29it/s, Materializing param=model.layers.8.self_attn.kv_a_layernorm.weight]Loading weights:  18%|████████████████████▍                                                                                            | 136/751 [00:44<04:28,  2.29it/s, Materializing param=model.layers.8.self_attn.kv_a_layernorm.weight]Loading weights:  18%|███████████████████▉                                                                                         | 137/751 [00:44<04:27,  2.29it/s, Materializing param=model.layers.8.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  18%|███████████████████▉                                                                                         | 137/751 [00:44<04:27,  2.29it/s, Materializing param=model.layers.8.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  18%|█████████████████████▋                                                                                                | 138/751 [00:44<04:27,  2.29it/s, Materializing param=model.layers.8.self_attn.kv_b_proj.weight]Loading weights:  18%|█████████████████████▋                                                                                                | 138/751 [00:44<04:27,  2.29it/s, Materializing param=model.layers.8.self_attn.kv_b_proj.weight]Loading weights:  19%|██████████████████████▍                                                                                                  | 139/751 [00:44<04:26,  2.29it/s, Materializing param=model.layers.8.self_attn.o_proj.weight]Loading weights:  19%|██████████████████████▍                                                                                                  | 139/751 [00:44<04:26,  2.29it/s, Materializing param=model.layers.8.self_attn.o_proj.weight]Loading weights:  19%|█████████████████████▎                                                                                            | 140/751 [00:44<04:26,  2.29it/s, Materializing param=model.layers.8.self_attn.q_a_layernorm.weight]Loading weights:  19%|█████████████████████▎                                                                                            | 140/751 [00:44<04:26,  2.29it/s, Materializing param=model.layers.8.self_attn.q_a_layernorm.weight]Loading weights:  19%|██████████████████████▎                                                                                                | 141/751 [00:44<04:25,  2.29it/s, Materializing param=model.layers.8.self_attn.q_a_proj.weight]Loading weights:  19%|██████████████████████▎                                                                                                | 141/751 [00:44<04:25,  2.29it/s, Materializing param=model.layers.8.self_attn.q_a_proj.weight]Loading weights:  19%|██████████████████████▌                                                                                                | 142/751 [00:44<04:25,  2.29it/s, Materializing param=model.layers.8.self_attn.q_b_proj.weight]Loading weights:  19%|██████████████████████▌                                                                                                | 142/751 [00:44<04:25,  2.29it/s, Materializing param=model.layers.8.self_attn.q_b_proj.weight]Loading weights:  19%|███████████████████████▏                                                                                                  | 143/751 [00:44<04:24,  2.29it/s, Materializing param=model.layers.9.input_layernorm.weight]Loading weights:  19%|███████████████████████▏                                                                                                  | 143/751 [00:44<04:24,  2.29it/s, Materializing param=model.layers.9.input_layernorm.weight]Loading weights:  19%|███████████████████████▌                                                                                                   | 144/751 [00:44<04:24,  2.29it/s, Materializing param=model.layers.9.mlp.experts.down_proj]Loading weights:  19%|███████████████████████▌                                                                                                   | 144/751 [00:44<04:24,  2.29it/s, Materializing param=model.layers.9.mlp.experts.down_proj]Loading weights:  17%|████████████████████▊                                                                                                   | 130/751 [00:44<04:32,  2.28it/s, Materializing param=model.layers.8.mlp.experts.gate_up_proj]Loading weights:  17%|███████████████████▍                                                                                            | 130/751 [00:44<04:32,  2.28it/s, Materializing param=model.layers.8.mlp.gate.e_score_correction_bias]Loading weights:  17%|███████████████████▍                                                                                            | 130/751 [00:44<04:32,  2.28it/s, Materializing param=model.layers.8.mlp.gate.e_score_correction_bias]Loading weights:  17%|██████████████████████▌                                                                                                          | 131/751 [00:44<04:32,  2.28it/s, Materializing param=model.layers.8.mlp.gate.weight]Loading weights:  17%|██████████████████████▌                                                                                                          | 131/751 [00:44<04:32,  2.28it/s, Materializing param=model.layers.8.mlp.gate.weight]Loading weights:  18%|███████████████████▏                                                                                         | 132/751 [00:44<04:31,  2.28it/s, Materializing param=model.layers.8.mlp.shared_experts.down_proj.weight]Loading weights:  18%|███████████████████▏                                                                                         | 132/751 [00:44<04:31,  2.28it/s, Materializing param=model.layers.8.mlp.shared_experts.down_proj.weight]Loading weights:  18%|███████████████████▎                                                                                         | 133/751 [00:44<04:31,  2.28it/s, Materializing param=model.layers.8.mlp.shared_experts.gate_proj.weight]Loading weights:  18%|███████████████████▎                                                                                         | 133/751 [00:44<04:31,  2.28it/s, Materializing param=model.layers.8.mlp.shared_experts.gate_proj.weight]Loading weights:  18%|███████████████████▊                                                                                           | 134/751 [00:44<04:30,  2.28it/s, Materializing param=model.layers.8.mlp.shared_experts.up_proj.weight]Loading weights:  18%|███████████████████▊                                                                                           | 134/751 [00:44<04:30,  2.28it/s, Materializing param=model.layers.8.mlp.shared_experts.up_proj.weight]Loading weights:  18%|████████████████████▎                                                                                            | 135/751 [00:44<04:30,  2.28it/s, Materializing param=model.layers.8.post_attention_layernorm.weight]Loading weights:  18%|████████████████████▎                                                                                            | 135/751 [00:44<04:30,  2.28it/s, Materializing param=model.layers.8.post_attention_layernorm.weight]Loading weights:  18%|████████████████████▍                                                                                            | 136/751 [00:44<04:29,  2.28it/s, Materializing param=model.layers.8.self_attn.kv_a_layernorm.weight]Loading weights:  18%|████████████████████▍                                                                                            | 136/751 [00:44<04:29,  2.28it/s, Materializing param=model.layers.8.self_attn.kv_a_layernorm.weight]Loading weights:  18%|███████████████████▉                                                                                         | 137/751 [00:44<04:29,  2.28it/s, Materializing param=model.layers.8.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  18%|███████████████████▉                                                                                         | 137/751 [00:44<04:29,  2.28it/s, Materializing param=model.layers.8.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  18%|█████████████████████▋                                                                                                | 138/751 [00:44<04:29,  2.28it/s, Materializing param=model.layers.8.self_attn.kv_b_proj.weight]Loading weights:  18%|█████████████████████▋                                                                                                | 138/751 [00:44<04:29,  2.28it/s, Materializing param=model.layers.8.self_attn.kv_b_proj.weight]Loading weights:  19%|██████████████████████▍                                                                                                  | 139/751 [00:44<04:28,  2.28it/s, Materializing param=model.layers.8.self_attn.o_proj.weight]Loading weights:  19%|██████████████████████▍                                                                                                  | 139/751 [00:44<04:28,  2.28it/s, Materializing param=model.layers.8.self_attn.o_proj.weight]Loading weights:  19%|█████████████████████▎                                                                                            | 140/751 [00:44<04:28,  2.28it/s, Materializing param=model.layers.8.self_attn.q_a_layernorm.weight]Loading weights:  19%|█████████████████████▎                                                                                            | 140/751 [00:44<04:28,  2.28it/s, Materializing param=model.layers.8.self_attn.q_a_layernorm.weight]Loading weights:  19%|██████████████████████▎                                                                                                | 141/751 [00:44<04:27,  2.28it/s, Materializing param=model.layers.8.self_attn.q_a_proj.weight]Loading weights:  19%|██████████████████████▎                                                                                                | 141/751 [00:44<04:27,  2.28it/s, Materializing param=model.layers.8.self_attn.q_a_proj.weight]Loading weights:  19%|██████████████████████▌                                                                                                | 142/751 [00:44<04:27,  2.28it/s, Materializing param=model.layers.8.self_attn.q_b_proj.weight]Loading weights:  19%|██████████████████████▌                                                                                                | 142/751 [00:44<04:27,  2.28it/s, Materializing param=model.layers.8.self_attn.q_b_proj.weight]Loading weights:  19%|███████████████████████▏                                                                                                  | 143/751 [00:44<04:26,  2.28it/s, Materializing param=model.layers.9.input_layernorm.weight]Loading weights:  19%|███████████████████████▏                                                                                                  | 143/751 [00:44<04:26,  2.28it/s, Materializing param=model.layers.9.input_layernorm.weight]Loading weights:  19%|███████████████████████▌                                                                                                   | 144/751 [00:44<04:26,  2.28it/s, Materializing param=model.layers.9.mlp.experts.down_proj]Loading weights:  19%|███████████████████████▌                                                                                                   | 144/751 [00:44<04:26,  2.28it/s, Materializing param=model.layers.9.mlp.experts.down_proj]Loading weights:  19%|███████████████████████▋                                                                                                   | 145/751 [00:45<02:47,  3.62it/s, Materializing param=model.layers.9.mlp.experts.down_proj]Loading weights:  19%|███████████████████████▋                                                                                                   | 145/751 [00:45<02:47,  3.61it/s, Materializing param=model.layers.9.mlp.experts.down_proj]Loading weights:  19%|███████████████████████▏                                                                                                | 145/751 [00:45<02:47,  3.61it/s, Materializing param=model.layers.9.mlp.experts.gate_up_proj]Loading weights:  19%|███████████████████████▏                                                                                                | 145/751 [00:45<02:47,  3.62it/s, Materializing param=model.layers.9.mlp.experts.gate_up_proj]Loading weights:  19%|███████████████████████▏                                                                                                | 145/751 [00:45<02:47,  3.61it/s, Materializing param=model.layers.9.mlp.experts.gate_up_proj]Loading weights:  19%|███████████████████████▏                                                                                                | 145/751 [00:45<02:47,  3.62it/s, Materializing param=model.layers.9.mlp.experts.gate_up_proj]Loading weights:  19%|███████████████████████▎                                                                                                | 146/751 [00:49<04:16,  2.36it/s, Materializing param=model.layers.9.mlp.experts.gate_up_proj]Loading weights:  19%|█████████████████████▊                                                                                          | 146/751 [00:49<04:16,  2.36it/s, Materializing param=model.layers.9.mlp.gate.e_score_correction_bias]Loading weights:  19%|███████████████████████▎                                                                                                | 146/751 [00:49<04:15,  2.36it/s, Materializing param=model.layers.9.mlp.experts.gate_up_proj]Loading weights:  19%|█████████████████████▊                                                                                          | 146/751 [00:49<04:16,  2.36it/s, Materializing param=model.layers.9.mlp.gate.e_score_correction_bias]Loading weights:  19%|█████████████████████▊                                                                                          | 146/751 [00:49<04:15,  2.36it/s, Materializing param=model.layers.9.mlp.gate.e_score_correction_bias]Loading weights:  19%|█████████████████████▊                                                                                          | 146/751 [00:49<04:15,  2.36it/s, Materializing param=model.layers.9.mlp.gate.e_score_correction_bias]Loading weights:  20%|█████████████████████████▎                                                                                                       | 147/751 [00:49<04:15,  2.36it/s, Materializing param=model.layers.9.mlp.gate.weight]Loading weights:  20%|█████████████████████████▎                                                                                                       | 147/751 [00:49<04:15,  2.36it/s, Materializing param=model.layers.9.mlp.gate.weight]Loading weights:  20%|█████████████████████████▎                                                                                                       | 147/751 [00:49<04:15,  2.36it/s, Materializing param=model.layers.9.mlp.gate.weight]Loading weights:  20%|█████████████████████████▎                                                                                                       | 147/751 [00:49<04:15,  2.36it/s, Materializing param=model.layers.9.mlp.gate.weight]Loading weights:  20%|█████████████████████▍                                                                                       | 148/751 [00:49<04:15,  2.36it/s, Materializing param=model.layers.9.mlp.shared_experts.down_proj.weight]Loading weights:  20%|█████████████████████▍                                                                                       | 148/751 [00:49<04:15,  2.36it/s, Materializing param=model.layers.9.mlp.shared_experts.down_proj.weight]Loading weights:  20%|█████████████████████▍                                                                                       | 148/751 [00:49<04:15,  2.36it/s, Materializing param=model.layers.9.mlp.shared_experts.down_proj.weight]Loading weights:  20%|█████████████████████▍                                                                                       | 148/751 [00:49<04:15,  2.36it/s, Materializing param=model.layers.9.mlp.shared_experts.down_proj.weight]Loading weights:  20%|█████████████████████▋                                                                                       | 149/751 [00:49<04:14,  2.36it/s, Materializing param=model.layers.9.mlp.shared_experts.gate_proj.weight]Loading weights:  20%|█████████████████████▋                                                                                       | 149/751 [00:49<04:14,  2.36it/s, Materializing param=model.layers.9.mlp.shared_experts.gate_proj.weight]Loading weights:  20%|█████████████████████▋                                                                                       | 149/751 [00:49<04:14,  2.36it/s, Materializing param=model.layers.9.mlp.shared_experts.gate_proj.weight]Loading weights:  20%|█████████████████████▋                                                                                       | 149/751 [00:49<04:14,  2.36it/s, Materializing param=model.layers.9.mlp.shared_experts.gate_proj.weight]Loading weights:  20%|██████████████████████▏                                                                                        | 150/751 [00:49<04:14,  2.36it/s, Materializing param=model.layers.9.mlp.shared_experts.up_proj.weight]Loading weights:  20%|██████████████████████▏                                                                                        | 150/751 [00:49<04:14,  2.36it/s, Materializing param=model.layers.9.mlp.shared_experts.up_proj.weight]Loading weights:  20%|██████████████████████▏                                                                                        | 150/751 [00:49<04:14,  2.36it/s, Materializing param=model.layers.9.mlp.shared_experts.up_proj.weight]Loading weights:  20%|██████████████████████▏                                                                                        | 150/751 [00:49<04:14,  2.36it/s, Materializing param=model.layers.9.mlp.shared_experts.up_proj.weight]Loading weights:  20%|██████████████████████▋                                                                                          | 151/751 [00:49<04:13,  2.36it/s, Materializing param=model.layers.9.post_attention_layernorm.weight]Loading weights:  20%|██████████████████████▋                                                                                          | 151/751 [00:49<04:14,  2.36it/s, Materializing param=model.layers.9.post_attention_layernorm.weight]Loading weights:  20%|██████████████████████▋                                                                                          | 151/751 [00:49<04:13,  2.36it/s, Materializing param=model.layers.9.post_attention_layernorm.weight]Loading weights:  20%|██████████████████████▋                                                                                          | 151/751 [00:49<04:14,  2.36it/s, Materializing param=model.layers.9.post_attention_layernorm.weight]Loading weights:  20%|██████████████████████▊                                                                                          | 152/751 [00:49<04:13,  2.36it/s, Materializing param=model.layers.9.self_attn.kv_a_layernorm.weight]Loading weights:  20%|██████████████████████▊                                                                                          | 152/751 [00:49<04:13,  2.36it/s, Materializing param=model.layers.9.self_attn.kv_a_layernorm.weight]Loading weights:  20%|██████████████████████▊                                                                                          | 152/751 [00:49<04:13,  2.36it/s, Materializing param=model.layers.9.self_attn.kv_a_layernorm.weight]Loading weights:  20%|██████████████████████▊                                                                                          | 152/751 [00:49<04:13,  2.36it/s, Materializing param=model.layers.9.self_attn.kv_a_layernorm.weight]Loading weights:  20%|██████████████████████▏                                                                                      | 153/751 [00:49<04:12,  2.36it/s, Materializing param=model.layers.9.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  20%|██████████████████████▏                                                                                      | 153/751 [00:49<04:12,  2.36it/s, Materializing param=model.layers.9.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  20%|██████████████████████▏                                                                                      | 153/751 [00:49<04:13,  2.36it/s, Materializing param=model.layers.9.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  21%|████████████████████████▏                                                                                             | 154/751 [00:49<04:12,  2.36it/s, Materializing param=model.layers.9.self_attn.kv_b_proj.weight]Loading weights:  21%|████████████████████████▏                                                                                             | 154/751 [00:49<04:12,  2.36it/s, Materializing param=model.layers.9.self_attn.kv_b_proj.weight]Loading weights:  20%|██████████████████████▏                                                                                      | 153/751 [00:49<04:13,  2.36it/s, Materializing param=model.layers.9.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  21%|████████████████████████▉                                                                                                | 155/751 [00:49<04:12,  2.36it/s, Materializing param=model.layers.9.self_attn.o_proj.weight]Loading weights:  21%|████████████████████████▉                                                                                                | 155/751 [00:49<04:12,  2.36it/s, Materializing param=model.layers.9.self_attn.o_proj.weight]Loading weights:  21%|████████████████████████▏                                                                                             | 154/751 [00:49<04:12,  2.36it/s, Materializing param=model.layers.9.self_attn.kv_b_proj.weight]Loading weights:  21%|███████████████████████▋                                                                                          | 156/751 [00:49<04:11,  2.36it/s, Materializing param=model.layers.9.self_attn.q_a_layernorm.weight]Loading weights:  21%|████████████████████████▏                                                                                             | 154/751 [00:49<04:12,  2.36it/s, Materializing param=model.layers.9.self_attn.kv_b_proj.weight]Loading weights:  21%|███████████████████████▋                                                                                          | 156/751 [00:49<04:11,  2.36it/s, Materializing param=model.layers.9.self_attn.q_a_layernorm.weight]Loading weights:  21%|████████████████████████▉                                                                                                | 155/751 [00:49<04:12,  2.36it/s, Materializing param=model.layers.9.self_attn.o_proj.weight]Loading weights:  21%|████████████████████████▉                                                                                              | 157/751 [00:49<04:11,  2.36it/s, Materializing param=model.layers.9.self_attn.q_a_proj.weight]Loading weights:  21%|████████████████████████▉                                                                                              | 157/751 [00:49<04:11,  2.36it/s, Materializing param=model.layers.9.self_attn.q_a_proj.weight]Loading weights:  21%|████████████████████████▉                                                                                                | 155/751 [00:49<04:12,  2.36it/s, Materializing param=model.layers.9.self_attn.o_proj.weight]Loading weights:  21%|█████████████████████████                                                                                              | 158/751 [00:49<04:10,  2.36it/s, Materializing param=model.layers.9.self_attn.q_b_proj.weight]Loading weights:  21%|█████████████████████████                                                                                              | 158/751 [00:49<04:10,  2.36it/s, Materializing param=model.layers.9.self_attn.q_b_proj.weight]Loading weights:  21%|███████████████████████▋                                                                                          | 156/751 [00:49<04:11,  2.36it/s, Materializing param=model.layers.9.self_attn.q_a_layernorm.weight]Loading weights:  21%|█████████████████████████▌                                                                                               | 159/751 [00:49<04:10,  2.36it/s, Materializing param=model.layers.10.input_layernorm.weight]Loading weights:  21%|███████████████████████▋                                                                                          | 156/751 [00:49<04:11,  2.36it/s, Materializing param=model.layers.9.self_attn.q_a_layernorm.weight]Loading weights:  21%|█████████████████████████▌                                                                                               | 159/751 [00:49<04:10,  2.36it/s, Materializing param=model.layers.10.input_layernorm.weight]Loading weights:  21%|█████████████████████████▉                                                                                                | 160/751 [00:49<04:09,  2.36it/s, Materializing param=model.layers.10.mlp.experts.down_proj]Loading weights:  21%|████████████████████████▉                                                                                              | 157/751 [00:49<04:11,  2.36it/s, Materializing param=model.layers.9.self_attn.q_a_proj.weight]Loading weights:  21%|█████████████████████████▉                                                                                                | 160/751 [00:49<04:09,  2.36it/s, Materializing param=model.layers.10.mlp.experts.down_proj]Loading weights:  21%|████████████████████████▉                                                                                              | 157/751 [00:49<04:11,  2.36it/s, Materializing param=model.layers.9.self_attn.q_a_proj.weight]Loading weights:  21%|█████████████████████████                                                                                              | 158/751 [00:49<04:11,  2.36it/s, Materializing param=model.layers.9.self_attn.q_b_proj.weight]Loading weights:  21%|█████████████████████████                                                                                              | 158/751 [00:49<04:11,  2.36it/s, Materializing param=model.layers.9.self_attn.q_b_proj.weight]Loading weights:  21%|█████████████████████████▌                                                                                               | 159/751 [00:49<04:10,  2.36it/s, Materializing param=model.layers.10.input_layernorm.weight]Loading weights:  21%|█████████████████████████▌                                                                                               | 159/751 [00:49<04:10,  2.36it/s, Materializing param=model.layers.10.input_layernorm.weight]Loading weights:  21%|█████████████████████████▉                                                                                                | 160/751 [00:49<04:10,  2.36it/s, Materializing param=model.layers.10.mlp.experts.down_proj]Loading weights:  21%|█████████████████████████▉                                                                                                | 160/751 [00:49<04:10,  2.36it/s, Materializing param=model.layers.10.mlp.experts.down_proj]Loading weights:  21%|██████████████████████████▏                                                                                               | 161/751 [00:50<02:39,  3.71it/s, Materializing param=model.layers.10.mlp.experts.down_proj]Loading weights:  21%|██████████████████████████▏                                                                                               | 161/751 [00:50<02:39,  3.71it/s, Materializing param=model.layers.10.mlp.experts.down_proj]Loading weights:  21%|█████████████████████████▌                                                                                             | 161/751 [00:50<02:39,  3.71it/s, Materializing param=model.layers.10.mlp.experts.gate_up_proj]Loading weights:  21%|█████████████████████████▌                                                                                             | 161/751 [00:50<02:39,  3.71it/s, Materializing param=model.layers.10.mlp.experts.gate_up_proj]Loading weights:  21%|█████████████████████████▌                                                                                             | 161/751 [00:50<02:39,  3.71it/s, Materializing param=model.layers.10.mlp.experts.gate_up_proj]Loading weights:  21%|█████████████████████████▌                                                                                             | 161/751 [00:50<02:39,  3.71it/s, Materializing param=model.layers.10.mlp.experts.gate_up_proj]Loading weights:  22%|█████████████████████████▋                                                                                             | 162/751 [00:54<04:09,  2.36it/s, Materializing param=model.layers.10.mlp.experts.gate_up_proj]Loading weights:  22%|███████████████████████▉                                                                                       | 162/751 [00:54<04:09,  2.36it/s, Materializing param=model.layers.10.mlp.gate.e_score_correction_bias]Loading weights:  22%|███████████████████████▉                                                                                       | 162/751 [00:54<04:09,  2.36it/s, Materializing param=model.layers.10.mlp.gate.e_score_correction_bias]Loading weights:  22%|███████████████████████████▊                                                                                                    | 163/751 [00:54<04:08,  2.36it/s, Materializing param=model.layers.10.mlp.gate.weight]Loading weights:  22%|███████████████████████████▊                                                                                                    | 163/751 [00:54<04:08,  2.36it/s, Materializing param=model.layers.10.mlp.gate.weight]Loading weights:  22%|███████████████████████▌                                                                                    | 164/751 [00:54<04:08,  2.36it/s, Materializing param=model.layers.10.mlp.shared_experts.down_proj.weight]Loading weights:  22%|███████████████████████▌                                                                                    | 164/751 [00:54<04:08,  2.36it/s, Materializing param=model.layers.10.mlp.shared_experts.down_proj.weight]Loading weights:  22%|███████████████████████▋                                                                                    | 165/751 [00:54<04:08,  2.36it/s, Materializing param=model.layers.10.mlp.shared_experts.gate_proj.weight]Loading weights:  22%|███████████████████████▋                                                                                    | 165/751 [00:54<04:08,  2.36it/s, Materializing param=model.layers.10.mlp.shared_experts.gate_proj.weight]Loading weights:  22%|████████████████████████▎                                                                                     | 166/751 [00:54<04:07,  2.36it/s, Materializing param=model.layers.10.mlp.shared_experts.up_proj.weight]Loading weights:  22%|████████████████████████▎                                                                                     | 166/751 [00:54<04:07,  2.36it/s, Materializing param=model.layers.10.mlp.shared_experts.up_proj.weight]Loading weights:  22%|████████████████████████▉                                                                                       | 167/751 [00:54<04:07,  2.36it/s, Materializing param=model.layers.10.post_attention_layernorm.weight]Loading weights:  22%|████████████████████████▉                                                                                       | 167/751 [00:54<04:07,  2.36it/s, Materializing param=model.layers.10.post_attention_layernorm.weight]Loading weights:  22%|█████████████████████████                                                                                       | 168/751 [00:54<04:06,  2.36it/s, Materializing param=model.layers.10.self_attn.kv_a_layernorm.weight]Loading weights:  22%|█████████████████████████                                                                                       | 168/751 [00:54<04:06,  2.36it/s, Materializing param=model.layers.10.self_attn.kv_a_layernorm.weight]Loading weights:  23%|████████████████████████▎                                                                                   | 169/751 [00:54<04:06,  2.36it/s, Materializing param=model.layers.10.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  23%|████████████████████████▎                                                                                   | 169/751 [00:54<04:06,  2.36it/s, Materializing param=model.layers.10.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  23%|██████████████████████████▍                                                                                          | 170/751 [00:54<04:05,  2.36it/s, Materializing param=model.layers.10.self_attn.kv_b_proj.weight]Loading weights:  23%|██████████████████████████▍                                                                                          | 170/751 [00:54<04:05,  2.36it/s, Materializing param=model.layers.10.self_attn.kv_b_proj.weight]Loading weights:  23%|███████████████████████████▎                                                                                            | 171/751 [00:54<04:05,  2.36it/s, Materializing param=model.layers.10.self_attn.o_proj.weight]Loading weights:  23%|███████████████████████████▎                                                                                            | 171/751 [00:54<04:05,  2.36it/s, Materializing param=model.layers.10.self_attn.o_proj.weight]Loading weights:  23%|█████████████████████████▉                                                                                       | 172/751 [00:54<04:05,  2.36it/s, Materializing param=model.layers.10.self_attn.q_a_layernorm.weight]Loading weights:  23%|█████████████████████████▉                                                                                       | 172/751 [00:54<04:05,  2.36it/s, Materializing param=model.layers.10.self_attn.q_a_layernorm.weight]Loading weights:  23%|███████████████████████████▏                                                                                          | 173/751 [00:54<04:04,  2.36it/s, Materializing param=model.layers.10.self_attn.q_a_proj.weight]Loading weights:  23%|███████████████████████████▏                                                                                          | 173/751 [00:54<04:04,  2.36it/s, Materializing param=model.layers.10.self_attn.q_a_proj.weight]Loading weights:  23%|███████████████████████████▎                                                                                          | 174/751 [00:54<04:04,  2.36it/s, Materializing param=model.layers.10.self_attn.q_b_proj.weight]Loading weights:  23%|███████████████████████████▎                                                                                          | 174/751 [00:54<04:04,  2.36it/s, Materializing param=model.layers.10.self_attn.q_b_proj.weight]Loading weights:  23%|████████████████████████████▏                                                                                            | 175/751 [00:54<04:03,  2.36it/s, Materializing param=model.layers.11.input_layernorm.weight]Loading weights:  23%|████████████████████████████▏                                                                                            | 175/751 [00:54<04:03,  2.36it/s, Materializing param=model.layers.11.input_layernorm.weight]Loading weights:  23%|████████████████████████████▌                                                                                             | 176/751 [00:54<04:03,  2.36it/s, Materializing param=model.layers.11.mlp.experts.down_proj]Loading weights:  23%|████████████████████████████▌                                                                                             | 176/751 [00:54<04:03,  2.36it/s, Materializing param=model.layers.11.mlp.experts.down_proj]Loading weights:  22%|█████████████████████████▋                                                                                             | 162/751 [00:54<04:09,  2.36it/s, Materializing param=model.layers.10.mlp.experts.gate_up_proj]Loading weights:  22%|███████████████████████▉                                                                                       | 162/751 [00:54<04:09,  2.36it/s, Materializing param=model.layers.10.mlp.gate.e_score_correction_bias]Loading weights:  22%|███████████████████████▉                                                                                       | 162/751 [00:54<04:09,  2.36it/s, Materializing param=model.layers.10.mlp.gate.e_score_correction_bias]Loading weights:  22%|███████████████████████████▊                                                                                                    | 163/751 [00:54<04:09,  2.36it/s, Materializing param=model.layers.10.mlp.gate.weight]Loading weights:  22%|███████████████████████████▊                                                                                                    | 163/751 [00:54<04:09,  2.36it/s, Materializing param=model.layers.10.mlp.gate.weight]Loading weights:  22%|███████████████████████▌                                                                                    | 164/751 [00:54<04:08,  2.36it/s, Materializing param=model.layers.10.mlp.shared_experts.down_proj.weight]Loading weights:  22%|███████████████████████▌                                                                                    | 164/751 [00:54<04:08,  2.36it/s, Materializing param=model.layers.10.mlp.shared_experts.down_proj.weight]Loading weights:  22%|███████████████████████▋                                                                                    | 165/751 [00:54<04:08,  2.36it/s, Materializing param=model.layers.10.mlp.shared_experts.gate_proj.weight]Loading weights:  22%|███████████████████████▋                                                                                    | 165/751 [00:54<04:08,  2.36it/s, Materializing param=model.layers.10.mlp.shared_experts.gate_proj.weight]Loading weights:  22%|████████████████████████▎                                                                                     | 166/751 [00:54<04:07,  2.36it/s, Materializing param=model.layers.10.mlp.shared_experts.up_proj.weight]Loading weights:  22%|████████████████████████▎                                                                                     | 166/751 [00:54<04:07,  2.36it/s, Materializing param=model.layers.10.mlp.shared_experts.up_proj.weight]Loading weights:  22%|████████████████████████▉                                                                                       | 167/751 [00:54<04:07,  2.36it/s, Materializing param=model.layers.10.post_attention_layernorm.weight]Loading weights:  22%|████████████████████████▉                                                                                       | 167/751 [00:54<04:07,  2.36it/s, Materializing param=model.layers.10.post_attention_layernorm.weight]Loading weights:  22%|█████████████████████████                                                                                       | 168/751 [00:54<04:07,  2.36it/s, Materializing param=model.layers.10.self_attn.kv_a_layernorm.weight]Loading weights:  22%|█████████████████████████                                                                                       | 168/751 [00:54<04:07,  2.36it/s, Materializing param=model.layers.10.self_attn.kv_a_layernorm.weight]Loading weights:  23%|████████████████████████▎                                                                                   | 169/751 [00:54<04:06,  2.36it/s, Materializing param=model.layers.10.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  23%|████████████████████████▎                                                                                   | 169/751 [00:54<04:06,  2.36it/s, Materializing param=model.layers.10.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  23%|██████████████████████████▍                                                                                          | 170/751 [00:54<04:06,  2.36it/s, Materializing param=model.layers.10.self_attn.kv_b_proj.weight]Loading weights:  23%|██████████████████████████▍                                                                                          | 170/751 [00:54<04:06,  2.36it/s, Materializing param=model.layers.10.self_attn.kv_b_proj.weight]Loading weights:  23%|███████████████████████████▎                                                                                            | 171/751 [00:54<04:05,  2.36it/s, Materializing param=model.layers.10.self_attn.o_proj.weight]Loading weights:  23%|███████████████████████████▎                                                                                            | 171/751 [00:54<04:05,  2.36it/s, Materializing param=model.layers.10.self_attn.o_proj.weight]Loading weights:  23%|█████████████████████████▉                                                                                       | 172/751 [00:54<04:05,  2.36it/s, Materializing param=model.layers.10.self_attn.q_a_layernorm.weight]Loading weights:  23%|█████████████████████████▉                                                                                       | 172/751 [00:54<04:05,  2.36it/s, Materializing param=model.layers.10.self_attn.q_a_layernorm.weight]Loading weights:  23%|███████████████████████████▏                                                                                          | 173/751 [00:54<04:04,  2.36it/s, Materializing param=model.layers.10.self_attn.q_a_proj.weight]Loading weights:  23%|███████████████████████████▏                                                                                          | 173/751 [00:54<04:04,  2.36it/s, Materializing param=model.layers.10.self_attn.q_a_proj.weight]Loading weights:  23%|███████████████████████████▎                                                                                          | 174/751 [00:54<04:04,  2.36it/s, Materializing param=model.layers.10.self_attn.q_b_proj.weight]Loading weights:  23%|███████████████████████████▎                                                                                          | 174/751 [00:54<04:04,  2.36it/s, Materializing param=model.layers.10.self_attn.q_b_proj.weight]Loading weights:  23%|████████████████████████████▏                                                                                            | 175/751 [00:54<04:04,  2.36it/s, Materializing param=model.layers.11.input_layernorm.weight]Loading weights:  23%|████████████████████████████▏                                                                                            | 175/751 [00:54<04:04,  2.36it/s, Materializing param=model.layers.11.input_layernorm.weight]Loading weights:  23%|████████████████████████████▌                                                                                             | 176/751 [00:54<04:03,  2.36it/s, Materializing param=model.layers.11.mlp.experts.down_proj]Loading weights:  23%|████████████████████████████▌                                                                                             | 176/751 [00:54<04:03,  2.36it/s, Materializing param=model.layers.11.mlp.experts.down_proj]Loading weights:  24%|████████████████████████████▊                                                                                             | 177/751 [00:56<02:34,  3.72it/s, Materializing param=model.layers.11.mlp.experts.down_proj]Loading weights:  24%|████████████████████████████▊                                                                                             | 177/751 [00:56<02:34,  3.72it/s, Materializing param=model.layers.11.mlp.experts.down_proj]Loading weights:  24%|████████████████████████████                                                                                           | 177/751 [00:56<02:34,  3.72it/s, Materializing param=model.layers.11.mlp.experts.gate_up_proj]Loading weights:  24%|████████████████████████████                                                                                           | 177/751 [00:56<02:34,  3.72it/s, Materializing param=model.layers.11.mlp.experts.gate_up_proj]Loading weights:  24%|████████████████████████████                                                                                           | 177/751 [00:56<02:34,  3.72it/s, Materializing param=model.layers.11.mlp.experts.gate_up_proj]Loading weights:  24%|████████████████████████████                                                                                           | 177/751 [00:56<02:34,  3.72it/s, Materializing param=model.layers.11.mlp.experts.gate_up_proj]Loading weights:  24%|████████████████████████████▏                                                                                          | 178/751 [00:59<03:59,  2.40it/s, Materializing param=model.layers.11.mlp.experts.gate_up_proj]Loading weights:  24%|██████████████████████████▎                                                                                    | 178/751 [00:59<03:59,  2.40it/s, Materializing param=model.layers.11.mlp.gate.e_score_correction_bias]Loading weights:  24%|██████████████████████████▎                                                                                    | 178/751 [00:59<03:59,  2.40it/s, Materializing param=model.layers.11.mlp.gate.e_score_correction_bias]Loading weights:  24%|██████████████████████████████▌                                                                                                 | 179/751 [00:59<03:58,  2.40it/s, Materializing param=model.layers.11.mlp.gate.weight]Loading weights:  24%|██████████████████████████████▌                                                                                                 | 179/751 [00:59<03:58,  2.40it/s, Materializing param=model.layers.11.mlp.gate.weight]Loading weights:  24%|█████████████████████████▉                                                                                  | 180/751 [00:59<03:58,  2.40it/s, Materializing param=model.layers.11.mlp.shared_experts.down_proj.weight]Loading weights:  24%|█████████████████████████▉                                                                                  | 180/751 [00:59<03:58,  2.40it/s, Materializing param=model.layers.11.mlp.shared_experts.down_proj.weight]Loading weights:  24%|██████████████████████████                                                                                  | 181/751 [00:59<03:57,  2.40it/s, Materializing param=model.layers.11.mlp.shared_experts.gate_proj.weight]Loading weights:  24%|██████████████████████████                                                                                  | 181/751 [00:59<03:57,  2.40it/s, Materializing param=model.layers.11.mlp.shared_experts.gate_proj.weight]Loading weights:  24%|██████████████████████████▋                                                                                   | 182/751 [00:59<03:57,  2.40it/s, Materializing param=model.layers.11.mlp.shared_experts.up_proj.weight]Loading weights:  24%|██████████████████████████▋                                                                                   | 182/751 [00:59<03:57,  2.40it/s, Materializing param=model.layers.11.mlp.shared_experts.up_proj.weight]Loading weights:  24%|███████████████████████████▎                                                                                    | 183/751 [00:59<03:57,  2.40it/s, Materializing param=model.layers.11.post_attention_layernorm.weight]Loading weights:  24%|███████████████████████████▎                                                                                    | 183/751 [00:59<03:57,  2.40it/s, Materializing param=model.layers.11.post_attention_layernorm.weight]Loading weights:  25%|███████████████████████████▍                                                                                    | 184/751 [00:59<03:56,  2.40it/s, Materializing param=model.layers.11.self_attn.kv_a_layernorm.weight]Loading weights:  25%|███████████████████████████▍                                                                                    | 184/751 [00:59<03:56,  2.40it/s, Materializing param=model.layers.11.self_attn.kv_a_layernorm.weight]Loading weights:  25%|██████████████████████████▌                                                                                 | 185/751 [00:59<03:56,  2.40it/s, Materializing param=model.layers.11.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  25%|██████████████████████████▌                                                                                 | 185/751 [00:59<03:56,  2.40it/s, Materializing param=model.layers.11.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  25%|████████████████████████████▉                                                                                        | 186/751 [00:59<03:55,  2.40it/s, Materializing param=model.layers.11.self_attn.kv_b_proj.weight]Loading weights:  25%|████████████████████████████▉                                                                                        | 186/751 [00:59<03:55,  2.40it/s, Materializing param=model.layers.11.self_attn.kv_b_proj.weight]Loading weights:  25%|█████████████████████████████▉                                                                                          | 187/751 [00:59<03:55,  2.40it/s, Materializing param=model.layers.11.self_attn.o_proj.weight]Loading weights:  25%|█████████████████████████████▉                                                                                          | 187/751 [00:59<03:55,  2.40it/s, Materializing param=model.layers.11.self_attn.o_proj.weight]Loading weights:  25%|████████████████████████████▎                                                                                    | 188/751 [00:59<03:54,  2.40it/s, Materializing param=model.layers.11.self_attn.q_a_layernorm.weight]Loading weights:  25%|████████████████████████████▎                                                                                    | 188/751 [00:59<03:54,  2.40it/s, Materializing param=model.layers.11.self_attn.q_a_layernorm.weight]Loading weights:  25%|█████████████████████████████▋                                                                                        | 189/751 [00:59<03:54,  2.40it/s, Materializing param=model.layers.11.self_attn.q_a_proj.weight]Loading weights:  25%|█████████████████████████████▋                                                                                        | 189/751 [00:59<03:54,  2.40it/s, Materializing param=model.layers.11.self_attn.q_a_proj.weight]Loading weights:  25%|█████████████████████████████▊                                                                                        | 190/751 [00:59<03:54,  2.40it/s, Materializing param=model.layers.11.self_attn.q_b_proj.weight]Loading weights:  25%|█████████████████████████████▊                                                                                        | 190/751 [00:59<03:54,  2.40it/s, Materializing param=model.layers.11.self_attn.q_b_proj.weight]Loading weights:  25%|██████████████████████████████▊                                                                                          | 191/751 [00:59<03:53,  2.40it/s, Materializing param=model.layers.12.input_layernorm.weight]Loading weights:  25%|██████████████████████████████▊                                                                                          | 191/751 [00:59<03:53,  2.40it/s, Materializing param=model.layers.12.input_layernorm.weight]Loading weights:  26%|███████████████████████████████▏                                                                                          | 192/751 [00:59<03:53,  2.40it/s, Materializing param=model.layers.12.mlp.experts.down_proj]Loading weights:  26%|███████████████████████████████▏                                                                                          | 192/751 [00:59<03:53,  2.40it/s, Materializing param=model.layers.12.mlp.experts.down_proj]Loading weights:  24%|████████████████████████████▏                                                                                          | 178/751 [00:59<03:59,  2.39it/s, Materializing param=model.layers.11.mlp.experts.gate_up_proj]Loading weights:  24%|██████████████████████████▎                                                                                    | 178/751 [00:59<03:59,  2.39it/s, Materializing param=model.layers.11.mlp.gate.e_score_correction_bias]Loading weights:  24%|██████████████████████████▎                                                                                    | 178/751 [00:59<03:59,  2.39it/s, Materializing param=model.layers.11.mlp.gate.e_score_correction_bias]Loading weights:  24%|██████████████████████████████▌                                                                                                 | 179/751 [00:59<03:59,  2.39it/s, Materializing param=model.layers.11.mlp.gate.weight]Loading weights:  24%|██████████████████████████████▌                                                                                                 | 179/751 [00:59<03:59,  2.39it/s, Materializing param=model.layers.11.mlp.gate.weight]Loading weights:  24%|█████████████████████████▉                                                                                  | 180/751 [00:59<03:58,  2.39it/s, Materializing param=model.layers.11.mlp.shared_experts.down_proj.weight]Loading weights:  24%|█████████████████████████▉                                                                                  | 180/751 [00:59<03:58,  2.39it/s, Materializing param=model.layers.11.mlp.shared_experts.down_proj.weight]Loading weights:  24%|██████████████████████████                                                                                  | 181/751 [00:59<03:58,  2.39it/s, Materializing param=model.layers.11.mlp.shared_experts.gate_proj.weight]Loading weights:  24%|██████████████████████████                                                                                  | 181/751 [00:59<03:58,  2.39it/s, Materializing param=model.layers.11.mlp.shared_experts.gate_proj.weight]Loading weights:  24%|██████████████████████████▋                                                                                   | 182/751 [00:59<03:57,  2.39it/s, Materializing param=model.layers.11.mlp.shared_experts.up_proj.weight]Loading weights:  24%|██████████████████████████▋                                                                                   | 182/751 [00:59<03:57,  2.39it/s, Materializing param=model.layers.11.mlp.shared_experts.up_proj.weight]Loading weights:  24%|███████████████████████████▎                                                                                    | 183/751 [00:59<03:57,  2.39it/s, Materializing param=model.layers.11.post_attention_layernorm.weight]Loading weights:  24%|███████████████████████████▎                                                                                    | 183/751 [00:59<03:57,  2.39it/s, Materializing param=model.layers.11.post_attention_layernorm.weight]Loading weights:  25%|███████████████████████████▍                                                                                    | 184/751 [00:59<03:56,  2.39it/s, Materializing param=model.layers.11.self_attn.kv_a_layernorm.weight]Loading weights:  25%|███████████████████████████▍                                                                                    | 184/751 [00:59<03:56,  2.39it/s, Materializing param=model.layers.11.self_attn.kv_a_layernorm.weight]Loading weights:  25%|██████████████████████████▌                                                                                 | 185/751 [00:59<03:56,  2.39it/s, Materializing param=model.layers.11.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  25%|██████████████████████████▌                                                                                 | 185/751 [00:59<03:56,  2.39it/s, Materializing param=model.layers.11.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  25%|████████████████████████████▉                                                                                        | 186/751 [00:59<03:56,  2.39it/s, Materializing param=model.layers.11.self_attn.kv_b_proj.weight]Loading weights:  25%|████████████████████████████▉                                                                                        | 186/751 [00:59<03:56,  2.39it/s, Materializing param=model.layers.11.self_attn.kv_b_proj.weight]Loading weights:  25%|█████████████████████████████▉                                                                                          | 187/751 [00:59<03:55,  2.39it/s, Materializing param=model.layers.11.self_attn.o_proj.weight]Loading weights:  25%|█████████████████████████████▉                                                                                          | 187/751 [00:59<03:55,  2.39it/s, Materializing param=model.layers.11.self_attn.o_proj.weight]Loading weights:  25%|████████████████████████████▎                                                                                    | 188/751 [00:59<03:55,  2.39it/s, Materializing param=model.layers.11.self_attn.q_a_layernorm.weight]Loading weights:  25%|████████████████████████████▎                                                                                    | 188/751 [00:59<03:55,  2.39it/s, Materializing param=model.layers.11.self_attn.q_a_layernorm.weight]Loading weights:  25%|█████████████████████████████▋                                                                                        | 189/751 [00:59<03:54,  2.39it/s, Materializing param=model.layers.11.self_attn.q_a_proj.weight]Loading weights:  25%|█████████████████████████████▋                                                                                        | 189/751 [00:59<03:54,  2.39it/s, Materializing param=model.layers.11.self_attn.q_a_proj.weight]Loading weights:  25%|█████████████████████████████▊                                                                                        | 190/751 [00:59<03:54,  2.39it/s, Materializing param=model.layers.11.self_attn.q_b_proj.weight]Loading weights:  25%|█████████████████████████████▊                                                                                        | 190/751 [00:59<03:54,  2.39it/s, Materializing param=model.layers.11.self_attn.q_b_proj.weight]Loading weights:  25%|██████████████████████████████▊                                                                                          | 191/751 [00:59<03:54,  2.39it/s, Materializing param=model.layers.12.input_layernorm.weight]Loading weights:  25%|██████████████████████████████▊                                                                                          | 191/751 [00:59<03:54,  2.39it/s, Materializing param=model.layers.12.input_layernorm.weight]Loading weights:  26%|███████████████████████████████▏                                                                                          | 192/751 [00:59<03:53,  2.39it/s, Materializing param=model.layers.12.mlp.experts.down_proj]Loading weights:  26%|███████████████████████████████▏                                                                                          | 192/751 [00:59<03:53,  2.39it/s, Materializing param=model.layers.12.mlp.experts.down_proj]Loading weights:  26%|███████████████████████████████▎                                                                                          | 193/751 [01:01<02:30,  3.70it/s, Materializing param=model.layers.12.mlp.experts.down_proj]Loading weights:  26%|███████████████████████████████▎                                                                                          | 193/751 [01:01<02:30,  3.70it/s, Materializing param=model.layers.12.mlp.experts.down_proj]Loading weights:  26%|██████████████████████████████▌                                                                                        | 193/751 [01:01<02:30,  3.70it/s, Materializing param=model.layers.12.mlp.experts.gate_up_proj]Loading weights:  26%|██████████████████████████████▌                                                                                        | 193/751 [01:01<02:30,  3.70it/s, Materializing param=model.layers.12.mlp.experts.gate_up_proj]Loading weights:  26%|██████████████████████████████▌                                                                                        | 193/751 [01:01<02:30,  3.70it/s, Materializing param=model.layers.12.mlp.experts.gate_up_proj]Loading weights:  26%|██████████████████████████████▌                                                                                        | 193/751 [01:01<02:30,  3.70it/s, Materializing param=model.layers.12.mlp.experts.gate_up_proj]Loading weights:  26%|██████████████████████████████▋                                                                                        | 194/751 [01:05<03:53,  2.38it/s, Materializing param=model.layers.12.mlp.experts.gate_up_proj]Loading weights:  26%|████████████████████████████▋                                                                                  | 194/751 [01:05<03:53,  2.38it/s, Materializing param=model.layers.12.mlp.gate.e_score_correction_bias]Loading weights:  26%|████████████████████████████▋                                                                                  | 194/751 [01:05<03:53,  2.38it/s, Materializing param=model.layers.12.mlp.gate.e_score_correction_bias]Loading weights:  26%|█████████████████████████████████▏                                                                                              | 195/751 [01:05<03:53,  2.38it/s, Materializing param=model.layers.12.mlp.gate.weight]Loading weights:  26%|█████████████████████████████████▏                                                                                              | 195/751 [01:05<03:53,  2.38it/s, Materializing param=model.layers.12.mlp.gate.weight]Loading weights:  26%|████████████████████████████▏                                                                               | 196/751 [01:05<03:53,  2.38it/s, Materializing param=model.layers.12.mlp.shared_experts.down_proj.weight]Loading weights:  26%|████████████████████████████▏                                                                               | 196/751 [01:05<03:53,  2.38it/s, Materializing param=model.layers.12.mlp.shared_experts.down_proj.weight]Loading weights:  26%|████████████████████████████▎                                                                               | 197/751 [01:05<03:52,  2.38it/s, Materializing param=model.layers.12.mlp.shared_experts.gate_proj.weight]Loading weights:  26%|████████████████████████████▎                                                                               | 197/751 [01:05<03:52,  2.38it/s, Materializing param=model.layers.12.mlp.shared_experts.gate_proj.weight]Loading weights:  26%|█████████████████████████████                                                                                 | 198/751 [01:05<03:52,  2.38it/s, Materializing param=model.layers.12.mlp.shared_experts.up_proj.weight]Loading weights:  26%|█████████████████████████████                                                                                 | 198/751 [01:05<03:52,  2.38it/s, Materializing param=model.layers.12.mlp.shared_experts.up_proj.weight]Loading weights:  26%|█████████████████████████████▋                                                                                  | 199/751 [01:05<03:51,  2.38it/s, Materializing param=model.layers.12.post_attention_layernorm.weight]Loading weights:  26%|█████████████████████████████▋                                                                                  | 199/751 [01:05<03:51,  2.38it/s, Materializing param=model.layers.12.post_attention_layernorm.weight]Loading weights:  27%|█████████████████████████████▊                                                                                  | 200/751 [01:05<03:51,  2.38it/s, Materializing param=model.layers.12.self_attn.kv_a_layernorm.weight]Loading weights:  27%|█████████████████████████████▊                                                                                  | 200/751 [01:05<03:51,  2.38it/s, Materializing param=model.layers.12.self_attn.kv_a_layernorm.weight]Loading weights:  27%|████████████████████████████▉                                                                               | 201/751 [01:05<03:51,  2.38it/s, Materializing param=model.layers.12.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  27%|████████████████████████████▉                                                                               | 201/751 [01:05<03:51,  2.38it/s, Materializing param=model.layers.12.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  27%|███████████████████████████████▍                                                                                     | 202/751 [01:05<03:50,  2.38it/s, Materializing param=model.layers.12.self_attn.kv_b_proj.weight]Loading weights:  27%|███████████████████████████████▍                                                                                     | 202/751 [01:05<03:50,  2.38it/s, Materializing param=model.layers.12.self_attn.kv_b_proj.weight]Loading weights:  27%|████████████████████████████████▍                                                                                       | 203/751 [01:05<03:50,  2.38it/s, Materializing param=model.layers.12.self_attn.o_proj.weight]Loading weights:  27%|████████████████████████████████▍                                                                                       | 203/751 [01:05<03:50,  2.38it/s, Materializing param=model.layers.12.self_attn.o_proj.weight]Loading weights:  27%|██████████████████████████████▋                                                                                  | 204/751 [01:05<03:49,  2.38it/s, Materializing param=model.layers.12.self_attn.q_a_layernorm.weight]Loading weights:  27%|██████████████████████████████▋                                                                                  | 204/751 [01:05<03:49,  2.38it/s, Materializing param=model.layers.12.self_attn.q_a_layernorm.weight]Loading weights:  27%|████████████████████████████████▏                                                                                     | 205/751 [01:05<03:49,  2.38it/s, Materializing param=model.layers.12.self_attn.q_a_proj.weight]Loading weights:  27%|████████████████████████████████▏                                                                                     | 205/751 [01:05<03:49,  2.38it/s, Materializing param=model.layers.12.self_attn.q_a_proj.weight]Loading weights:  27%|████████████████████████████████▎                                                                                     | 206/751 [01:05<03:48,  2.38it/s, Materializing param=model.layers.12.self_attn.q_b_proj.weight]Loading weights:  27%|████████████████████████████████▎                                                                                     | 206/751 [01:05<03:48,  2.38it/s, Materializing param=model.layers.12.self_attn.q_b_proj.weight]Loading weights:  28%|█████████████████████████████████▎                                                                                       | 207/751 [01:05<03:48,  2.38it/s, Materializing param=model.layers.13.input_layernorm.weight]Loading weights:  28%|█████████████████████████████████▎                                                                                       | 207/751 [01:05<03:48,  2.38it/s, Materializing param=model.layers.13.input_layernorm.weight]Loading weights:  28%|█████████████████████████████████▊                                                                                        | 208/751 [01:05<03:48,  2.38it/s, Materializing param=model.layers.13.mlp.experts.down_proj]Loading weights:  28%|█████████████████████████████████▊                                                                                        | 208/751 [01:05<03:48,  2.38it/s, Materializing param=model.layers.13.mlp.experts.down_proj]Loading weights:  26%|██████████████████████████████▋                                                                                        | 194/751 [01:05<03:54,  2.38it/s, Materializing param=model.layers.12.mlp.experts.gate_up_proj]Loading weights:  26%|████████████████████████████▋                                                                                  | 194/751 [01:05<03:54,  2.38it/s, Materializing param=model.layers.12.mlp.gate.e_score_correction_bias]Loading weights:  26%|████████████████████████████▋                                                                                  | 194/751 [01:05<03:54,  2.38it/s, Materializing param=model.layers.12.mlp.gate.e_score_correction_bias]Loading weights:  26%|█████████████████████████████████▏                                                                                              | 195/751 [01:05<03:53,  2.38it/s, Materializing param=model.layers.12.mlp.gate.weight]Loading weights:  26%|█████████████████████████████████▏                                                                                              | 195/751 [01:05<03:53,  2.38it/s, Materializing param=model.layers.12.mlp.gate.weight]Loading weights:  26%|████████████████████████████▏                                                                               | 196/751 [01:05<03:53,  2.38it/s, Materializing param=model.layers.12.mlp.shared_experts.down_proj.weight]Loading weights:  26%|████████████████████████████▏                                                                               | 196/751 [01:05<03:53,  2.38it/s, Materializing param=model.layers.12.mlp.shared_experts.down_proj.weight]Loading weights:  26%|████████████████████████████▎                                                                               | 197/751 [01:05<03:52,  2.38it/s, Materializing param=model.layers.12.mlp.shared_experts.gate_proj.weight]Loading weights:  26%|████████████████████████████▎                                                                               | 197/751 [01:05<03:52,  2.38it/s, Materializing param=model.layers.12.mlp.shared_experts.gate_proj.weight]Loading weights:  26%|█████████████████████████████                                                                                 | 198/751 [01:05<03:52,  2.38it/s, Materializing param=model.layers.12.mlp.shared_experts.up_proj.weight]Loading weights:  26%|█████████████████████████████                                                                                 | 198/751 [01:05<03:52,  2.38it/s, Materializing param=model.layers.12.mlp.shared_experts.up_proj.weight]Loading weights:  26%|█████████████████████████████▋                                                                                  | 199/751 [01:05<03:52,  2.38it/s, Materializing param=model.layers.12.post_attention_layernorm.weight]Loading weights:  26%|█████████████████████████████▋                                                                                  | 199/751 [01:05<03:52,  2.38it/s, Materializing param=model.layers.12.post_attention_layernorm.weight]Loading weights:  27%|█████████████████████████████▊                                                                                  | 200/751 [01:05<03:51,  2.38it/s, Materializing param=model.layers.12.self_attn.kv_a_layernorm.weight]Loading weights:  27%|█████████████████████████████▊                                                                                  | 200/751 [01:05<03:51,  2.38it/s, Materializing param=model.layers.12.self_attn.kv_a_layernorm.weight]Loading weights:  27%|████████████████████████████▉                                                                               | 201/751 [01:05<03:51,  2.38it/s, Materializing param=model.layers.12.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  27%|████████████████████████████▉                                                                               | 201/751 [01:05<03:51,  2.38it/s, Materializing param=model.layers.12.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  27%|███████████████████████████████▍                                                                                     | 202/751 [01:05<03:50,  2.38it/s, Materializing param=model.layers.12.self_attn.kv_b_proj.weight]Loading weights:  27%|███████████████████████████████▍                                                                                     | 202/751 [01:05<03:50,  2.38it/s, Materializing param=model.layers.12.self_attn.kv_b_proj.weight]Loading weights:  27%|████████████████████████████████▍                                                                                       | 203/751 [01:05<03:50,  2.38it/s, Materializing param=model.layers.12.self_attn.o_proj.weight]Loading weights:  27%|████████████████████████████████▍                                                                                       | 203/751 [01:05<03:50,  2.38it/s, Materializing param=model.layers.12.self_attn.o_proj.weight]Loading weights:  27%|██████████████████████████████▋                                                                                  | 204/751 [01:05<03:50,  2.38it/s, Materializing param=model.layers.12.self_attn.q_a_layernorm.weight]Loading weights:  27%|██████████████████████████████▋                                                                                  | 204/751 [01:05<03:50,  2.38it/s, Materializing param=model.layers.12.self_attn.q_a_layernorm.weight]Loading weights:  27%|████████████████████████████████▏                                                                                     | 205/751 [01:05<03:49,  2.38it/s, Materializing param=model.layers.12.self_attn.q_a_proj.weight]Loading weights:  27%|████████████████████████████████▏                                                                                     | 205/751 [01:05<03:49,  2.38it/s, Materializing param=model.layers.12.self_attn.q_a_proj.weight]Loading weights:  27%|████████████████████████████████▎                                                                                     | 206/751 [01:05<03:49,  2.38it/s, Materializing param=model.layers.12.self_attn.q_b_proj.weight]Loading weights:  27%|████████████████████████████████▎                                                                                     | 206/751 [01:05<03:49,  2.38it/s, Materializing param=model.layers.12.self_attn.q_b_proj.weight]Loading weights:  28%|█████████████████████████████████▎                                                                                       | 207/751 [01:05<03:48,  2.38it/s, Materializing param=model.layers.13.input_layernorm.weight]Loading weights:  28%|█████████████████████████████████▎                                                                                       | 207/751 [01:05<03:48,  2.38it/s, Materializing param=model.layers.13.input_layernorm.weight]Loading weights:  28%|█████████████████████████████████▊                                                                                        | 208/751 [01:05<03:48,  2.38it/s, Materializing param=model.layers.13.mlp.experts.down_proj]Loading weights:  28%|█████████████████████████████████▊                                                                                        | 208/751 [01:05<03:48,  2.38it/s, Materializing param=model.layers.13.mlp.experts.down_proj]Loading weights:  28%|█████████████████████████████████▉                                                                                        | 209/751 [01:06<02:24,  3.75it/s, Materializing param=model.layers.13.mlp.experts.down_proj]Loading weights:  28%|█████████████████████████████████▉                                                                                        | 209/751 [01:06<02:24,  3.75it/s, Materializing param=model.layers.13.mlp.experts.down_proj]Loading weights:  28%|█████████████████████████████████                                                                                      | 209/751 [01:06<02:24,  3.75it/s, Materializing param=model.layers.13.mlp.experts.gate_up_proj]Loading weights:  28%|█████████████████████████████████                                                                                      | 209/751 [01:06<02:24,  3.75it/s, Materializing param=model.layers.13.mlp.experts.gate_up_proj]Loading weights:  28%|█████████████████████████████████                                                                                      | 209/751 [01:06<02:24,  3.75it/s, Materializing param=model.layers.13.mlp.experts.gate_up_proj]Loading weights:  28%|█████████████████████████████████                                                                                      | 209/751 [01:06<02:24,  3.75it/s, Materializing param=model.layers.13.mlp.experts.gate_up_proj]Loading weights:  28%|█████████████████████████████████▎                                                                                     | 210/751 [01:10<03:38,  2.47it/s, Materializing param=model.layers.13.mlp.experts.gate_up_proj]Loading weights:  28%|███████████████████████████████                                                                                | 210/751 [01:10<03:38,  2.47it/s, Materializing param=model.layers.13.mlp.gate.e_score_correction_bias]Loading weights:  28%|███████████████████████████████                                                                                | 210/751 [01:10<03:38,  2.47it/s, Materializing param=model.layers.13.mlp.gate.e_score_correction_bias]Loading weights:  28%|███████████████████████████████████▉                                                                                            | 211/751 [01:10<03:38,  2.47it/s, Materializing param=model.layers.13.mlp.gate.weight]Loading weights:  28%|███████████████████████████████████▉                                                                                            | 211/751 [01:10<03:38,  2.47it/s, Materializing param=model.layers.13.mlp.gate.weight]Loading weights:  28%|██████████████████████████████▍                                                                             | 212/751 [01:10<03:37,  2.47it/s, Materializing param=model.layers.13.mlp.shared_experts.down_proj.weight]Loading weights:  28%|██████████████████████████████▍                                                                             | 212/751 [01:10<03:37,  2.47it/s, Materializing param=model.layers.13.mlp.shared_experts.down_proj.weight]Loading weights:  28%|██████████████████████████████▋                                                                             | 213/751 [01:10<03:37,  2.47it/s, Materializing param=model.layers.13.mlp.shared_experts.gate_proj.weight]Loading weights:  28%|██████████████████████████████▋                                                                             | 213/751 [01:10<03:37,  2.47it/s, Materializing param=model.layers.13.mlp.shared_experts.gate_proj.weight]Loading weights:  28%|███████████████████████████████▎                                                                              | 214/751 [01:10<03:36,  2.47it/s, Materializing param=model.layers.13.mlp.shared_experts.up_proj.weight]Loading weights:  28%|███████████████████████████████▎                                                                              | 214/751 [01:10<03:36,  2.47it/s, Materializing param=model.layers.13.mlp.shared_experts.up_proj.weight]Loading weights:  29%|████████████████████████████████                                                                                | 215/751 [01:10<03:36,  2.47it/s, Materializing param=model.layers.13.post_attention_layernorm.weight]Loading weights:  29%|████████████████████████████████                                                                                | 215/751 [01:10<03:36,  2.47it/s, Materializing param=model.layers.13.post_attention_layernorm.weight]Loading weights:  29%|████████████████████████████████▏                                                                               | 216/751 [01:10<03:36,  2.47it/s, Materializing param=model.layers.13.self_attn.kv_a_layernorm.weight]Loading weights:  29%|████████████████████████████████▏                                                                               | 216/751 [01:10<03:36,  2.47it/s, Materializing param=model.layers.13.self_attn.kv_a_layernorm.weight]Loading weights:  29%|███████████████████████████████▏                                                                            | 217/751 [01:10<03:35,  2.47it/s, Materializing param=model.layers.13.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  29%|███████████████████████████████▏                                                                            | 217/751 [01:10<03:35,  2.47it/s, Materializing param=model.layers.13.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  29%|█████████████████████████████████▉                                                                                   | 218/751 [01:10<03:35,  2.47it/s, Materializing param=model.layers.13.self_attn.kv_b_proj.weight]Loading weights:  29%|█████████████████████████████████▉                                                                                   | 218/751 [01:10<03:35,  2.47it/s, Materializing param=model.layers.13.self_attn.kv_b_proj.weight]Loading weights:  29%|██████████████████████████████████▉                                                                                     | 219/751 [01:10<03:34,  2.47it/s, Materializing param=model.layers.13.self_attn.o_proj.weight]Loading weights:  29%|██████████████████████████████████▉                                                                                     | 219/751 [01:10<03:34,  2.47it/s, Materializing param=model.layers.13.self_attn.o_proj.weight]Loading weights:  29%|█████████████████████████████████                                                                                | 220/751 [01:10<03:34,  2.47it/s, Materializing param=model.layers.13.self_attn.q_a_layernorm.weight]Loading weights:  29%|█████████████████████████████████                                                                                | 220/751 [01:10<03:34,  2.47it/s, Materializing param=model.layers.13.self_attn.q_a_layernorm.weight]Loading weights:  29%|██████████████████████████████████▋                                                                                   | 221/751 [01:10<03:34,  2.47it/s, Materializing param=model.layers.13.self_attn.q_a_proj.weight]Loading weights:  29%|██████████████████████████████████▋                                                                                   | 221/751 [01:10<03:34,  2.47it/s, Materializing param=model.layers.13.self_attn.q_a_proj.weight]Loading weights:  30%|██████████████████████████████████▉                                                                                   | 222/751 [01:10<03:33,  2.47it/s, Materializing param=model.layers.13.self_attn.q_b_proj.weight]Loading weights:  30%|██████████████████████████████████▉                                                                                   | 222/751 [01:10<03:33,  2.47it/s, Materializing param=model.layers.13.self_attn.q_b_proj.weight]Loading weights:  30%|███████████████████████████████████▉                                                                                     | 223/751 [01:10<03:33,  2.47it/s, Materializing param=model.layers.14.input_layernorm.weight]Loading weights:  30%|███████████████████████████████████▉                                                                                     | 223/751 [01:10<03:33,  2.47it/s, Materializing param=model.layers.14.input_layernorm.weight]Loading weights:  30%|████████████████████████████████████▍                                                                                     | 224/751 [01:10<03:32,  2.47it/s, Materializing param=model.layers.14.mlp.experts.down_proj]Loading weights:  30%|████████████████████████████████████▍                                                                                     | 224/751 [01:10<03:32,  2.47it/s, Materializing param=model.layers.14.mlp.experts.down_proj]Loading weights:  28%|█████████████████████████████████▎                                                                                     | 210/751 [01:10<03:38,  2.47it/s, Materializing param=model.layers.13.mlp.experts.gate_up_proj]Loading weights:  28%|███████████████████████████████                                                                                | 210/751 [01:10<03:38,  2.47it/s, Materializing param=model.layers.13.mlp.gate.e_score_correction_bias]Loading weights:  28%|███████████████████████████████                                                                                | 210/751 [01:10<03:38,  2.47it/s, Materializing param=model.layers.13.mlp.gate.e_score_correction_bias]Loading weights:  28%|███████████████████████████████████▉                                                                                            | 211/751 [01:10<03:38,  2.47it/s, Materializing param=model.layers.13.mlp.gate.weight]Loading weights:  28%|███████████████████████████████████▉                                                                                            | 211/751 [01:10<03:38,  2.47it/s, Materializing param=model.layers.13.mlp.gate.weight]Loading weights:  28%|██████████████████████████████▍                                                                             | 212/751 [01:10<03:38,  2.47it/s, Materializing param=model.layers.13.mlp.shared_experts.down_proj.weight]Loading weights:  28%|██████████████████████████████▍                                                                             | 212/751 [01:10<03:38,  2.47it/s, Materializing param=model.layers.13.mlp.shared_experts.down_proj.weight]Loading weights:  28%|██████████████████████████████▋                                                                             | 213/751 [01:10<03:37,  2.47it/s, Materializing param=model.layers.13.mlp.shared_experts.gate_proj.weight]Loading weights:  28%|██████████████████████████████▋                                                                             | 213/751 [01:10<03:37,  2.47it/s, Materializing param=model.layers.13.mlp.shared_experts.gate_proj.weight]Loading weights:  28%|███████████████████████████████▎                                                                              | 214/751 [01:10<03:37,  2.47it/s, Materializing param=model.layers.13.mlp.shared_experts.up_proj.weight]Loading weights:  28%|███████████████████████████████▎                                                                              | 214/751 [01:10<03:37,  2.47it/s, Materializing param=model.layers.13.mlp.shared_experts.up_proj.weight]Loading weights:  29%|████████████████████████████████                                                                                | 215/751 [01:10<03:36,  2.47it/s, Materializing param=model.layers.13.post_attention_layernorm.weight]Loading weights:  29%|████████████████████████████████                                                                                | 215/751 [01:10<03:36,  2.47it/s, Materializing param=model.layers.13.post_attention_layernorm.weight]Loading weights:  29%|████████████████████████████████▏                                                                               | 216/751 [01:10<03:36,  2.47it/s, Materializing param=model.layers.13.self_attn.kv_a_layernorm.weight]Loading weights:  29%|████████████████████████████████▏                                                                               | 216/751 [01:10<03:36,  2.47it/s, Materializing param=model.layers.13.self_attn.kv_a_layernorm.weight]Loading weights:  29%|███████████████████████████████▏                                                                            | 217/751 [01:10<03:36,  2.47it/s, Materializing param=model.layers.13.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  29%|███████████████████████████████▏                                                                            | 217/751 [01:10<03:36,  2.47it/s, Materializing param=model.layers.13.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  29%|█████████████████████████████████▉                                                                                   | 218/751 [01:10<03:35,  2.47it/s, Materializing param=model.layers.13.self_attn.kv_b_proj.weight]Loading weights:  29%|█████████████████████████████████▉                                                                                   | 218/751 [01:10<03:35,  2.47it/s, Materializing param=model.layers.13.self_attn.kv_b_proj.weight]Loading weights:  29%|██████████████████████████████████▉                                                                                     | 219/751 [01:10<03:35,  2.47it/s, Materializing param=model.layers.13.self_attn.o_proj.weight]Loading weights:  29%|██████████████████████████████████▉                                                                                     | 219/751 [01:10<03:35,  2.47it/s, Materializing param=model.layers.13.self_attn.o_proj.weight]Loading weights:  29%|█████████████████████████████████                                                                                | 220/751 [01:10<03:34,  2.47it/s, Materializing param=model.layers.13.self_attn.q_a_layernorm.weight]Loading weights:  29%|█████████████████████████████████                                                                                | 220/751 [01:10<03:34,  2.47it/s, Materializing param=model.layers.13.self_attn.q_a_layernorm.weight]Loading weights:  29%|██████████████████████████████████▋                                                                                   | 221/751 [01:10<03:34,  2.47it/s, Materializing param=model.layers.13.self_attn.q_a_proj.weight]Loading weights:  29%|██████████████████████████████████▋                                                                                   | 221/751 [01:10<03:34,  2.47it/s, Materializing param=model.layers.13.self_attn.q_a_proj.weight]Loading weights:  30%|██████████████████████████████████▉                                                                                   | 222/751 [01:10<03:34,  2.47it/s, Materializing param=model.layers.13.self_attn.q_b_proj.weight]Loading weights:  30%|██████████████████████████████████▉                                                                                   | 222/751 [01:10<03:34,  2.47it/s, Materializing param=model.layers.13.self_attn.q_b_proj.weight]Loading weights:  30%|███████████████████████████████████▉                                                                                     | 223/751 [01:10<03:33,  2.47it/s, Materializing param=model.layers.14.input_layernorm.weight]Loading weights:  30%|███████████████████████████████████▉                                                                                     | 223/751 [01:10<03:33,  2.47it/s, Materializing param=model.layers.14.input_layernorm.weight]Loading weights:  30%|████████████████████████████████████▍                                                                                     | 224/751 [01:10<03:33,  2.47it/s, Materializing param=model.layers.14.mlp.experts.down_proj]Loading weights:  30%|████████████████████████████████████▍                                                                                     | 224/751 [01:10<03:33,  2.47it/s, Materializing param=model.layers.14.mlp.experts.down_proj]Loading weights:  30%|████████████████████████████████████▌                                                                                     | 225/751 [01:11<02:16,  3.85it/s, Materializing param=model.layers.14.mlp.experts.down_proj]Loading weights:  30%|████████████████████████████████████▌                                                                                     | 225/751 [01:11<02:16,  3.85it/s, Materializing param=model.layers.14.mlp.experts.down_proj]Loading weights:  30%|███████████████████████████████████▋                                                                                   | 225/751 [01:11<02:16,  3.85it/s, Materializing param=model.layers.14.mlp.experts.gate_up_proj]Loading weights:  30%|███████████████████████████████████▋                                                                                   | 225/751 [01:11<02:16,  3.85it/s, Materializing param=model.layers.14.mlp.experts.gate_up_proj]Loading weights:  30%|███████████████████████████████████▋                                                                                   | 225/751 [01:11<02:16,  3.85it/s, Materializing param=model.layers.14.mlp.experts.gate_up_proj]Loading weights:  30%|███████████████████████████████████▋                                                                                   | 225/751 [01:11<02:16,  3.85it/s, Materializing param=model.layers.14.mlp.experts.gate_up_proj]Loading weights:  30%|███████████████████████████████████▊                                                                                   | 226/751 [01:16<03:52,  2.26it/s, Materializing param=model.layers.14.mlp.experts.gate_up_proj]Loading weights:  30%|█████████████████████████████████▍                                                                             | 226/751 [01:16<03:52,  2.26it/s, Materializing param=model.layers.14.mlp.gate.e_score_correction_bias]Loading weights:  30%|█████████████████████████████████▍                                                                             | 226/751 [01:16<03:52,  2.26it/s, Materializing param=model.layers.14.mlp.gate.e_score_correction_bias]Loading weights:  30%|██████████████████████████████████████▋                                                                                         | 227/751 [01:16<03:51,  2.26it/s, Materializing param=model.layers.14.mlp.gate.weight]Loading weights:  30%|██████████████████████████████████████▋                                                                                         | 227/751 [01:16<03:51,  2.26it/s, Materializing param=model.layers.14.mlp.gate.weight]Loading weights:  30%|████████████████████████████████▊                                                                           | 228/751 [01:16<03:51,  2.26it/s, Materializing param=model.layers.14.mlp.shared_experts.down_proj.weight]Loading weights:  30%|████████████████████████████████▊                                                                           | 228/751 [01:16<03:51,  2.26it/s, Materializing param=model.layers.14.mlp.shared_experts.down_proj.weight]Loading weights:  30%|████████████████████████████████▉                                                                           | 229/751 [01:16<03:51,  2.26it/s, Materializing param=model.layers.14.mlp.shared_experts.gate_proj.weight]Loading weights:  30%|████████████████████████████████▉                                                                           | 229/751 [01:16<03:51,  2.26it/s, Materializing param=model.layers.14.mlp.shared_experts.gate_proj.weight]Loading weights:  31%|█████████████████████████████████▋                                                                            | 230/751 [01:16<03:50,  2.26it/s, Materializing param=model.layers.14.mlp.shared_experts.up_proj.weight]Loading weights:  31%|█████████████████████████████████▋                                                                            | 230/751 [01:16<03:50,  2.26it/s, Materializing param=model.layers.14.mlp.shared_experts.up_proj.weight]Loading weights:  31%|██████████████████████████████████▍                                                                             | 231/751 [01:16<03:50,  2.26it/s, Materializing param=model.layers.14.post_attention_layernorm.weight]Loading weights:  30%|███████████████████████████████████▊                                                                                   | 226/751 [01:16<03:52,  2.26it/s, Materializing param=model.layers.14.mlp.experts.gate_up_proj]Loading weights:  31%|██████████████████████████████████▍                                                                             | 231/751 [01:16<03:50,  2.26it/s, Materializing param=model.layers.14.post_attention_layernorm.weight]Loading weights:  30%|█████████████████████████████████▍                                                                             | 226/751 [01:16<03:52,  2.26it/s, Materializing param=model.layers.14.mlp.gate.e_score_correction_bias]Loading weights:  31%|██████████████████████████████████▌                                                                             | 232/751 [01:16<03:49,  2.26it/s, Materializing param=model.layers.14.self_attn.kv_a_layernorm.weight]Loading weights:  30%|█████████████████████████████████▍                                                                             | 226/751 [01:16<03:52,  2.26it/s, Materializing param=model.layers.14.mlp.gate.e_score_correction_bias]Loading weights:  31%|██████████████████████████████████▌                                                                             | 232/751 [01:16<03:49,  2.26it/s, Materializing param=model.layers.14.self_attn.kv_a_layernorm.weight]Loading weights:  30%|██████████████████████████████████████▋                                                                                         | 227/751 [01:16<03:51,  2.26it/s, Materializing param=model.layers.14.mlp.gate.weight]Loading weights:  31%|█████████████████████████████████▌                                                                          | 233/751 [01:16<03:49,  2.26it/s, Materializing param=model.layers.14.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  30%|██████████████████████████████████████▋                                                                                         | 227/751 [01:16<03:51,  2.26it/s, Materializing param=model.layers.14.mlp.gate.weight]Loading weights:  31%|█████████████████████████████████▌                                                                          | 233/751 [01:16<03:49,  2.26it/s, Materializing param=model.layers.14.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  31%|████████████████████████████████████▍                                                                                | 234/751 [01:16<03:48,  2.26it/s, Materializing param=model.layers.14.self_attn.kv_b_proj.weight]Loading weights:  30%|████████████████████████████████▊                                                                           | 228/751 [01:16<03:51,  2.26it/s, Materializing param=model.layers.14.mlp.shared_experts.down_proj.weight]Loading weights:  31%|████████████████████████████████████▍                                                                                | 234/751 [01:16<03:48,  2.26it/s, Materializing param=model.layers.14.self_attn.kv_b_proj.weight]Loading weights:  30%|████████████████████████████████▊                                                                           | 228/751 [01:16<03:51,  2.26it/s, Materializing param=model.layers.14.mlp.shared_experts.down_proj.weight]Loading weights:  31%|█████████████████████████████████████▌                                                                                  | 235/751 [01:16<03:48,  2.26it/s, Materializing param=model.layers.14.self_attn.o_proj.weight]Loading weights:  31%|█████████████████████████████████████▌                                                                                  | 235/751 [01:16<03:48,  2.26it/s, Materializing param=model.layers.14.self_attn.o_proj.weight]Loading weights:  30%|████████████████████████████████▉                                                                           | 229/751 [01:16<03:51,  2.26it/s, Materializing param=model.layers.14.mlp.shared_experts.gate_proj.weight]Loading weights:  30%|████████████████████████████████▉                                                                           | 229/751 [01:16<03:51,  2.26it/s, Materializing param=model.layers.14.mlp.shared_experts.gate_proj.weight]Loading weights:  31%|███████████████████████████████████▌                                                                             | 236/751 [01:16<03:47,  2.26it/s, Materializing param=model.layers.14.self_attn.q_a_layernorm.weight]Loading weights:  31%|███████████████████████████████████▌                                                                             | 236/751 [01:16<03:47,  2.26it/s, Materializing param=model.layers.14.self_attn.q_a_layernorm.weight]Loading weights:  31%|█████████████████████████████████▋                                                                            | 230/751 [01:16<03:50,  2.26it/s, Materializing param=model.layers.14.mlp.shared_experts.up_proj.weight]Loading weights:  32%|█████████████████████████████████████▏                                                                                | 237/751 [01:16<03:47,  2.26it/s, Materializing param=model.layers.14.self_attn.q_a_proj.weight]Loading weights:  31%|█████████████████████████████████▋                                                                            | 230/751 [01:16<03:50,  2.26it/s, Materializing param=model.layers.14.mlp.shared_experts.up_proj.weight]Loading weights:  32%|█████████████████████████████████████▏                                                                                | 237/751 [01:16<03:47,  2.26it/s, Materializing param=model.layers.14.self_attn.q_a_proj.weight]Loading weights:  31%|██████████████████████████████████▍                                                                             | 231/751 [01:16<03:50,  2.26it/s, Materializing param=model.layers.14.post_attention_layernorm.weight]Loading weights:  32%|█████████████████████████████████████▍                                                                                | 238/751 [01:16<03:47,  2.26it/s, Materializing param=model.layers.14.self_attn.q_b_proj.weight]Loading weights:  31%|██████████████████████████████████▍                                                                             | 231/751 [01:16<03:50,  2.26it/s, Materializing param=model.layers.14.post_attention_layernorm.weight]Loading weights:  32%|█████████████████████████████████████▍                                                                                | 238/751 [01:16<03:47,  2.26it/s, Materializing param=model.layers.14.self_attn.q_b_proj.weight]Loading weights:  31%|██████████████████████████████████▌                                                                             | 232/751 [01:16<03:49,  2.26it/s, Materializing param=model.layers.14.self_attn.kv_a_layernorm.weight]Loading weights:  31%|██████████████████████████████████▌                                                                             | 232/751 [01:16<03:49,  2.26it/s, Materializing param=model.layers.14.self_attn.kv_a_layernorm.weight]Loading weights:  32%|██████████████████████████████████████▌                                                                                  | 239/751 [01:16<03:46,  2.26it/s, Materializing param=model.layers.15.input_layernorm.weight]Loading weights:  32%|██████████████████████████████████████▌                                                                                  | 239/751 [01:16<03:46,  2.26it/s, Materializing param=model.layers.15.input_layernorm.weight]Loading weights:  31%|█████████████████████████████████▌                                                                          | 233/751 [01:16<03:49,  2.26it/s, Materializing param=model.layers.14.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  31%|█████████████████████████████████▌                                                                          | 233/751 [01:16<03:49,  2.26it/s, Materializing param=model.layers.14.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  32%|██████████████████████████████████████▉                                                                                   | 240/751 [01:16<03:46,  2.26it/s, Materializing param=model.layers.15.mlp.experts.down_proj]Loading weights:  32%|██████████████████████████████████████▉                                                                                   | 240/751 [01:16<03:46,  2.26it/s, Materializing param=model.layers.15.mlp.experts.down_proj]Loading weights:  31%|████████████████████████████████████▍                                                                                | 234/751 [01:16<03:48,  2.26it/s, Materializing param=model.layers.14.self_attn.kv_b_proj.weight]Loading weights:  31%|████████████████████████████████████▍                                                                                | 234/751 [01:16<03:48,  2.26it/s, Materializing param=model.layers.14.self_attn.kv_b_proj.weight]Loading weights:  31%|█████████████████████████████████████▌                                                                                  | 235/751 [01:16<03:48,  2.26it/s, Materializing param=model.layers.14.self_attn.o_proj.weight]Loading weights:  31%|█████████████████████████████████████▌                                                                                  | 235/751 [01:16<03:48,  2.26it/s, Materializing param=model.layers.14.self_attn.o_proj.weight]Loading weights:  31%|███████████████████████████████████▌                                                                             | 236/751 [01:16<03:48,  2.26it/s, Materializing param=model.layers.14.self_attn.q_a_layernorm.weight]Loading weights:  31%|███████████████████████████████████▌                                                                             | 236/751 [01:16<03:48,  2.26it/s, Materializing param=model.layers.14.self_attn.q_a_layernorm.weight]Loading weights:  32%|█████████████████████████████████████▏                                                                                | 237/751 [01:16<03:47,  2.26it/s, Materializing param=model.layers.14.self_attn.q_a_proj.weight]Loading weights:  32%|█████████████████████████████████████▏                                                                                | 237/751 [01:16<03:47,  2.26it/s, Materializing param=model.layers.14.self_attn.q_a_proj.weight]Loading weights:  32%|█████████████████████████████████████▍                                                                                | 238/751 [01:16<03:47,  2.26it/s, Materializing param=model.layers.14.self_attn.q_b_proj.weight]Loading weights:  32%|█████████████████████████████████████▍                                                                                | 238/751 [01:16<03:47,  2.26it/s, Materializing param=model.layers.14.self_attn.q_b_proj.weight]Loading weights:  32%|██████████████████████████████████████▌                                                                                  | 239/751 [01:16<03:46,  2.26it/s, Materializing param=model.layers.15.input_layernorm.weight]Loading weights:  32%|██████████████████████████████████████▌                                                                                  | 239/751 [01:16<03:46,  2.26it/s, Materializing param=model.layers.15.input_layernorm.weight]Loading weights:  32%|██████████████████████████████████████▉                                                                                   | 240/751 [01:16<03:46,  2.26it/s, Materializing param=model.layers.15.mlp.experts.down_proj]Loading weights:  32%|██████████████████████████████████████▉                                                                                   | 240/751 [01:16<03:46,  2.26it/s, Materializing param=model.layers.15.mlp.experts.down_proj]Loading weights:  32%|███████████████████████████████████████▏                                                                                  | 241/751 [01:18<02:26,  3.49it/s, Materializing param=model.layers.15.mlp.experts.down_proj]Loading weights:  32%|███████████████████████████████████████▏                                                                                  | 241/751 [01:18<02:26,  3.49it/s, Materializing param=model.layers.15.mlp.experts.down_proj]Loading weights:  32%|██████████████████████████████████████▏                                                                                | 241/751 [01:18<02:26,  3.49it/s, Materializing param=model.layers.15.mlp.experts.gate_up_proj]Loading weights:  32%|██████████████████████████████████████▏                                                                                | 241/751 [01:18<02:26,  3.49it/s, Materializing param=model.layers.15.mlp.experts.gate_up_proj]Loading weights:  32%|██████████████████████████████████████▏                                                                                | 241/751 [01:18<02:26,  3.49it/s, Materializing param=model.layers.15.mlp.experts.gate_up_proj]Loading weights:  32%|██████████████████████████████████████▏                                                                                | 241/751 [01:18<02:26,  3.49it/s, Materializing param=model.layers.15.mlp.experts.gate_up_proj]Loading weights:  32%|██████████████████████████████████████▎                                                                                | 242/751 [01:21<03:37,  2.34it/s, Materializing param=model.layers.15.mlp.experts.gate_up_proj]Loading weights:  32%|███████████████████████████████████▊                                                                           | 242/751 [01:21<03:37,  2.34it/s, Materializing param=model.layers.15.mlp.gate.e_score_correction_bias]Loading weights:  32%|███████████████████████████████████▊                                                                           | 242/751 [01:21<03:37,  2.34it/s, Materializing param=model.layers.15.mlp.gate.e_score_correction_bias]Loading weights:  32%|█████████████████████████████████████████▍                                                                                      | 243/751 [01:21<03:36,  2.34it/s, Materializing param=model.layers.15.mlp.gate.weight]Loading weights:  32%|█████████████████████████████████████████▍                                                                                      | 243/751 [01:21<03:36,  2.34it/s, Materializing param=model.layers.15.mlp.gate.weight]Loading weights:  32%|███████████████████████████████████                                                                         | 244/751 [01:21<03:36,  2.34it/s, Materializing param=model.layers.15.mlp.shared_experts.down_proj.weight]Loading weights:  32%|███████████████████████████████████                                                                         | 244/751 [01:21<03:36,  2.34it/s, Materializing param=model.layers.15.mlp.shared_experts.down_proj.weight]Loading weights:  33%|███████████████████████████████████▏                                                                        | 245/751 [01:21<03:35,  2.34it/s, Materializing param=model.layers.15.mlp.shared_experts.gate_proj.weight]Loading weights:  33%|███████████████████████████████████▏                                                                        | 245/751 [01:21<03:35,  2.34it/s, Materializing param=model.layers.15.mlp.shared_experts.gate_proj.weight]Loading weights:  33%|████████████████████████████████████                                                                          | 246/751 [01:21<03:35,  2.34it/s, Materializing param=model.layers.15.mlp.shared_experts.up_proj.weight]Loading weights:  33%|████████████████████████████████████                                                                          | 246/751 [01:21<03:35,  2.34it/s, Materializing param=model.layers.15.mlp.shared_experts.up_proj.weight]Loading weights:  33%|████████████████████████████████████▊                                                                           | 247/751 [01:21<03:35,  2.34it/s, Materializing param=model.layers.15.post_attention_layernorm.weight]Loading weights:  33%|████████████████████████████████████▊                                                                           | 247/751 [01:21<03:35,  2.34it/s, Materializing param=model.layers.15.post_attention_layernorm.weight]Loading weights:  33%|████████████████████████████████████▉                                                                           | 248/751 [01:21<03:34,  2.34it/s, Materializing param=model.layers.15.self_attn.kv_a_layernorm.weight]Loading weights:  33%|████████████████████████████████████▉                                                                           | 248/751 [01:21<03:34,  2.34it/s, Materializing param=model.layers.15.self_attn.kv_a_layernorm.weight]Loading weights:  33%|███████████████████████████████████▊                                                                        | 249/751 [01:21<03:34,  2.34it/s, Materializing param=model.layers.15.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  33%|███████████████████████████████████▊                                                                        | 249/751 [01:21<03:34,  2.34it/s, Materializing param=model.layers.15.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  33%|██████████████████████████████████████▉                                                                              | 250/751 [01:21<03:33,  2.34it/s, Materializing param=model.layers.15.self_attn.kv_b_proj.weight]Loading weights:  33%|██████████████████████████████████████▉                                                                              | 250/751 [01:21<03:33,  2.34it/s, Materializing param=model.layers.15.self_attn.kv_b_proj.weight]Loading weights:  33%|████████████████████████████████████████                                                                                | 251/751 [01:21<03:33,  2.34it/s, Materializing param=model.layers.15.self_attn.o_proj.weight]Loading weights:  33%|████████████████████████████████████████                                                                                | 251/751 [01:21<03:33,  2.34it/s, Materializing param=model.layers.15.self_attn.o_proj.weight]Loading weights:  34%|█████████████████████████████████████▉                                                                           | 252/751 [01:21<03:32,  2.34it/s, Materializing param=model.layers.15.self_attn.q_a_layernorm.weight]Loading weights:  34%|█████████████████████████████████████▉                                                                           | 252/751 [01:21<03:32,  2.34it/s, Materializing param=model.layers.15.self_attn.q_a_layernorm.weight]Loading weights:  34%|███████████████████████████████████████▊                                                                              | 253/751 [01:21<03:32,  2.34it/s, Materializing param=model.layers.15.self_attn.q_a_proj.weight]Loading weights:  34%|███████████████████████████████████████▊                                                                              | 253/751 [01:21<03:32,  2.34it/s, Materializing param=model.layers.15.self_attn.q_a_proj.weight]Loading weights:  34%|███████████████████████████████████████▉                                                                              | 254/751 [01:21<03:32,  2.34it/s, Materializing param=model.layers.15.self_attn.q_b_proj.weight]Loading weights:  34%|███████████████████████████████████████▉                                                                              | 254/751 [01:21<03:32,  2.34it/s, Materializing param=model.layers.15.self_attn.q_b_proj.weight]Loading weights:  34%|█████████████████████████████████████████                                                                                | 255/751 [01:21<03:31,  2.34it/s, Materializing param=model.layers.16.input_layernorm.weight]Loading weights:  34%|█████████████████████████████████████████                                                                                | 255/751 [01:21<03:31,  2.34it/s, Materializing param=model.layers.16.input_layernorm.weight]Loading weights:  34%|█████████████████████████████████████████▌                                                                                | 256/751 [01:21<03:31,  2.34it/s, Materializing param=model.layers.16.mlp.experts.down_proj]Loading weights:  34%|█████████████████████████████████████████▌                                                                                | 256/751 [01:21<03:31,  2.34it/s, Materializing param=model.layers.16.mlp.experts.down_proj]Loading weights:  32%|██████████████████████████████████████▎                                                                                | 242/751 [01:21<03:37,  2.34it/s, Materializing param=model.layers.15.mlp.experts.gate_up_proj]Loading weights:  32%|███████████████████████████████████▊                                                                           | 242/751 [01:21<03:37,  2.34it/s, Materializing param=model.layers.15.mlp.gate.e_score_correction_bias]Loading weights:  32%|███████████████████████████████████▊                                                                           | 242/751 [01:21<03:37,  2.34it/s, Materializing param=model.layers.15.mlp.gate.e_score_correction_bias]Loading weights:  32%|█████████████████████████████████████████▍                                                                                      | 243/751 [01:21<03:37,  2.34it/s, Materializing param=model.layers.15.mlp.gate.weight]Loading weights:  32%|█████████████████████████████████████████▍                                                                                      | 243/751 [01:21<03:37,  2.34it/s, Materializing param=model.layers.15.mlp.gate.weight]Loading weights:  32%|███████████████████████████████████                                                                         | 244/751 [01:21<03:36,  2.34it/s, Materializing param=model.layers.15.mlp.shared_experts.down_proj.weight]Loading weights:  32%|███████████████████████████████████                                                                         | 244/751 [01:21<03:36,  2.34it/s, Materializing param=model.layers.15.mlp.shared_experts.down_proj.weight]Loading weights:  33%|███████████████████████████████████▏                                                                        | 245/751 [01:21<03:36,  2.34it/s, Materializing param=model.layers.15.mlp.shared_experts.gate_proj.weight]Loading weights:  33%|███████████████████████████████████▏                                                                        | 245/751 [01:21<03:36,  2.34it/s, Materializing param=model.layers.15.mlp.shared_experts.gate_proj.weight]Loading weights:  33%|████████████████████████████████████                                                                          | 246/751 [01:21<03:35,  2.34it/s, Materializing param=model.layers.15.mlp.shared_experts.up_proj.weight]Loading weights:  33%|████████████████████████████████████                                                                          | 246/751 [01:21<03:35,  2.34it/s, Materializing param=model.layers.15.mlp.shared_experts.up_proj.weight]Loading weights:  33%|████████████████████████████████████▊                                                                           | 247/751 [01:21<03:35,  2.34it/s, Materializing param=model.layers.15.post_attention_layernorm.weight]Loading weights:  33%|████████████████████████████████████▊                                                                           | 247/751 [01:21<03:35,  2.34it/s, Materializing param=model.layers.15.post_attention_layernorm.weight]Loading weights:  33%|████████████████████████████████████▉                                                                           | 248/751 [01:21<03:35,  2.34it/s, Materializing param=model.layers.15.self_attn.kv_a_layernorm.weight]Loading weights:  33%|████████████████████████████████████▉                                                                           | 248/751 [01:21<03:35,  2.34it/s, Materializing param=model.layers.15.self_attn.kv_a_layernorm.weight]Loading weights:  33%|███████████████████████████████████▊                                                                        | 249/751 [01:21<03:34,  2.34it/s, Materializing param=model.layers.15.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  33%|███████████████████████████████████▊                                                                        | 249/751 [01:21<03:34,  2.34it/s, Materializing param=model.layers.15.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  33%|██████████████████████████████████████▉                                                                              | 250/751 [01:21<03:34,  2.34it/s, Materializing param=model.layers.15.self_attn.kv_b_proj.weight]Loading weights:  33%|██████████████████████████████████████▉                                                                              | 250/751 [01:21<03:34,  2.34it/s, Materializing param=model.layers.15.self_attn.kv_b_proj.weight]Loading weights:  33%|████████████████████████████████████████                                                                                | 251/751 [01:21<03:33,  2.34it/s, Materializing param=model.layers.15.self_attn.o_proj.weight]Loading weights:  33%|████████████████████████████████████████                                                                                | 251/751 [01:21<03:33,  2.34it/s, Materializing param=model.layers.15.self_attn.o_proj.weight]Loading weights:  34%|█████████████████████████████████████▉                                                                           | 252/751 [01:21<03:33,  2.34it/s, Materializing param=model.layers.15.self_attn.q_a_layernorm.weight]Loading weights:  34%|█████████████████████████████████████▉                                                                           | 252/751 [01:21<03:33,  2.34it/s, Materializing param=model.layers.15.self_attn.q_a_layernorm.weight]Loading weights:  34%|███████████████████████████████████████▊                                                                              | 253/751 [01:21<03:32,  2.34it/s, Materializing param=model.layers.15.self_attn.q_a_proj.weight]Loading weights:  34%|███████████████████████████████████████▊                                                                              | 253/751 [01:21<03:32,  2.34it/s, Materializing param=model.layers.15.self_attn.q_a_proj.weight]Loading weights:  34%|███████████████████████████████████████▉                                                                              | 254/751 [01:21<03:32,  2.34it/s, Materializing param=model.layers.15.self_attn.q_b_proj.weight]Loading weights:  34%|███████████████████████████████████████▉                                                                              | 254/751 [01:21<03:32,  2.34it/s, Materializing param=model.layers.15.self_attn.q_b_proj.weight]Loading weights:  34%|█████████████████████████████████████████                                                                                | 255/751 [01:21<03:32,  2.34it/s, Materializing param=model.layers.16.input_layernorm.weight]Loading weights:  34%|█████████████████████████████████████████                                                                                | 255/751 [01:21<03:32,  2.34it/s, Materializing param=model.layers.16.input_layernorm.weight]Loading weights:  34%|█████████████████████████████████████████▌                                                                                | 256/751 [01:21<03:31,  2.34it/s, Materializing param=model.layers.16.mlp.experts.down_proj]Loading weights:  34%|█████████████████████████████████████████▌                                                                                | 256/751 [01:21<03:31,  2.34it/s, Materializing param=model.layers.16.mlp.experts.down_proj]Loading weights:  34%|█████████████████████████████████████████▋                                                                                | 257/751 [01:23<02:13,  3.71it/s, Materializing param=model.layers.16.mlp.experts.down_proj]Loading weights:  34%|█████████████████████████████████████████▋                                                                                | 257/751 [01:23<02:13,  3.70it/s, Materializing param=model.layers.16.mlp.experts.down_proj]Loading weights:  34%|████████████████████████████████████████▋                                                                              | 257/751 [01:23<02:13,  3.70it/s, Materializing param=model.layers.16.mlp.experts.gate_up_proj]Loading weights:  34%|████████████████████████████████████████▋                                                                              | 257/751 [01:23<02:13,  3.71it/s, Materializing param=model.layers.16.mlp.experts.gate_up_proj]Loading weights:  34%|████████████████████████████████████████▋                                                                              | 257/751 [01:23<02:13,  3.70it/s, Materializing param=model.layers.16.mlp.experts.gate_up_proj]Loading weights:  34%|████████████████████████████████████████▋                                                                              | 257/751 [01:23<02:13,  3.71it/s, Materializing param=model.layers.16.mlp.experts.gate_up_proj]Loading weights:  34%|████████████████████████████████████████▉                                                                              | 258/751 [01:26<03:25,  2.39it/s, Materializing param=model.layers.16.mlp.experts.gate_up_proj]Loading weights:  34%|██████████████████████████████████████▏                                                                        | 258/751 [01:26<03:25,  2.39it/s, Materializing param=model.layers.16.mlp.gate.e_score_correction_bias]Loading weights:  34%|██████████████████████████████████████▏                                                                        | 258/751 [01:26<03:25,  2.39it/s, Materializing param=model.layers.16.mlp.gate.e_score_correction_bias]Loading weights:  34%|████████████████████████████████████████████▏                                                                                   | 259/751 [01:26<03:25,  2.39it/s, Materializing param=model.layers.16.mlp.gate.weight]Loading weights:  34%|████████████████████████████████████████████▏                                                                                   | 259/751 [01:26<03:25,  2.39it/s, Materializing param=model.layers.16.mlp.gate.weight]Loading weights:  35%|█████████████████████████████████████▍                                                                      | 260/751 [01:26<03:25,  2.39it/s, Materializing param=model.layers.16.mlp.shared_experts.down_proj.weight]Loading weights:  35%|█████████████████████████████████████▍                                                                      | 260/751 [01:26<03:25,  2.39it/s, Materializing param=model.layers.16.mlp.shared_experts.down_proj.weight]Loading weights:  35%|█████████████████████████████████████▌                                                                      | 261/751 [01:26<03:24,  2.39it/s, Materializing param=model.layers.16.mlp.shared_experts.gate_proj.weight]Loading weights:  35%|█████████████████████████████████████▌                                                                      | 261/751 [01:26<03:24,  2.39it/s, Materializing param=model.layers.16.mlp.shared_experts.gate_proj.weight]Loading weights:  35%|██████████████████████████████████████▍                                                                       | 262/751 [01:26<03:24,  2.39it/s, Materializing param=model.layers.16.mlp.shared_experts.up_proj.weight]Loading weights:  35%|██████████████████████████████████████▍                                                                       | 262/751 [01:26<03:24,  2.39it/s, Materializing param=model.layers.16.mlp.shared_experts.up_proj.weight]Loading weights:  35%|███████████████████████████████████████▏                                                                        | 263/751 [01:26<03:23,  2.39it/s, Materializing param=model.layers.16.post_attention_layernorm.weight]Loading weights:  35%|███████████████████████████████████████▏                                                                        | 263/751 [01:26<03:23,  2.39it/s, Materializing param=model.layers.16.post_attention_layernorm.weight]Loading weights:  35%|███████████████████████████████████████▎                                                                        | 264/751 [01:26<03:23,  2.39it/s, Materializing param=model.layers.16.self_attn.kv_a_layernorm.weight]Loading weights:  35%|███████████████████████████████████████▎                                                                        | 264/751 [01:26<03:23,  2.39it/s, Materializing param=model.layers.16.self_attn.kv_a_layernorm.weight]Loading weights:  35%|██████████████████████████████████████                                                                      | 265/751 [01:26<03:22,  2.39it/s, Materializing param=model.layers.16.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  35%|██████████████████████████████████████                                                                      | 265/751 [01:26<03:22,  2.39it/s, Materializing param=model.layers.16.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  35%|█████████████████████████████████████████▍                                                                           | 266/751 [01:26<03:22,  2.39it/s, Materializing param=model.layers.16.self_attn.kv_b_proj.weight]Loading weights:  35%|█████████████████████████████████████████▍                                                                           | 266/751 [01:26<03:22,  2.39it/s, Materializing param=model.layers.16.self_attn.kv_b_proj.weight]Loading weights:  36%|██████████████████████████████████████████▋                                                                             | 267/751 [01:26<03:22,  2.39it/s, Materializing param=model.layers.16.self_attn.o_proj.weight]Loading weights:  36%|██████████████████████████████████████████▋                                                                             | 267/751 [01:26<03:22,  2.39it/s, Materializing param=model.layers.16.self_attn.o_proj.weight]Loading weights:  36%|████████████████████████████████████████▎                                                                        | 268/751 [01:26<03:21,  2.39it/s, Materializing param=model.layers.16.self_attn.q_a_layernorm.weight]Loading weights:  36%|████████████████████████████████████████▎                                                                        | 268/751 [01:26<03:21,  2.39it/s, Materializing param=model.layers.16.self_attn.q_a_layernorm.weight]Loading weights:  36%|██████████████████████████████████████████▎                                                                           | 269/751 [01:26<03:21,  2.39it/s, Materializing param=model.layers.16.self_attn.q_a_proj.weight]Loading weights:  36%|██████████████████████████████████████████▎                                                                           | 269/751 [01:26<03:21,  2.39it/s, Materializing param=model.layers.16.self_attn.q_a_proj.weight]Loading weights:  36%|██████████████████████████████████████████▍                                                                           | 270/751 [01:26<03:20,  2.39it/s, Materializing param=model.layers.16.self_attn.q_b_proj.weight]Loading weights:  36%|██████████████████████████████████████████▍                                                                           | 270/751 [01:26<03:20,  2.39it/s, Materializing param=model.layers.16.self_attn.q_b_proj.weight]Loading weights:  36%|███████████████████████████████████████████▋                                                                             | 271/751 [01:26<03:20,  2.39it/s, Materializing param=model.layers.17.input_layernorm.weight]Loading weights:  36%|███████████████████████████████████████████▋                                                                             | 271/751 [01:26<03:20,  2.39it/s, Materializing param=model.layers.17.input_layernorm.weight]Loading weights:  36%|████████████████████████████████████████████▏                                                                             | 272/751 [01:26<03:20,  2.39it/s, Materializing param=model.layers.17.mlp.experts.down_proj]Loading weights:  36%|████████████████████████████████████████████▏                                                                             | 272/751 [01:26<03:20,  2.39it/s, Materializing param=model.layers.17.mlp.experts.down_proj]Loading weights:  34%|████████████████████████████████████████▉                                                                              | 258/751 [01:26<03:25,  2.39it/s, Materializing param=model.layers.16.mlp.experts.gate_up_proj]Loading weights:  34%|██████████████████████████████████████▏                                                                        | 258/751 [01:26<03:25,  2.39it/s, Materializing param=model.layers.16.mlp.gate.e_score_correction_bias]Loading weights:  34%|██████████████████████████████████████▏                                                                        | 258/751 [01:26<03:25,  2.39it/s, Materializing param=model.layers.16.mlp.gate.e_score_correction_bias]Loading weights:  34%|████████████████████████████████████████████▏                                                                                   | 259/751 [01:26<03:25,  2.39it/s, Materializing param=model.layers.16.mlp.gate.weight]Loading weights:  34%|████████████████████████████████████████████▏                                                                                   | 259/751 [01:26<03:25,  2.39it/s, Materializing param=model.layers.16.mlp.gate.weight]Loading weights:  35%|█████████████████████████████████████▍                                                                      | 260/751 [01:26<03:25,  2.39it/s, Materializing param=model.layers.16.mlp.shared_experts.down_proj.weight]Loading weights:  35%|█████████████████████████████████████▍                                                                      | 260/751 [01:26<03:25,  2.39it/s, Materializing param=model.layers.16.mlp.shared_experts.down_proj.weight]Loading weights:  35%|█████████████████████████████████████▌                                                                      | 261/751 [01:26<03:24,  2.39it/s, Materializing param=model.layers.16.mlp.shared_experts.gate_proj.weight]Loading weights:  35%|█████████████████████████████████████▌                                                                      | 261/751 [01:26<03:24,  2.39it/s, Materializing param=model.layers.16.mlp.shared_experts.gate_proj.weight]Loading weights:  35%|██████████████████████████████████████▍                                                                       | 262/751 [01:26<03:24,  2.39it/s, Materializing param=model.layers.16.mlp.shared_experts.up_proj.weight]Loading weights:  35%|██████████████████████████████████████▍                                                                       | 262/751 [01:26<03:24,  2.39it/s, Materializing param=model.layers.16.mlp.shared_experts.up_proj.weight]Loading weights:  35%|███████████████████████████████████████▏                                                                        | 263/751 [01:26<03:23,  2.39it/s, Materializing param=model.layers.16.post_attention_layernorm.weight]Loading weights:  35%|███████████████████████████████████████▏                                                                        | 263/751 [01:26<03:23,  2.39it/s, Materializing param=model.layers.16.post_attention_layernorm.weight]Loading weights:  35%|███████████████████████████████████████▎                                                                        | 264/751 [01:26<03:23,  2.39it/s, Materializing param=model.layers.16.self_attn.kv_a_layernorm.weight]Loading weights:  35%|███████████████████████████████████████▎                                                                        | 264/751 [01:26<03:23,  2.39it/s, Materializing param=model.layers.16.self_attn.kv_a_layernorm.weight]Loading weights:  35%|██████████████████████████████████████                                                                      | 265/751 [01:26<03:23,  2.39it/s, Materializing param=model.layers.16.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  35%|██████████████████████████████████████                                                                      | 265/751 [01:26<03:23,  2.39it/s, Materializing param=model.layers.16.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  35%|█████████████████████████████████████████▍                                                                           | 266/751 [01:26<03:22,  2.39it/s, Materializing param=model.layers.16.self_attn.kv_b_proj.weight]Loading weights:  35%|█████████████████████████████████████████▍                                                                           | 266/751 [01:26<03:22,  2.39it/s, Materializing param=model.layers.16.self_attn.kv_b_proj.weight]Loading weights:  36%|██████████████████████████████████████████▋                                                                             | 267/751 [01:26<03:22,  2.39it/s, Materializing param=model.layers.16.self_attn.o_proj.weight]Loading weights:  36%|██████████████████████████████████████████▋                                                                             | 267/751 [01:26<03:22,  2.39it/s, Materializing param=model.layers.16.self_attn.o_proj.weight]Loading weights:  36%|████████████████████████████████████████▎                                                                        | 268/751 [01:26<03:21,  2.39it/s, Materializing param=model.layers.16.self_attn.q_a_layernorm.weight]Loading weights:  36%|████████████████████████████████████████▎                                                                        | 268/751 [01:26<03:21,  2.39it/s, Materializing param=model.layers.16.self_attn.q_a_layernorm.weight]Loading weights:  36%|██████████████████████████████████████████▎                                                                           | 269/751 [01:26<03:21,  2.39it/s, Materializing param=model.layers.16.self_attn.q_a_proj.weight]Loading weights:  36%|██████████████████████████████████████████▎                                                                           | 269/751 [01:26<03:21,  2.39it/s, Materializing param=model.layers.16.self_attn.q_a_proj.weight]Loading weights:  36%|██████████████████████████████████████████▍                                                                           | 270/751 [01:26<03:20,  2.39it/s, Materializing param=model.layers.16.self_attn.q_b_proj.weight]Loading weights:  36%|██████████████████████████████████████████▍                                                                           | 270/751 [01:26<03:20,  2.39it/s, Materializing param=model.layers.16.self_attn.q_b_proj.weight]Loading weights:  36%|███████████████████████████████████████████▋                                                                             | 271/751 [01:26<03:20,  2.39it/s, Materializing param=model.layers.17.input_layernorm.weight]Loading weights:  36%|███████████████████████████████████████████▋                                                                             | 271/751 [01:26<03:20,  2.39it/s, Materializing param=model.layers.17.input_layernorm.weight]Loading weights:  36%|████████████████████████████████████████████▏                                                                             | 272/751 [01:26<03:20,  2.39it/s, Materializing param=model.layers.17.mlp.experts.down_proj]Loading weights:  36%|████████████████████████████████████████████▏                                                                             | 272/751 [01:26<03:20,  2.39it/s, Materializing param=model.layers.17.mlp.experts.down_proj]Loading weights:  36%|████████████████████████████████████████████▎                                                                             | 273/751 [01:28<02:06,  3.77it/s, Materializing param=model.layers.17.mlp.experts.down_proj]Loading weights:  36%|████████████████████████████████████████████▎                                                                             | 273/751 [01:28<02:06,  3.77it/s, Materializing param=model.layers.17.mlp.experts.down_proj]Loading weights:  36%|███████████████████████████████████████████▎                                                                           | 273/751 [01:28<02:06,  3.77it/s, Materializing param=model.layers.17.mlp.experts.gate_up_proj]Loading weights:  36%|███████████████████████████████████████████▎                                                                           | 273/751 [01:28<02:06,  3.77it/s, Materializing param=model.layers.17.mlp.experts.gate_up_proj]Loading weights:  36%|███████████████████████████████████████████▎                                                                           | 273/751 [01:28<02:06,  3.77it/s, Materializing param=model.layers.17.mlp.experts.gate_up_proj]Loading weights:  36%|███████████████████████████████████████████▎                                                                           | 273/751 [01:28<02:06,  3.77it/s, Materializing param=model.layers.17.mlp.experts.gate_up_proj]Loading weights:  36%|███████████████████████████████████████████▍                                                                           | 274/751 [01:31<03:15,  2.45it/s, Materializing param=model.layers.17.mlp.experts.gate_up_proj]Loading weights:  36%|████████████████████████████████████████▍                                                                      | 274/751 [01:31<03:15,  2.45it/s, Materializing param=model.layers.17.mlp.gate.e_score_correction_bias]Loading weights:  36%|████████████████████████████████████████▍                                                                      | 274/751 [01:31<03:15,  2.45it/s, Materializing param=model.layers.17.mlp.gate.e_score_correction_bias]Loading weights:  37%|██████████████████████████████████████████████▊                                                                                 | 275/751 [01:31<03:14,  2.45it/s, Materializing param=model.layers.17.mlp.gate.weight]Loading weights:  37%|██████████████████████████████████████████████▊                                                                                 | 275/751 [01:31<03:14,  2.45it/s, Materializing param=model.layers.17.mlp.gate.weight]Loading weights:  37%|███████████████████████████████████████▋                                                                    | 276/751 [01:31<03:14,  2.45it/s, Materializing param=model.layers.17.mlp.shared_experts.down_proj.weight]Loading weights:  37%|███████████████████████████████████████▋                                                                    | 276/751 [01:31<03:14,  2.45it/s, Materializing param=model.layers.17.mlp.shared_experts.down_proj.weight]Loading weights:  37%|███████████████████████████████████████▊                                                                    | 277/751 [01:31<03:13,  2.45it/s, Materializing param=model.layers.17.mlp.shared_experts.gate_proj.weight]Loading weights:  37%|███████████████████████████████████████▊                                                                    | 277/751 [01:31<03:13,  2.45it/s, Materializing param=model.layers.17.mlp.shared_experts.gate_proj.weight]Loading weights:  37%|████████████████████████████████████████▋                                                                     | 278/751 [01:31<03:13,  2.45it/s, Materializing param=model.layers.17.mlp.shared_experts.up_proj.weight]Loading weights:  37%|████████████████████████████████████████▋                                                                     | 278/751 [01:31<03:13,  2.45it/s, Materializing param=model.layers.17.mlp.shared_experts.up_proj.weight]Loading weights:  37%|█████████████████████████████████████████▌                                                                      | 279/751 [01:31<03:13,  2.45it/s, Materializing param=model.layers.17.post_attention_layernorm.weight]Loading weights:  37%|█████████████████████████████████████████▌                                                                      | 279/751 [01:31<03:13,  2.45it/s, Materializing param=model.layers.17.post_attention_layernorm.weight]Loading weights:  37%|█████████████████████████████████████████▊                                                                      | 280/751 [01:31<03:12,  2.45it/s, Materializing param=model.layers.17.self_attn.kv_a_layernorm.weight]Loading weights:  37%|█████████████████████████████████████████▊                                                                      | 280/751 [01:31<03:12,  2.45it/s, Materializing param=model.layers.17.self_attn.kv_a_layernorm.weight]Loading weights:  37%|████████████████████████████████████████▍                                                                   | 281/751 [01:31<03:12,  2.45it/s, Materializing param=model.layers.17.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  37%|████████████████████████████████████████▍                                                                   | 281/751 [01:31<03:12,  2.45it/s, Materializing param=model.layers.17.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  38%|███████████████████████████████████████████▉                                                                         | 282/751 [01:31<03:11,  2.45it/s, Materializing param=model.layers.17.self_attn.kv_b_proj.weight]Loading weights:  38%|███████████████████████████████████████████▉                                                                         | 282/751 [01:31<03:11,  2.45it/s, Materializing param=model.layers.17.self_attn.kv_b_proj.weight]Loading weights:  38%|█████████████████████████████████████████████▏                                                                          | 283/751 [01:31<03:11,  2.45it/s, Materializing param=model.layers.17.self_attn.o_proj.weight]Loading weights:  38%|█████████████████████████████████████████████▏                                                                          | 283/751 [01:31<03:11,  2.45it/s, Materializing param=model.layers.17.self_attn.o_proj.weight]Loading weights:  38%|██████████████████████████████████████████▋                                                                      | 284/751 [01:31<03:10,  2.45it/s, Materializing param=model.layers.17.self_attn.q_a_layernorm.weight]Loading weights:  38%|██████████████████████████████████████████▋                                                                      | 284/751 [01:31<03:10,  2.45it/s, Materializing param=model.layers.17.self_attn.q_a_layernorm.weight]Loading weights:  38%|████████████████████████████████████████████▊                                                                         | 285/751 [01:31<03:10,  2.45it/s, Materializing param=model.layers.17.self_attn.q_a_proj.weight]Loading weights:  38%|████████████████████████████████████████████▊                                                                         | 285/751 [01:31<03:10,  2.45it/s, Materializing param=model.layers.17.self_attn.q_a_proj.weight]Loading weights:  38%|████████████████████████████████████████████▉                                                                         | 286/751 [01:31<03:10,  2.45it/s, Materializing param=model.layers.17.self_attn.q_b_proj.weight]Loading weights:  38%|████████████████████████████████████████████▉                                                                         | 286/751 [01:31<03:10,  2.45it/s, Materializing param=model.layers.17.self_attn.q_b_proj.weight]Loading weights:  38%|██████████████████████████████████████████████▏                                                                          | 287/751 [01:31<03:09,  2.45it/s, Materializing param=model.layers.18.input_layernorm.weight]Loading weights:  38%|██████████████████████████████████████████████▏                                                                          | 287/751 [01:31<03:09,  2.45it/s, Materializing param=model.layers.18.input_layernorm.weight]Loading weights:  38%|██████████████████████████████████████████████▊                                                                           | 288/751 [01:31<03:09,  2.45it/s, Materializing param=model.layers.18.mlp.experts.down_proj]Loading weights:  38%|██████████████████████████████████████████████▊                                                                           | 288/751 [01:31<03:09,  2.45it/s, Materializing param=model.layers.18.mlp.experts.down_proj]Loading weights:  36%|███████████████████████████████████████████▍                                                                           | 274/751 [01:31<03:15,  2.44it/s, Materializing param=model.layers.17.mlp.experts.gate_up_proj]Loading weights:  36%|████████████████████████████████████████▍                                                                      | 274/751 [01:31<03:15,  2.44it/s, Materializing param=model.layers.17.mlp.gate.e_score_correction_bias]Loading weights:  36%|████████████████████████████████████████▍                                                                      | 274/751 [01:31<03:15,  2.44it/s, Materializing param=model.layers.17.mlp.gate.e_score_correction_bias]Loading weights:  37%|██████████████████████████████████████████████▊                                                                                 | 275/751 [01:31<03:14,  2.44it/s, Materializing param=model.layers.17.mlp.gate.weight]Loading weights:  37%|██████████████████████████████████████████████▊                                                                                 | 275/751 [01:31<03:14,  2.44it/s, Materializing param=model.layers.17.mlp.gate.weight]Loading weights:  37%|███████████████████████████████████████▋                                                                    | 276/751 [01:31<03:14,  2.44it/s, Materializing param=model.layers.17.mlp.shared_experts.down_proj.weight]Loading weights:  37%|███████████████████████████████████████▋                                                                    | 276/751 [01:31<03:14,  2.44it/s, Materializing param=model.layers.17.mlp.shared_experts.down_proj.weight]Loading weights:  37%|███████████████████████████████████████▊                                                                    | 277/751 [01:31<03:14,  2.44it/s, Materializing param=model.layers.17.mlp.shared_experts.gate_proj.weight]Loading weights:  37%|███████████████████████████████████████▊                                                                    | 277/751 [01:31<03:14,  2.44it/s, Materializing param=model.layers.17.mlp.shared_experts.gate_proj.weight]Loading weights:  37%|████████████████████████████████████████▋                                                                     | 278/751 [01:31<03:13,  2.44it/s, Materializing param=model.layers.17.mlp.shared_experts.up_proj.weight]Loading weights:  37%|████████████████████████████████████████▋                                                                     | 278/751 [01:31<03:13,  2.44it/s, Materializing param=model.layers.17.mlp.shared_experts.up_proj.weight]Loading weights:  37%|█████████████████████████████████████████▌                                                                      | 279/751 [01:31<03:13,  2.44it/s, Materializing param=model.layers.17.post_attention_layernorm.weight]Loading weights:  37%|█████████████████████████████████████████▌                                                                      | 279/751 [01:31<03:13,  2.44it/s, Materializing param=model.layers.17.post_attention_layernorm.weight]Loading weights:  37%|█████████████████████████████████████████▊                                                                      | 280/751 [01:31<03:12,  2.44it/s, Materializing param=model.layers.17.self_attn.kv_a_layernorm.weight]Loading weights:  37%|█████████████████████████████████████████▊                                                                      | 280/751 [01:31<03:12,  2.44it/s, Materializing param=model.layers.17.self_attn.kv_a_layernorm.weight]Loading weights:  37%|████████████████████████████████████████▍                                                                   | 281/751 [01:31<03:12,  2.44it/s, Materializing param=model.layers.17.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  37%|████████████████████████████████████████▍                                                                   | 281/751 [01:31<03:12,  2.44it/s, Materializing param=model.layers.17.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  38%|███████████████████████████████████████████▉                                                                         | 282/751 [01:31<03:12,  2.44it/s, Materializing param=model.layers.17.self_attn.kv_b_proj.weight]Loading weights:  38%|███████████████████████████████████████████▉                                                                         | 282/751 [01:31<03:12,  2.44it/s, Materializing param=model.layers.17.self_attn.kv_b_proj.weight]Loading weights:  38%|█████████████████████████████████████████████▏                                                                          | 283/751 [01:31<03:11,  2.44it/s, Materializing param=model.layers.17.self_attn.o_proj.weight]Loading weights:  38%|█████████████████████████████████████████████▏                                                                          | 283/751 [01:31<03:11,  2.44it/s, Materializing param=model.layers.17.self_attn.o_proj.weight]Loading weights:  38%|██████████████████████████████████████████▋                                                                      | 284/751 [01:31<03:11,  2.44it/s, Materializing param=model.layers.17.self_attn.q_a_layernorm.weight]Loading weights:  38%|██████████████████████████████████████████▋                                                                      | 284/751 [01:31<03:11,  2.44it/s, Materializing param=model.layers.17.self_attn.q_a_layernorm.weight]Loading weights:  38%|████████████████████████████████████████████▊                                                                         | 285/751 [01:31<03:10,  2.44it/s, Materializing param=model.layers.17.self_attn.q_a_proj.weight]Loading weights:  38%|████████████████████████████████████████████▊                                                                         | 285/751 [01:31<03:10,  2.44it/s, Materializing param=model.layers.17.self_attn.q_a_proj.weight]Loading weights:  38%|████████████████████████████████████████████▉                                                                         | 286/751 [01:31<03:10,  2.44it/s, Materializing param=model.layers.17.self_attn.q_b_proj.weight]Loading weights:  38%|████████████████████████████████████████████▉                                                                         | 286/751 [01:31<03:10,  2.44it/s, Materializing param=model.layers.17.self_attn.q_b_proj.weight]Loading weights:  38%|██████████████████████████████████████████████▏                                                                          | 287/751 [01:31<03:10,  2.44it/s, Materializing param=model.layers.18.input_layernorm.weight]Loading weights:  38%|██████████████████████████████████████████████▏                                                                          | 287/751 [01:31<03:10,  2.44it/s, Materializing param=model.layers.18.input_layernorm.weight]Loading weights:  38%|██████████████████████████████████████████████▊                                                                           | 288/751 [01:31<03:09,  2.44it/s, Materializing param=model.layers.18.mlp.experts.down_proj]Loading weights:  38%|██████████████████████████████████████████████▊                                                                           | 288/751 [01:31<03:09,  2.44it/s, Materializing param=model.layers.18.mlp.experts.down_proj]Loading weights:  38%|██████████████████████████████████████████████▉                                                                           | 289/751 [01:33<02:01,  3.80it/s, Materializing param=model.layers.18.mlp.experts.down_proj]Loading weights:  38%|██████████████████████████████████████████████▉                                                                           | 289/751 [01:33<02:01,  3.80it/s, Materializing param=model.layers.18.mlp.experts.down_proj]Loading weights:  38%|█████████████████████████████████████████████▊                                                                         | 289/751 [01:33<02:01,  3.80it/s, Materializing param=model.layers.18.mlp.experts.gate_up_proj]Loading weights:  38%|█████████████████████████████████████████████▊                                                                         | 289/751 [01:33<02:01,  3.80it/s, Materializing param=model.layers.18.mlp.experts.gate_up_proj]Loading weights:  38%|█████████████████████████████████████████████▊                                                                         | 289/751 [01:33<02:01,  3.80it/s, Materializing param=model.layers.18.mlp.experts.gate_up_proj]Loading weights:  38%|█████████████████████████████████████████████▊                                                                         | 289/751 [01:33<02:01,  3.80it/s, Materializing param=model.layers.18.mlp.experts.gate_up_proj]Loading weights:  39%|█████████████████████████████████████████████▉                                                                         | 290/751 [01:36<03:06,  2.48it/s, Materializing param=model.layers.18.mlp.experts.gate_up_proj]Loading weights:  39%|██████████████████████████████████████████▊                                                                    | 290/751 [01:36<03:06,  2.48it/s, Materializing param=model.layers.18.mlp.gate.e_score_correction_bias]Loading weights:  39%|██████████████████████████████████████████▊                                                                    | 290/751 [01:36<03:06,  2.48it/s, Materializing param=model.layers.18.mlp.gate.e_score_correction_bias]Loading weights:  39%|█████████████████████████████████████████████▉                                                                         | 290/751 [01:36<03:06,  2.48it/s, Materializing param=model.layers.18.mlp.experts.gate_up_proj]Loading weights:  39%|██████████████████████████████████████████▊                                                                    | 290/751 [01:36<03:06,  2.48it/s, Materializing param=model.layers.18.mlp.gate.e_score_correction_bias]Loading weights:  39%|█████████████████████████████████████████████████▌                                                                              | 291/751 [01:36<03:05,  2.48it/s, Materializing param=model.layers.18.mlp.gate.weight]Loading weights:  39%|█████████████████████████████████████████████████▌                                                                              | 291/751 [01:36<03:05,  2.48it/s, Materializing param=model.layers.18.mlp.gate.weight]Loading weights:  39%|██████████████████████████████████████████▊                                                                    | 290/751 [01:36<03:06,  2.48it/s, Materializing param=model.layers.18.mlp.gate.e_score_correction_bias]Loading weights:  39%|█████████████████████████████████████████▉                                                                  | 292/751 [01:36<03:05,  2.48it/s, Materializing param=model.layers.18.mlp.shared_experts.down_proj.weight]Loading weights:  39%|█████████████████████████████████████████████████▌                                                                              | 291/751 [01:36<03:05,  2.48it/s, Materializing param=model.layers.18.mlp.gate.weight]Loading weights:  39%|█████████████████████████████████████████▉                                                                  | 292/751 [01:36<03:05,  2.48it/s, Materializing param=model.layers.18.mlp.shared_experts.down_proj.weight]Loading weights:  39%|█████████████████████████████████████████████████▌                                                                              | 291/751 [01:36<03:05,  2.48it/s, Materializing param=model.layers.18.mlp.gate.weight]Loading weights:  39%|██████████████████████████████████████████▏                                                                 | 293/751 [01:36<03:04,  2.48it/s, Materializing param=model.layers.18.mlp.shared_experts.gate_proj.weight]Loading weights:  39%|█████████████████████████████████████████▉                                                                  | 292/751 [01:36<03:05,  2.48it/s, Materializing param=model.layers.18.mlp.shared_experts.down_proj.weight]Loading weights:  39%|██████████████████████████████████████████▏                                                                 | 293/751 [01:36<03:04,  2.48it/s, Materializing param=model.layers.18.mlp.shared_experts.gate_proj.weight]Loading weights:  39%|█████████████████████████████████████████▉                                                                  | 292/751 [01:36<03:05,  2.48it/s, Materializing param=model.layers.18.mlp.shared_experts.down_proj.weight]Loading weights:  39%|███████████████████████████████████████████                                                                   | 294/751 [01:36<03:04,  2.48it/s, Materializing param=model.layers.18.mlp.shared_experts.up_proj.weight]Loading weights:  39%|██████████████████████████████████████████▏                                                                 | 293/751 [01:36<03:04,  2.48it/s, Materializing param=model.layers.18.mlp.shared_experts.gate_proj.weight]Loading weights:  39%|███████████████████████████████████████████                                                                   | 294/751 [01:36<03:04,  2.48it/s, Materializing param=model.layers.18.mlp.shared_experts.up_proj.weight]Loading weights:  39%|██████████████████████████████████████████▏                                                                 | 293/751 [01:36<03:04,  2.48it/s, Materializing param=model.layers.18.mlp.shared_experts.gate_proj.weight]Loading weights:  39%|███████████████████████████████████████████▉                                                                    | 295/751 [01:36<03:04,  2.48it/s, Materializing param=model.layers.18.post_attention_layernorm.weight]Loading weights:  39%|███████████████████████████████████████████                                                                   | 294/751 [01:36<03:04,  2.48it/s, Materializing param=model.layers.18.mlp.shared_experts.up_proj.weight]Loading weights:  39%|███████████████████████████████████████████▉                                                                    | 295/751 [01:36<03:04,  2.48it/s, Materializing param=model.layers.18.post_attention_layernorm.weight]Loading weights:  39%|███████████████████████████████████████████                                                                   | 294/751 [01:36<03:04,  2.48it/s, Materializing param=model.layers.18.mlp.shared_experts.up_proj.weight]Loading weights:  39%|████████████████████████████████████████████▏                                                                   | 296/751 [01:36<03:03,  2.48it/s, Materializing param=model.layers.18.self_attn.kv_a_layernorm.weight]Loading weights:  39%|███████████████████████████████████████████▉                                                                    | 295/751 [01:36<03:04,  2.48it/s, Materializing param=model.layers.18.post_attention_layernorm.weight]Loading weights:  39%|████████████████████████████████████████████▏                                                                   | 296/751 [01:36<03:03,  2.48it/s, Materializing param=model.layers.18.self_attn.kv_a_layernorm.weight]Loading weights:  39%|███████████████████████████████████████████▉                                                                    | 295/751 [01:36<03:04,  2.48it/s, Materializing param=model.layers.18.post_attention_layernorm.weight]Loading weights:  40%|██████████████████████████████████████████▋                                                                 | 297/751 [01:36<03:03,  2.48it/s, Materializing param=model.layers.18.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  39%|████████████████████████████████████████████▏                                                                   | 296/751 [01:36<03:03,  2.48it/s, Materializing param=model.layers.18.self_attn.kv_a_layernorm.weight]Loading weights:  40%|██████████████████████████████████████████▋                                                                 | 297/751 [01:36<03:03,  2.48it/s, Materializing param=model.layers.18.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  39%|████████████████████████████████████████████▏                                                                   | 296/751 [01:36<03:03,  2.48it/s, Materializing param=model.layers.18.self_attn.kv_a_layernorm.weight]Loading weights:  40%|██████████████████████████████████████████████▍                                                                      | 298/751 [01:36<03:02,  2.48it/s, Materializing param=model.layers.18.self_attn.kv_b_proj.weight]Loading weights:  40%|██████████████████████████████████████████████▍                                                                      | 298/751 [01:36<03:02,  2.48it/s, Materializing param=model.layers.18.self_attn.kv_b_proj.weight]Loading weights:  40%|██████████████████████████████████████████▋                                                                 | 297/751 [01:36<03:03,  2.48it/s, Materializing param=model.layers.18.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  40%|██████████████████████████████████████████▋                                                                 | 297/751 [01:36<03:03,  2.48it/s, Materializing param=model.layers.18.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  40%|███████████████████████████████████████████████▊                                                                        | 299/751 [01:36<03:02,  2.48it/s, Materializing param=model.layers.18.self_attn.o_proj.weight]Loading weights:  40%|███████████████████████████████████████████████▊                                                                        | 299/751 [01:36<03:02,  2.48it/s, Materializing param=model.layers.18.self_attn.o_proj.weight]Loading weights:  40%|██████████████████████████████████████████████▍                                                                      | 298/751 [01:36<03:02,  2.48it/s, Materializing param=model.layers.18.self_attn.kv_b_proj.weight]Loading weights:  40%|██████████████████████████████████████████████▍                                                                      | 298/751 [01:36<03:02,  2.48it/s, Materializing param=model.layers.18.self_attn.kv_b_proj.weight]Loading weights:  40%|█████████████████████████████████████████████▏                                                                   | 300/751 [01:36<03:02,  2.48it/s, Materializing param=model.layers.18.self_attn.q_a_layernorm.weight]Loading weights:  40%|█████████████████████████████████████████████▏                                                                   | 300/751 [01:36<03:02,  2.48it/s, Materializing param=model.layers.18.self_attn.q_a_layernorm.weight]Loading weights:  40%|███████████████████████████████████████████████▊                                                                        | 299/751 [01:36<03:02,  2.48it/s, Materializing param=model.layers.18.self_attn.o_proj.weight]Loading weights:  40%|███████████████████████████████████████████████▊                                                                        | 299/751 [01:36<03:02,  2.48it/s, Materializing param=model.layers.18.self_attn.o_proj.weight]Loading weights:  40%|███████████████████████████████████████████████▎                                                                      | 301/751 [01:36<03:01,  2.48it/s, Materializing param=model.layers.18.self_attn.q_a_proj.weight]Loading weights:  40%|███████████████████████████████████████████████▎                                                                      | 301/751 [01:36<03:01,  2.48it/s, Materializing param=model.layers.18.self_attn.q_a_proj.weight]Loading weights:  40%|█████████████████████████████████████████████▏                                                                   | 300/751 [01:36<03:02,  2.48it/s, Materializing param=model.layers.18.self_attn.q_a_layernorm.weight]Loading weights:  40%|█████████████████████████████████████████████▏                                                                   | 300/751 [01:36<03:02,  2.48it/s, Materializing param=model.layers.18.self_attn.q_a_layernorm.weight]Loading weights:  40%|███████████████████████████████████████████████▍                                                                      | 302/751 [01:36<03:01,  2.48it/s, Materializing param=model.layers.18.self_attn.q_b_proj.weight]Loading weights:  40%|███████████████████████████████████████████████▍                                                                      | 302/751 [01:36<03:01,  2.48it/s, Materializing param=model.layers.18.self_attn.q_b_proj.weight]Loading weights:  40%|███████████████████████████████████████████████▎                                                                      | 301/751 [01:36<03:01,  2.48it/s, Materializing param=model.layers.18.self_attn.q_a_proj.weight]Loading weights:  40%|███████████████████████████████████████████████▎                                                                      | 301/751 [01:36<03:01,  2.48it/s, Materializing param=model.layers.18.self_attn.q_a_proj.weight]Loading weights:  40%|████████████████████████████████████████████████▊                                                                        | 303/751 [01:36<03:00,  2.48it/s, Materializing param=model.layers.19.input_layernorm.weight]Loading weights:  40%|████████████████████████████████████████████████▊                                                                        | 303/751 [01:36<03:00,  2.48it/s, Materializing param=model.layers.19.input_layernorm.weight]Loading weights:  40%|███████████████████████████████████████████████▍                                                                      | 302/751 [01:36<03:01,  2.48it/s, Materializing param=model.layers.18.self_attn.q_b_proj.weight]Loading weights:  40%|█████████████████████████████████████████████████▍                                                                        | 304/751 [01:36<03:00,  2.48it/s, Materializing param=model.layers.19.mlp.experts.down_proj]Loading weights:  40%|███████████████████████████████████████████████▍                                                                      | 302/751 [01:36<03:01,  2.48it/s, Materializing param=model.layers.18.self_attn.q_b_proj.weight]Loading weights:  40%|█████████████████████████████████████████████████▍                                                                        | 304/751 [01:36<03:00,  2.48it/s, Materializing param=model.layers.19.mlp.experts.down_proj]Loading weights:  40%|████████████████████████████████████████████████▊                                                                        | 303/751 [01:36<03:00,  2.48it/s, Materializing param=model.layers.19.input_layernorm.weight]Loading weights:  40%|████████████████████████████████████████████████▊                                                                        | 303/751 [01:36<03:00,  2.48it/s, Materializing param=model.layers.19.input_layernorm.weight]Loading weights:  40%|█████████████████████████████████████████████████▍                                                                        | 304/751 [01:36<03:00,  2.48it/s, Materializing param=model.layers.19.mlp.experts.down_proj]Loading weights:  40%|█████████████████████████████████████████████████▍                                                                        | 304/751 [01:36<03:00,  2.48it/s, Materializing param=model.layers.19.mlp.experts.down_proj]Loading weights:  41%|█████████████████████████████████████████████████▌                                                                        | 305/751 [01:38<01:55,  3.86it/s, Materializing param=model.layers.19.mlp.experts.down_proj]Loading weights:  41%|█████████████████████████████████████████████████▌                                                                        | 305/751 [01:38<01:55,  3.86it/s, Materializing param=model.layers.19.mlp.experts.down_proj]Loading weights:  41%|████████████████████████████████████████████████▎                                                                      | 305/751 [01:38<01:55,  3.86it/s, Materializing param=model.layers.19.mlp.experts.gate_up_proj]Loading weights:  41%|████████████████████████████████████████████████▎                                                                      | 305/751 [01:38<01:55,  3.86it/s, Materializing param=model.layers.19.mlp.experts.gate_up_proj]Loading weights:  41%|████████████████████████████████████████████████▎                                                                      | 305/751 [01:38<01:55,  3.86it/s, Materializing param=model.layers.19.mlp.experts.gate_up_proj]Loading weights:  41%|████████████████████████████████████████████████▎                                                                      | 305/751 [01:38<01:55,  3.86it/s, Materializing param=model.layers.19.mlp.experts.gate_up_proj]Loading weights:  41%|████████████████████████████████████████████████▍                                                                      | 306/751 [01:41<03:00,  2.47it/s, Materializing param=model.layers.19.mlp.experts.gate_up_proj]Loading weights:  41%|█████████████████████████████████████████████▏                                                                 | 306/751 [01:41<03:00,  2.47it/s, Materializing param=model.layers.19.mlp.gate.e_score_correction_bias]Loading weights:  41%|█████████████████████████████████████████████▏                                                                 | 306/751 [01:41<03:00,  2.47it/s, Materializing param=model.layers.19.mlp.gate.e_score_correction_bias]Loading weights:  41%|████████████████████████████████████████████████████▎                                                                           | 307/751 [01:41<02:59,  2.47it/s, Materializing param=model.layers.19.mlp.gate.weight]Loading weights:  41%|████████████████████████████████████████████████████▎                                                                           | 307/751 [01:41<02:59,  2.47it/s, Materializing param=model.layers.19.mlp.gate.weight]Loading weights:  41%|████████████████████████████████████████████▎                                                               | 308/751 [01:41<02:59,  2.47it/s, Materializing param=model.layers.19.mlp.shared_experts.down_proj.weight]Loading weights:  41%|████████████████████████████████████████████▎                                                               | 308/751 [01:41<02:59,  2.47it/s, Materializing param=model.layers.19.mlp.shared_experts.down_proj.weight]Loading weights:  41%|████████████████████████████████████████████▍                                                               | 309/751 [01:41<02:58,  2.47it/s, Materializing param=model.layers.19.mlp.shared_experts.gate_proj.weight]Loading weights:  41%|████████████████████████████████████████████▍                                                               | 309/751 [01:41<02:58,  2.47it/s, Materializing param=model.layers.19.mlp.shared_experts.gate_proj.weight]Loading weights:  41%|█████████████████████████████████████████████▍                                                                | 310/751 [01:41<02:58,  2.47it/s, Materializing param=model.layers.19.mlp.shared_experts.up_proj.weight]Loading weights:  41%|█████████████████████████████████████████████▍                                                                | 310/751 [01:41<02:58,  2.47it/s, Materializing param=model.layers.19.mlp.shared_experts.up_proj.weight]Loading weights:  41%|██████████████████████████████████████████████▍                                                                 | 311/751 [01:41<02:57,  2.47it/s, Materializing param=model.layers.19.post_attention_layernorm.weight]Loading weights:  41%|██████████████████████████████████████████████▍                                                                 | 311/751 [01:41<02:57,  2.47it/s, Materializing param=model.layers.19.post_attention_layernorm.weight]Loading weights:  42%|██████████████████████████████████████████████▌                                                                 | 312/751 [01:41<02:57,  2.47it/s, Materializing param=model.layers.19.self_attn.kv_a_layernorm.weight]Loading weights:  42%|██████████████████████████████████████████████▌                                                                 | 312/751 [01:41<02:57,  2.47it/s, Materializing param=model.layers.19.self_attn.kv_a_layernorm.weight]Loading weights:  42%|█████████████████████████████████████████████                                                               | 313/751 [01:41<02:57,  2.47it/s, Materializing param=model.layers.19.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  42%|█████████████████████████████████████████████                                                               | 313/751 [01:41<02:57,  2.47it/s, Materializing param=model.layers.19.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  42%|████████████████████████████████████████████████▉                                                                    | 314/751 [01:41<02:56,  2.47it/s, Materializing param=model.layers.19.self_attn.kv_b_proj.weight]Loading weights:  42%|████████████████████████████████████████████████▉                                                                    | 314/751 [01:41<02:56,  2.47it/s, Materializing param=model.layers.19.self_attn.kv_b_proj.weight]Loading weights:  42%|██████████████████████████████████████████████████▎                                                                     | 315/751 [01:41<02:56,  2.47it/s, Materializing param=model.layers.19.self_attn.o_proj.weight]Loading weights:  42%|██████████████████████████████████████████████████▎                                                                     | 315/751 [01:41<02:56,  2.47it/s, Materializing param=model.layers.19.self_attn.o_proj.weight]Loading weights:  42%|███████████████████████████████████████████████▌                                                                 | 316/751 [01:41<02:55,  2.47it/s, Materializing param=model.layers.19.self_attn.q_a_layernorm.weight]Loading weights:  42%|███████████████████████████████████████████████▌                                                                 | 316/751 [01:41<02:55,  2.47it/s, Materializing param=model.layers.19.self_attn.q_a_layernorm.weight]Loading weights:  42%|█████████████████████████████████████████████████▊                                                                    | 317/751 [01:41<02:55,  2.47it/s, Materializing param=model.layers.19.self_attn.q_a_proj.weight]Loading weights:  42%|█████████████████████████████████████████████████▊                                                                    | 317/751 [01:41<02:55,  2.47it/s, Materializing param=model.layers.19.self_attn.q_a_proj.weight]Loading weights:  42%|█████████████████████████████████████████████████▉                                                                    | 318/751 [01:41<02:55,  2.47it/s, Materializing param=model.layers.19.self_attn.q_b_proj.weight]Loading weights:  42%|█████████████████████████████████████████████████▉                                                                    | 318/751 [01:41<02:55,  2.47it/s, Materializing param=model.layers.19.self_attn.q_b_proj.weight]Loading weights:  42%|███████████████████████████████████████████████████▍                                                                     | 319/751 [01:41<02:54,  2.47it/s, Materializing param=model.layers.20.input_layernorm.weight]Loading weights:  42%|███████████████████████████████████████████████████▍                                                                     | 319/751 [01:41<02:54,  2.47it/s, Materializing param=model.layers.20.input_layernorm.weight]Loading weights:  43%|███████████████████████████████████████████████████▉                                                                      | 320/751 [01:41<02:54,  2.47it/s, Materializing param=model.layers.20.mlp.experts.down_proj]Loading weights:  43%|███████████████████████████████████████████████████▉                                                                      | 320/751 [01:41<02:54,  2.47it/s, Materializing param=model.layers.20.mlp.experts.down_proj]Loading weights:  41%|████████████████████████████████████████████████▍                                                                      | 306/751 [01:42<03:00,  2.47it/s, Materializing param=model.layers.19.mlp.experts.gate_up_proj]Loading weights:  41%|█████████████████████████████████████████████▏                                                                 | 306/751 [01:42<03:00,  2.47it/s, Materializing param=model.layers.19.mlp.gate.e_score_correction_bias]Loading weights:  41%|█████████████████████████████████████████████▏                                                                 | 306/751 [01:42<03:00,  2.47it/s, Materializing param=model.layers.19.mlp.gate.e_score_correction_bias]Loading weights:  41%|████████████████████████████████████████████████████▎                                                                           | 307/751 [01:42<02:59,  2.47it/s, Materializing param=model.layers.19.mlp.gate.weight]Loading weights:  41%|████████████████████████████████████████████████████▎                                                                           | 307/751 [01:42<02:59,  2.47it/s, Materializing param=model.layers.19.mlp.gate.weight]Loading weights:  41%|████████████████████████████████████████████▎                                                               | 308/751 [01:42<02:59,  2.47it/s, Materializing param=model.layers.19.mlp.shared_experts.down_proj.weight]Loading weights:  41%|████████████████████████████████████████████▎                                                               | 308/751 [01:42<02:59,  2.47it/s, Materializing param=model.layers.19.mlp.shared_experts.down_proj.weight]Loading weights:  41%|████████████████████████████████████████████▍                                                               | 309/751 [01:42<02:58,  2.47it/s, Materializing param=model.layers.19.mlp.shared_experts.gate_proj.weight]Loading weights:  41%|████████████████████████████████████████████▍                                                               | 309/751 [01:42<02:58,  2.47it/s, Materializing param=model.layers.19.mlp.shared_experts.gate_proj.weight]Loading weights:  41%|█████████████████████████████████████████████▍                                                                | 310/751 [01:42<02:58,  2.47it/s, Materializing param=model.layers.19.mlp.shared_experts.up_proj.weight]Loading weights:  41%|█████████████████████████████████████████████▍                                                                | 310/751 [01:42<02:58,  2.47it/s, Materializing param=model.layers.19.mlp.shared_experts.up_proj.weight]Loading weights:  41%|██████████████████████████████████████████████▍                                                                 | 311/751 [01:42<02:58,  2.47it/s, Materializing param=model.layers.19.post_attention_layernorm.weight]Loading weights:  41%|██████████████████████████████████████████████▍                                                                 | 311/751 [01:42<02:58,  2.47it/s, Materializing param=model.layers.19.post_attention_layernorm.weight]Loading weights:  42%|██████████████████████████████████████████████▌                                                                 | 312/751 [01:42<02:57,  2.47it/s, Materializing param=model.layers.19.self_attn.kv_a_layernorm.weight]Loading weights:  42%|██████████████████████████████████████████████▌                                                                 | 312/751 [01:42<02:57,  2.47it/s, Materializing param=model.layers.19.self_attn.kv_a_layernorm.weight]Loading weights:  42%|█████████████████████████████████████████████                                                               | 313/751 [01:42<02:57,  2.47it/s, Materializing param=model.layers.19.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  42%|█████████████████████████████████████████████                                                               | 313/751 [01:42<02:57,  2.47it/s, Materializing param=model.layers.19.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  42%|████████████████████████████████████████████████▉                                                                    | 314/751 [01:42<02:56,  2.47it/s, Materializing param=model.layers.19.self_attn.kv_b_proj.weight]Loading weights:  42%|████████████████████████████████████████████████▉                                                                    | 314/751 [01:42<02:56,  2.47it/s, Materializing param=model.layers.19.self_attn.kv_b_proj.weight]Loading weights:  42%|██████████████████████████████████████████████████▎                                                                     | 315/751 [01:42<02:56,  2.47it/s, Materializing param=model.layers.19.self_attn.o_proj.weight]Loading weights:  42%|██████████████████████████████████████████████████▎                                                                     | 315/751 [01:42<02:56,  2.47it/s, Materializing param=model.layers.19.self_attn.o_proj.weight]Loading weights:  42%|███████████████████████████████████████████████▌                                                                 | 316/751 [01:42<02:56,  2.47it/s, Materializing param=model.layers.19.self_attn.q_a_layernorm.weight]Loading weights:  42%|███████████████████████████████████████████████▌                                                                 | 316/751 [01:42<02:56,  2.47it/s, Materializing param=model.layers.19.self_attn.q_a_layernorm.weight]Loading weights:  42%|█████████████████████████████████████████████████▊                                                                    | 317/751 [01:42<02:55,  2.47it/s, Materializing param=model.layers.19.self_attn.q_a_proj.weight]Loading weights:  42%|█████████████████████████████████████████████████▊                                                                    | 317/751 [01:42<02:55,  2.47it/s, Materializing param=model.layers.19.self_attn.q_a_proj.weight]Loading weights:  42%|█████████████████████████████████████████████████▉                                                                    | 318/751 [01:42<02:55,  2.47it/s, Materializing param=model.layers.19.self_attn.q_b_proj.weight]Loading weights:  42%|█████████████████████████████████████████████████▉                                                                    | 318/751 [01:42<02:55,  2.47it/s, Materializing param=model.layers.19.self_attn.q_b_proj.weight]Loading weights:  42%|███████████████████████████████████████████████████▍                                                                     | 319/751 [01:42<02:54,  2.47it/s, Materializing param=model.layers.20.input_layernorm.weight]Loading weights:  42%|███████████████████████████████████████████████████▍                                                                     | 319/751 [01:42<02:54,  2.47it/s, Materializing param=model.layers.20.input_layernorm.weight]Loading weights:  43%|███████████████████████████████████████████████████▉                                                                      | 320/751 [01:42<02:54,  2.47it/s, Materializing param=model.layers.20.mlp.experts.down_proj]Loading weights:  43%|███████████████████████████████████████████████████▉                                                                      | 320/751 [01:42<02:54,  2.47it/s, Materializing param=model.layers.20.mlp.experts.down_proj]Loading weights:  43%|████████████████████████████████████████████████████▏                                                                     | 321/751 [01:43<01:51,  3.84it/s, Materializing param=model.layers.20.mlp.experts.down_proj]Loading weights:  43%|████████████████████████████████████████████████████▏                                                                     | 321/751 [01:43<01:51,  3.84it/s, Materializing param=model.layers.20.mlp.experts.down_proj]Loading weights:  43%|██████████████████████████████████████████████████▊                                                                    | 321/751 [01:43<01:51,  3.84it/s, Materializing param=model.layers.20.mlp.experts.gate_up_proj]Loading weights:  43%|██████████████████████████████████████████████████▊                                                                    | 321/751 [01:43<01:51,  3.84it/s, Materializing param=model.layers.20.mlp.experts.gate_up_proj]Loading weights:  43%|██████████████████████████████████████████████████▊                                                                    | 321/751 [01:43<01:51,  3.84it/s, Materializing param=model.layers.20.mlp.experts.gate_up_proj]Loading weights:  43%|██████████████████████████████████████████████████▊                                                                    | 321/751 [01:43<01:51,  3.84it/s, Materializing param=model.layers.20.mlp.experts.gate_up_proj]Loading weights:  43%|███████████████████████████████████████████████████                                                                    | 322/751 [01:47<02:53,  2.48it/s, Materializing param=model.layers.20.mlp.experts.gate_up_proj]Loading weights:  43%|███████████████████████████████████████████████▌                                                               | 322/751 [01:47<02:53,  2.48it/s, Materializing param=model.layers.20.mlp.gate.e_score_correction_bias]Loading weights:  43%|███████████████████████████████████████████████▌                                                               | 322/751 [01:47<02:53,  2.48it/s, Materializing param=model.layers.20.mlp.gate.e_score_correction_bias]Loading weights:  43%|███████████████████████████████████████████████████████                                                                         | 323/751 [01:47<02:52,  2.48it/s, Materializing param=model.layers.20.mlp.gate.weight]Loading weights:  43%|███████████████████████████████████████████████████████                                                                         | 323/751 [01:47<02:52,  2.48it/s, Materializing param=model.layers.20.mlp.gate.weight]Loading weights:  43%|██████████████████████████████████████████████▌                                                             | 324/751 [01:47<02:52,  2.48it/s, Materializing param=model.layers.20.mlp.shared_experts.down_proj.weight]Loading weights:  43%|██████████████████████████████████████████████▌                                                             | 324/751 [01:47<02:52,  2.48it/s, Materializing param=model.layers.20.mlp.shared_experts.down_proj.weight]Loading weights:  43%|██████████████████████████████████████████████▋                                                             | 325/751 [01:47<02:51,  2.48it/s, Materializing param=model.layers.20.mlp.shared_experts.gate_proj.weight]Loading weights:  43%|██████████████████████████████████████████████▋                                                             | 325/751 [01:47<02:51,  2.48it/s, Materializing param=model.layers.20.mlp.shared_experts.gate_proj.weight]Loading weights:  43%|███████████████████████████████████████████████▋                                                              | 326/751 [01:47<02:51,  2.48it/s, Materializing param=model.layers.20.mlp.shared_experts.up_proj.weight]Loading weights:  43%|███████████████████████████████████████████████▋                                                              | 326/751 [01:47<02:51,  2.48it/s, Materializing param=model.layers.20.mlp.shared_experts.up_proj.weight]Loading weights:  44%|████████████████████████████████████████████████▊                                                               | 327/751 [01:47<02:51,  2.48it/s, Materializing param=model.layers.20.post_attention_layernorm.weight]Loading weights:  44%|████████████████████████████████████████████████▊                                                               | 327/751 [01:47<02:51,  2.48it/s, Materializing param=model.layers.20.post_attention_layernorm.weight]Loading weights:  44%|████████████████████████████████████████████████▉                                                               | 328/751 [01:47<02:50,  2.48it/s, Materializing param=model.layers.20.self_attn.kv_a_layernorm.weight]Loading weights:  44%|████████████████████████████████████████████████▉                                                               | 328/751 [01:47<02:50,  2.48it/s, Materializing param=model.layers.20.self_attn.kv_a_layernorm.weight]Loading weights:  44%|███████████████████████████████████████████████▎                                                            | 329/751 [01:47<02:50,  2.48it/s, Materializing param=model.layers.20.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  44%|███████████████████████████████████████████████▎                                                            | 329/751 [01:47<02:50,  2.48it/s, Materializing param=model.layers.20.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  44%|███████████████████████████████████████████████████▍                                                                 | 330/751 [01:47<02:49,  2.48it/s, Materializing param=model.layers.20.self_attn.kv_b_proj.weight]Loading weights:  44%|███████████████████████████████████████████████████▍                                                                 | 330/751 [01:47<02:49,  2.48it/s, Materializing param=model.layers.20.self_attn.kv_b_proj.weight]Loading weights:  44%|████████████████████████████████████████████████████▉                                                                   | 331/751 [01:47<02:49,  2.48it/s, Materializing param=model.layers.20.self_attn.o_proj.weight]Loading weights:  44%|████████████████████████████████████████████████████▉                                                                   | 331/751 [01:47<02:49,  2.48it/s, Materializing param=model.layers.20.self_attn.o_proj.weight]Loading weights:  44%|█████████████████████████████████████████████████▉                                                               | 332/751 [01:47<02:49,  2.48it/s, Materializing param=model.layers.20.self_attn.q_a_layernorm.weight]Loading weights:  44%|█████████████████████████████████████████████████▉                                                               | 332/751 [01:47<02:49,  2.48it/s, Materializing param=model.layers.20.self_attn.q_a_layernorm.weight]Loading weights:  44%|████████████████████████████████████████████████████▎                                                                 | 333/751 [01:47<02:48,  2.48it/s, Materializing param=model.layers.20.self_attn.q_a_proj.weight]Loading weights:  44%|████████████████████████████████████████████████████▎                                                                 | 333/751 [01:47<02:48,  2.48it/s, Materializing param=model.layers.20.self_attn.q_a_proj.weight]Loading weights:  44%|████████████████████████████████████████████████████▍                                                                 | 334/751 [01:47<02:48,  2.48it/s, Materializing param=model.layers.20.self_attn.q_b_proj.weight]Loading weights:  44%|████████████████████████████████████████████████████▍                                                                 | 334/751 [01:47<02:48,  2.48it/s, Materializing param=model.layers.20.self_attn.q_b_proj.weight]Loading weights:  45%|█████████████████████████████████████████████████████▉                                                                   | 335/751 [01:47<02:47,  2.48it/s, Materializing param=model.layers.21.input_layernorm.weight]Loading weights:  45%|█████████████████████████████████████████████████████▉                                                                   | 335/751 [01:47<02:47,  2.48it/s, Materializing param=model.layers.21.input_layernorm.weight]Loading weights:  45%|██████████████████████████████████████████████████████▌                                                                   | 336/751 [01:47<02:47,  2.48it/s, Materializing param=model.layers.21.mlp.experts.down_proj]Loading weights:  45%|██████████████████████████████████████████████████████▌                                                                   | 336/751 [01:47<02:47,  2.48it/s, Materializing param=model.layers.21.mlp.experts.down_proj]Loading weights:  43%|███████████████████████████████████████████████████                                                                    | 322/751 [01:47<03:01,  2.36it/s, Materializing param=model.layers.20.mlp.experts.gate_up_proj]Loading weights:  43%|███████████████████████████████████████████████▌                                                               | 322/751 [01:47<03:01,  2.36it/s, Materializing param=model.layers.20.mlp.gate.e_score_correction_bias]Loading weights:  43%|███████████████████████████████████████████████▌                                                               | 322/751 [01:47<03:01,  2.36it/s, Materializing param=model.layers.20.mlp.gate.e_score_correction_bias]Loading weights:  43%|███████████████████████████████████████████████████████                                                                         | 323/751 [01:47<03:01,  2.36it/s, Materializing param=model.layers.20.mlp.gate.weight]Loading weights:  43%|███████████████████████████████████████████████████████                                                                         | 323/751 [01:47<03:01,  2.36it/s, Materializing param=model.layers.20.mlp.gate.weight]Loading weights:  43%|██████████████████████████████████████████████▌                                                             | 324/751 [01:47<03:00,  2.36it/s, Materializing param=model.layers.20.mlp.shared_experts.down_proj.weight]Loading weights:  43%|██████████████████████████████████████████████▌                                                             | 324/751 [01:47<03:00,  2.36it/s, Materializing param=model.layers.20.mlp.shared_experts.down_proj.weight]Loading weights:  43%|██████████████████████████████████████████████▋                                                             | 325/751 [01:47<03:00,  2.36it/s, Materializing param=model.layers.20.mlp.shared_experts.gate_proj.weight]Loading weights:  43%|██████████████████████████████████████████████▋                                                             | 325/751 [01:47<03:00,  2.36it/s, Materializing param=model.layers.20.mlp.shared_experts.gate_proj.weight]Loading weights:  43%|███████████████████████████████████████████████▋                                                              | 326/751 [01:47<02:59,  2.36it/s, Materializing param=model.layers.20.mlp.shared_experts.up_proj.weight]Loading weights:  43%|███████████████████████████████████████████████▋                                                              | 326/751 [01:47<02:59,  2.36it/s, Materializing param=model.layers.20.mlp.shared_experts.up_proj.weight]Loading weights:  44%|████████████████████████████████████████████████▊                                                               | 327/751 [01:47<02:59,  2.36it/s, Materializing param=model.layers.20.post_attention_layernorm.weight]Loading weights:  44%|████████████████████████████████████████████████▊                                                               | 327/751 [01:47<02:59,  2.36it/s, Materializing param=model.layers.20.post_attention_layernorm.weight]Loading weights:  44%|████████████████████████████████████████████████▉                                                               | 328/751 [01:47<02:59,  2.36it/s, Materializing param=model.layers.20.self_attn.kv_a_layernorm.weight]Loading weights:  44%|████████████████████████████████████████████████▉                                                               | 328/751 [01:47<02:59,  2.36it/s, Materializing param=model.layers.20.self_attn.kv_a_layernorm.weight]Loading weights:  44%|███████████████████████████████████████████████▎                                                            | 329/751 [01:47<02:58,  2.36it/s, Materializing param=model.layers.20.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  44%|███████████████████████████████████████████████▎                                                            | 329/751 [01:47<02:58,  2.36it/s, Materializing param=model.layers.20.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  44%|███████████████████████████████████████████████████▍                                                                 | 330/751 [01:47<02:58,  2.36it/s, Materializing param=model.layers.20.self_attn.kv_b_proj.weight]Loading weights:  44%|███████████████████████████████████████████████████▍                                                                 | 330/751 [01:47<02:58,  2.36it/s, Materializing param=model.layers.20.self_attn.kv_b_proj.weight]Loading weights:  44%|████████████████████████████████████████████████████▉                                                                   | 331/751 [01:47<02:57,  2.36it/s, Materializing param=model.layers.20.self_attn.o_proj.weight]Loading weights:  44%|████████████████████████████████████████████████████▉                                                                   | 331/751 [01:47<02:57,  2.36it/s, Materializing param=model.layers.20.self_attn.o_proj.weight]Loading weights:  44%|█████████████████████████████████████████████████▉                                                               | 332/751 [01:47<02:57,  2.36it/s, Materializing param=model.layers.20.self_attn.q_a_layernorm.weight]Loading weights:  44%|█████████████████████████████████████████████████▉                                                               | 332/751 [01:47<02:57,  2.36it/s, Materializing param=model.layers.20.self_attn.q_a_layernorm.weight]Loading weights:  44%|████████████████████████████████████████████████████▎                                                                 | 333/751 [01:47<02:56,  2.36it/s, Materializing param=model.layers.20.self_attn.q_a_proj.weight]Loading weights:  44%|████████████████████████████████████████████████████▎                                                                 | 333/751 [01:47<02:56,  2.36it/s, Materializing param=model.layers.20.self_attn.q_a_proj.weight]Loading weights:  44%|████████████████████████████████████████████████████▍                                                                 | 334/751 [01:47<02:56,  2.36it/s, Materializing param=model.layers.20.self_attn.q_b_proj.weight]Loading weights:  44%|████████████████████████████████████████████████████▍                                                                 | 334/751 [01:47<02:56,  2.36it/s, Materializing param=model.layers.20.self_attn.q_b_proj.weight]Loading weights:  45%|█████████████████████████████████████████████████████▉                                                                   | 335/751 [01:47<02:56,  2.36it/s, Materializing param=model.layers.21.input_layernorm.weight]Loading weights:  45%|█████████████████████████████████████████████████████▉                                                                   | 335/751 [01:47<02:56,  2.36it/s, Materializing param=model.layers.21.input_layernorm.weight]Loading weights:  45%|██████████████████████████████████████████████████████▌                                                                   | 336/751 [01:47<02:55,  2.36it/s, Materializing param=model.layers.21.mlp.experts.down_proj]Loading weights:  45%|██████████████████████████████████████████████████████▌                                                                   | 336/751 [01:47<02:55,  2.36it/s, Materializing param=model.layers.21.mlp.experts.down_proj]Loading weights:  45%|██████████████████████████████████████████████████████▋                                                                   | 337/751 [01:48<01:46,  3.91it/s, Materializing param=model.layers.21.mlp.experts.down_proj]Loading weights:  45%|██████████████████████████████████████████████████████▋                                                                   | 337/751 [01:48<01:47,  3.84it/s, Materializing param=model.layers.21.mlp.experts.down_proj]Loading weights:  45%|█████████████████████████████████████████████████████▍                                                                 | 337/751 [01:48<01:46,  3.91it/s, Materializing param=model.layers.21.mlp.experts.gate_up_proj]Loading weights:  45%|█████████████████████████████████████████████████████▍                                                                 | 337/751 [01:48<01:47,  3.84it/s, Materializing param=model.layers.21.mlp.experts.gate_up_proj]Loading weights:  45%|█████████████████████████████████████████████████████▍                                                                 | 337/751 [01:48<01:46,  3.91it/s, Materializing param=model.layers.21.mlp.experts.gate_up_proj]Loading weights:  45%|█████████████████████████████████████████████████████▍                                                                 | 337/751 [01:48<01:47,  3.84it/s, Materializing param=model.layers.21.mlp.experts.gate_up_proj]Loading weights:  45%|█████████████████████████████████████████████████████▌                                                                 | 338/751 [01:52<02:43,  2.52it/s, Materializing param=model.layers.21.mlp.experts.gate_up_proj]Loading weights:  45%|█████████████████████████████████████████████████▉                                                             | 338/751 [01:52<02:43,  2.52it/s, Materializing param=model.layers.21.mlp.gate.e_score_correction_bias]Loading weights:  45%|█████████████████████████████████████████████████▉                                                             | 338/751 [01:52<02:43,  2.52it/s, Materializing param=model.layers.21.mlp.gate.e_score_correction_bias]Loading weights:  45%|█████████████████████████████████████████████████████████▊                                                                      | 339/751 [01:52<02:43,  2.52it/s, Materializing param=model.layers.21.mlp.gate.weight]Loading weights:  45%|█████████████████████████████████████████████████████████▊                                                                      | 339/751 [01:52<02:43,  2.52it/s, Materializing param=model.layers.21.mlp.gate.weight]Loading weights:  45%|████████████████████████████████████████████████▉                                                           | 340/751 [01:52<02:43,  2.52it/s, Materializing param=model.layers.21.mlp.shared_experts.down_proj.weight]Loading weights:  45%|████████████████████████████████████████████████▉                                                           | 340/751 [01:52<02:43,  2.52it/s, Materializing param=model.layers.21.mlp.shared_experts.down_proj.weight]Loading weights:  45%|█████████████████████████████████████████████████                                                           | 341/751 [01:52<02:42,  2.52it/s, Materializing param=model.layers.21.mlp.shared_experts.gate_proj.weight]Loading weights:  45%|█████████████████████████████████████████████████                                                           | 341/751 [01:52<02:42,  2.52it/s, Materializing param=model.layers.21.mlp.shared_experts.gate_proj.weight]Loading weights:  46%|██████████████████████████████████████████████████                                                            | 342/751 [01:52<02:42,  2.52it/s, Materializing param=model.layers.21.mlp.shared_experts.up_proj.weight]Loading weights:  46%|██████████████████████████████████████████████████                                                            | 342/751 [01:52<02:42,  2.52it/s, Materializing param=model.layers.21.mlp.shared_experts.up_proj.weight]Loading weights:  46%|███████████████████████████████████████████████████▏                                                            | 343/751 [01:52<02:41,  2.52it/s, Materializing param=model.layers.21.post_attention_layernorm.weight]Loading weights:  46%|███████████████████████████████████████████████████▏                                                            | 343/751 [01:52<02:41,  2.52it/s, Materializing param=model.layers.21.post_attention_layernorm.weight]Loading weights:  46%|███████████████████████████████████████████████████▎                                                            | 344/751 [01:52<02:41,  2.52it/s, Materializing param=model.layers.21.self_attn.kv_a_layernorm.weight]Loading weights:  46%|███████████████████████████████████████████████████▎                                                            | 344/751 [01:52<02:41,  2.52it/s, Materializing param=model.layers.21.self_attn.kv_a_layernorm.weight]Loading weights:  46%|█████████████████████████████████████████████████▌                                                          | 345/751 [01:52<02:41,  2.52it/s, Materializing param=model.layers.21.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  45%|█████████████████████████████████████████████████████▌                                                                 | 338/751 [01:52<02:45,  2.49it/s, Materializing param=model.layers.21.mlp.experts.gate_up_proj]Loading weights:  46%|█████████████████████████████████████████████████▌                                                          | 345/751 [01:52<02:41,  2.52it/s, Materializing param=model.layers.21.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  45%|█████████████████████████████████████████████████▉                                                             | 338/751 [01:52<02:45,  2.49it/s, Materializing param=model.layers.21.mlp.gate.e_score_correction_bias]Loading weights:  46%|█████████████████████████████████████████████████████▉                                                               | 346/751 [01:52<02:40,  2.52it/s, Materializing param=model.layers.21.self_attn.kv_b_proj.weight]Loading weights:  45%|█████████████████████████████████████████████████▉                                                             | 338/751 [01:52<02:45,  2.49it/s, Materializing param=model.layers.21.mlp.gate.e_score_correction_bias]Loading weights:  46%|█████████████████████████████████████████████████████▉                                                               | 346/751 [01:52<02:40,  2.52it/s, Materializing param=model.layers.21.self_attn.kv_b_proj.weight]Loading weights:  46%|███████████████████████████████████████████████████████▍                                                                | 347/751 [01:52<02:40,  2.52it/s, Materializing param=model.layers.21.self_attn.o_proj.weight]Loading weights:  45%|█████████████████████████████████████████████████████████▊                                                                      | 339/751 [01:52<02:45,  2.49it/s, Materializing param=model.layers.21.mlp.gate.weight]Loading weights:  45%|█████████████████████████████████████████████████████████▊                                                                      | 339/751 [01:52<02:45,  2.49it/s, Materializing param=model.layers.21.mlp.gate.weight]Loading weights:  45%|████████████████████████████████████████████████▉                                                           | 340/751 [01:52<02:44,  2.49it/s, Materializing param=model.layers.21.mlp.shared_experts.down_proj.weight]Loading weights:  45%|████████████████████████████████████████████████▉                                                           | 340/751 [01:52<02:44,  2.49it/s, Materializing param=model.layers.21.mlp.shared_experts.down_proj.weight]Loading weights:  45%|█████████████████████████████████████████████████                                                           | 341/751 [01:52<02:44,  2.49it/s, Materializing param=model.layers.21.mlp.shared_experts.gate_proj.weight]Loading weights:  45%|█████████████████████████████████████████████████                                                           | 341/751 [01:52<02:44,  2.49it/s, Materializing param=model.layers.21.mlp.shared_experts.gate_proj.weight]Loading weights:  46%|██████████████████████████████████████████████████                                                            | 342/751 [01:52<02:44,  2.49it/s, Materializing param=model.layers.21.mlp.shared_experts.up_proj.weight]Loading weights:  46%|██████████████████████████████████████████████████                                                            | 342/751 [01:52<02:44,  2.49it/s, Materializing param=model.layers.21.mlp.shared_experts.up_proj.weight]Loading weights:  46%|███████████████████████████████████████████████████████▍                                                                | 347/751 [01:52<02:40,  2.52it/s, Materializing param=model.layers.21.self_attn.o_proj.weight]Loading weights:  46%|████████████████████████████████████████████████████▎                                                            | 348/751 [01:52<02:39,  2.52it/s, Materializing param=model.layers.21.self_attn.q_a_layernorm.weight]Loading weights:  46%|████████████████████████████████████████████████████▎                                                            | 348/751 [01:52<02:39,  2.52it/s, Materializing param=model.layers.21.self_attn.q_a_layernorm.weight]Loading weights:  46%|███████████████████████████████████████████████████▏                                                            | 343/751 [01:52<02:43,  2.49it/s, Materializing param=model.layers.21.post_attention_layernorm.weight]Loading weights:  46%|███████████████████████████████████████████████████▏                                                            | 343/751 [01:52<02:43,  2.49it/s, Materializing param=model.layers.21.post_attention_layernorm.weight]Loading weights:  46%|██████████████████████████████████████████████████████▊                                                               | 349/751 [01:52<02:39,  2.52it/s, Materializing param=model.layers.21.self_attn.q_a_proj.weight]Loading weights:  46%|███████████████████████████████████████████████████▎                                                            | 344/751 [01:52<02:43,  2.49it/s, Materializing param=model.layers.21.self_attn.kv_a_layernorm.weight]Loading weights:  46%|██████████████████████████████████████████████████████▊                                                               | 349/751 [01:52<02:39,  2.52it/s, Materializing param=model.layers.21.self_attn.q_a_proj.weight]Loading weights:  46%|███████████████████████████████████████████████████▎                                                            | 344/751 [01:52<02:43,  2.49it/s, Materializing param=model.layers.21.self_attn.kv_a_layernorm.weight]Loading weights:  47%|██████████████████████████████████████████████████████▉                                                               | 350/751 [01:52<02:39,  2.52it/s, Materializing param=model.layers.21.self_attn.q_b_proj.weight]Loading weights:  46%|█████████████████████████████████████████████████▌                                                          | 345/751 [01:52<02:42,  2.49it/s, Materializing param=model.layers.21.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  46%|█████████████████████████████████████████████████▌                                                          | 345/751 [01:52<02:42,  2.49it/s, Materializing param=model.layers.21.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  46%|█████████████████████████████████████████████████████▉                                                               | 346/751 [01:52<02:42,  2.49it/s, Materializing param=model.layers.21.self_attn.kv_b_proj.weight]Loading weights:  47%|██████████████████████████████████████████████████████▉                                                               | 350/751 [01:52<02:39,  2.52it/s, Materializing param=model.layers.21.self_attn.q_b_proj.weight]Loading weights:  46%|█████████████████████████████████████████████████████▉                                                               | 346/751 [01:52<02:42,  2.49it/s, Materializing param=model.layers.21.self_attn.kv_b_proj.weight]Loading weights:  47%|████████████████████████████████████████████████████████▌                                                                | 351/751 [01:52<02:38,  2.52it/s, Materializing param=model.layers.22.input_layernorm.weight]Loading weights:  46%|███████████████████████████████████████████████████████▍                                                                | 347/751 [01:52<02:42,  2.49it/s, Materializing param=model.layers.21.self_attn.o_proj.weight]Loading weights:  47%|████████████████████████████████████████████████████████▌                                                                | 351/751 [01:52<02:38,  2.52it/s, Materializing param=model.layers.22.input_layernorm.weight]Loading weights:  47%|█████████████████████████████████████████████████████████▏                                                                | 352/751 [01:52<02:38,  2.52it/s, Materializing param=model.layers.22.mlp.experts.down_proj]Loading weights:  47%|█████████████████████████████████████████████████████████▏                                                                | 352/751 [01:52<02:38,  2.52it/s, Materializing param=model.layers.22.mlp.experts.down_proj]Loading weights:  46%|███████████████████████████████████████████████████████▍                                                                | 347/751 [01:52<02:42,  2.49it/s, Materializing param=model.layers.21.self_attn.o_proj.weight]Loading weights:  46%|████████████████████████████████████████████████████▎                                                            | 348/751 [01:52<02:41,  2.49it/s, Materializing param=model.layers.21.self_attn.q_a_layernorm.weight]Loading weights:  46%|████████████████████████████████████████████████████▎                                                            | 348/751 [01:52<02:41,  2.49it/s, Materializing param=model.layers.21.self_attn.q_a_layernorm.weight]Loading weights:  46%|██████████████████████████████████████████████████████▊                                                               | 349/751 [01:52<02:41,  2.49it/s, Materializing param=model.layers.21.self_attn.q_a_proj.weight]Loading weights:  46%|██████████████████████████████████████████████████████▊                                                               | 349/751 [01:52<02:41,  2.49it/s, Materializing param=model.layers.21.self_attn.q_a_proj.weight]Loading weights:  47%|██████████████████████████████████████████████████████▉                                                               | 350/751 [01:52<02:40,  2.49it/s, Materializing param=model.layers.21.self_attn.q_b_proj.weight]Loading weights:  47%|██████████████████████████████████████████████████████▉                                                               | 350/751 [01:52<02:40,  2.49it/s, Materializing param=model.layers.21.self_attn.q_b_proj.weight]Loading weights:  47%|████████████████████████████████████████████████████████▌                                                                | 351/751 [01:52<02:40,  2.49it/s, Materializing param=model.layers.22.input_layernorm.weight]Loading weights:  47%|████████████████████████████████████████████████████████▌                                                                | 351/751 [01:52<02:40,  2.49it/s, Materializing param=model.layers.22.input_layernorm.weight]Loading weights:  47%|█████████████████████████████████████████████████████████▏                                                                | 352/751 [01:52<02:40,  2.49it/s, Materializing param=model.layers.22.mlp.experts.down_proj]Loading weights:  47%|█████████████████████████████████████████████████████████▏                                                                | 352/751 [01:52<02:40,  2.49it/s, Materializing param=model.layers.22.mlp.experts.down_proj]Loading weights:  47%|█████████████████████████████████████████████████████████▎                                                                | 353/751 [01:53<01:42,  3.90it/s, Materializing param=model.layers.22.mlp.experts.down_proj]Loading weights:  47%|█████████████████████████████████████████████████████████▎                                                                | 353/751 [01:53<01:42,  3.87it/s, Materializing param=model.layers.22.mlp.experts.down_proj]Loading weights:  47%|███████████████████████████████████████████████████████▉                                                               | 353/751 [01:53<01:42,  3.87it/s, Materializing param=model.layers.22.mlp.experts.gate_up_proj]Loading weights:  47%|███████████████████████████████████████████████████████▉                                                               | 353/751 [01:53<01:42,  3.90it/s, Materializing param=model.layers.22.mlp.experts.gate_up_proj]Loading weights:  47%|███████████████████████████████████████████████████████▉                                                               | 353/751 [01:53<01:42,  3.87it/s, Materializing param=model.layers.22.mlp.experts.gate_up_proj]Loading weights:  47%|███████████████████████████████████████████████████████▉                                                               | 353/751 [01:53<01:42,  3.90it/s, Materializing param=model.layers.22.mlp.experts.gate_up_proj]Loading weights:  47%|████████████████████████████████████████████████████████                                                               | 354/751 [01:57<02:39,  2.50it/s, Materializing param=model.layers.22.mlp.experts.gate_up_proj]Loading weights:  47%|████████████████████████████████████████████████████▎                                                          | 354/751 [01:57<02:39,  2.50it/s, Materializing param=model.layers.22.mlp.gate.e_score_correction_bias]Loading weights:  47%|████████████████████████████████████████████████████▎                                                          | 354/751 [01:57<02:39,  2.50it/s, Materializing param=model.layers.22.mlp.gate.e_score_correction_bias]Loading weights:  47%|████████████████████████████████████████████████████████████▌                                                                   | 355/751 [01:57<02:38,  2.50it/s, Materializing param=model.layers.22.mlp.gate.weight]Loading weights:  47%|████████████████████████████████████████████████████████████▌                                                                   | 355/751 [01:57<02:38,  2.50it/s, Materializing param=model.layers.22.mlp.gate.weight]Loading weights:  47%|███████████████████████████████████████████████████▏                                                        | 356/751 [01:57<02:38,  2.50it/s, Materializing param=model.layers.22.mlp.shared_experts.down_proj.weight]Loading weights:  47%|███████████████████████████████████████████████████▏                                                        | 356/751 [01:57<02:38,  2.50it/s, Materializing param=model.layers.22.mlp.shared_experts.down_proj.weight]Loading weights:  48%|███████████████████████████████████████████████████▎                                                        | 357/751 [01:57<02:37,  2.50it/s, Materializing param=model.layers.22.mlp.shared_experts.gate_proj.weight]Loading weights:  48%|███████████████████████████████████████████████████▎                                                        | 357/751 [01:57<02:37,  2.50it/s, Materializing param=model.layers.22.mlp.shared_experts.gate_proj.weight]Loading weights:  48%|████████████████████████████████████████████████████▍                                                         | 358/751 [01:57<02:37,  2.50it/s, Materializing param=model.layers.22.mlp.shared_experts.up_proj.weight]Loading weights:  48%|████████████████████████████████████████████████████▍                                                         | 358/751 [01:57<02:37,  2.50it/s, Materializing param=model.layers.22.mlp.shared_experts.up_proj.weight]Loading weights:  48%|█████████████████████████████████████████████████████▌                                                          | 359/751 [01:57<02:37,  2.50it/s, Materializing param=model.layers.22.post_attention_layernorm.weight]Loading weights:  48%|█████████████████████████████████████████████████████▌                                                          | 359/751 [01:57<02:37,  2.50it/s, Materializing param=model.layers.22.post_attention_layernorm.weight]Loading weights:  48%|█████████████████████████████████████████████████████▋                                                          | 360/751 [01:57<02:36,  2.50it/s, Materializing param=model.layers.22.self_attn.kv_a_layernorm.weight]Loading weights:  48%|█████████████████████████████████████████████████████▋                                                          | 360/751 [01:57<02:36,  2.50it/s, Materializing param=model.layers.22.self_attn.kv_a_layernorm.weight]Loading weights:  48%|███████████████████████████████████████████████████▉                                                        | 361/751 [01:57<02:36,  2.50it/s, Materializing param=model.layers.22.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  48%|███████████████████████████████████████████████████▉                                                        | 361/751 [01:57<02:36,  2.50it/s, Materializing param=model.layers.22.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  48%|████████████████████████████████████████████████████████▍                                                            | 362/751 [01:57<02:35,  2.50it/s, Materializing param=model.layers.22.self_attn.kv_b_proj.weight]Loading weights:  48%|████████████████████████████████████████████████████████▍                                                            | 362/751 [01:57<02:35,  2.50it/s, Materializing param=model.layers.22.self_attn.kv_b_proj.weight]Loading weights:  48%|██████████████████████████████████████████████████████████                                                              | 363/751 [01:57<02:35,  2.50it/s, Materializing param=model.layers.22.self_attn.o_proj.weight]Loading weights:  48%|██████████████████████████████████████████████████████████                                                              | 363/751 [01:57<02:35,  2.50it/s, Materializing param=model.layers.22.self_attn.o_proj.weight]Loading weights:  48%|██████████████████████████████████████████████████████▊                                                          | 364/751 [01:57<02:35,  2.50it/s, Materializing param=model.layers.22.self_attn.q_a_layernorm.weight]Loading weights:  48%|██████████████████████████████████████████████████████▊                                                          | 364/751 [01:57<02:35,  2.50it/s, Materializing param=model.layers.22.self_attn.q_a_layernorm.weight]Loading weights:  49%|█████████████████████████████████████████████████████████▎                                                            | 365/751 [01:57<02:34,  2.50it/s, Materializing param=model.layers.22.self_attn.q_a_proj.weight]Loading weights:  49%|█████████████████████████████████████████████████████████▎                                                            | 365/751 [01:57<02:34,  2.50it/s, Materializing param=model.layers.22.self_attn.q_a_proj.weight]Loading weights:  49%|█████████████████████████████████████████████████████████▌                                                            | 366/751 [01:57<02:34,  2.50it/s, Materializing param=model.layers.22.self_attn.q_b_proj.weight]Loading weights:  49%|█████████████████████████████████████████████████████████▌                                                            | 366/751 [01:57<02:34,  2.50it/s, Materializing param=model.layers.22.self_attn.q_b_proj.weight]Loading weights:  49%|███████████████████████████████████████████████████████████▏                                                             | 367/751 [01:57<02:33,  2.50it/s, Materializing param=model.layers.23.input_layernorm.weight]Loading weights:  49%|███████████████████████████████████████████████████████████▏                                                             | 367/751 [01:57<02:33,  2.50it/s, Materializing param=model.layers.23.input_layernorm.weight]Loading weights:  49%|███████████████████████████████████████████████████████████▊                                                              | 368/751 [01:57<02:33,  2.50it/s, Materializing param=model.layers.23.mlp.experts.down_proj]Loading weights:  49%|███████████████████████████████████████████████████████████▊                                                              | 368/751 [01:57<02:33,  2.50it/s, Materializing param=model.layers.23.mlp.experts.down_proj]Loading weights:  47%|████████████████████████████████████████████████████████                                                               | 354/751 [01:57<02:38,  2.50it/s, Materializing param=model.layers.22.mlp.experts.gate_up_proj]Loading weights:  47%|████████████████████████████████████████████████████▎                                                          | 354/751 [01:57<02:38,  2.50it/s, Materializing param=model.layers.22.mlp.gate.e_score_correction_bias]Loading weights:  47%|████████████████████████████████████████████████████▎                                                          | 354/751 [01:57<02:38,  2.50it/s, Materializing param=model.layers.22.mlp.gate.e_score_correction_bias]Loading weights:  47%|████████████████████████████████████████████████████████████▌                                                                   | 355/751 [01:57<02:38,  2.50it/s, Materializing param=model.layers.22.mlp.gate.weight]Loading weights:  47%|████████████████████████████████████████████████████████████▌                                                                   | 355/751 [01:57<02:38,  2.50it/s, Materializing param=model.layers.22.mlp.gate.weight]Loading weights:  47%|███████████████████████████████████████████████████▏                                                        | 356/751 [01:57<02:37,  2.50it/s, Materializing param=model.layers.22.mlp.shared_experts.down_proj.weight]Loading weights:  47%|███████████████████████████████████████████████████▏                                                        | 356/751 [01:57<02:37,  2.50it/s, Materializing param=model.layers.22.mlp.shared_experts.down_proj.weight]Loading weights:  48%|███████████████████████████████████████████████████▎                                                        | 357/751 [01:57<02:37,  2.50it/s, Materializing param=model.layers.22.mlp.shared_experts.gate_proj.weight]Loading weights:  48%|███████████████████████████████████████████████████▎                                                        | 357/751 [01:57<02:37,  2.50it/s, Materializing param=model.layers.22.mlp.shared_experts.gate_proj.weight]Loading weights:  48%|████████████████████████████████████████████████████▍                                                         | 358/751 [01:57<02:37,  2.50it/s, Materializing param=model.layers.22.mlp.shared_experts.up_proj.weight]Loading weights:  48%|████████████████████████████████████████████████████▍                                                         | 358/751 [01:57<02:37,  2.50it/s, Materializing param=model.layers.22.mlp.shared_experts.up_proj.weight]Loading weights:  48%|█████████████████████████████████████████████████████▌                                                          | 359/751 [01:57<02:36,  2.50it/s, Materializing param=model.layers.22.post_attention_layernorm.weight]Loading weights:  48%|█████████████████████████████████████████████████████▌                                                          | 359/751 [01:57<02:36,  2.50it/s, Materializing param=model.layers.22.post_attention_layernorm.weight]Loading weights:  48%|█████████████████████████████████████████████████████▋                                                          | 360/751 [01:57<02:36,  2.50it/s, Materializing param=model.layers.22.self_attn.kv_a_layernorm.weight]Loading weights:  48%|█████████████████████████████████████████████████████▋                                                          | 360/751 [01:57<02:36,  2.50it/s, Materializing param=model.layers.22.self_attn.kv_a_layernorm.weight]Loading weights:  48%|███████████████████████████████████████████████████▉                                                        | 361/751 [01:57<02:35,  2.50it/s, Materializing param=model.layers.22.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  48%|███████████████████████████████████████████████████▉                                                        | 361/751 [01:57<02:35,  2.50it/s, Materializing param=model.layers.22.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  48%|████████████████████████████████████████████████████████▍                                                            | 362/751 [01:57<02:35,  2.50it/s, Materializing param=model.layers.22.self_attn.kv_b_proj.weight]Loading weights:  48%|████████████████████████████████████████████████████████▍                                                            | 362/751 [01:57<02:35,  2.50it/s, Materializing param=model.layers.22.self_attn.kv_b_proj.weight]Loading weights:  48%|██████████████████████████████████████████████████████████                                                              | 363/751 [01:57<02:35,  2.50it/s, Materializing param=model.layers.22.self_attn.o_proj.weight]Loading weights:  48%|██████████████████████████████████████████████████████████                                                              | 363/751 [01:57<02:35,  2.50it/s, Materializing param=model.layers.22.self_attn.o_proj.weight]Loading weights:  48%|██████████████████████████████████████████████████████▊                                                          | 364/751 [01:57<02:34,  2.50it/s, Materializing param=model.layers.22.self_attn.q_a_layernorm.weight]Loading weights:  48%|██████████████████████████████████████████████████████▊                                                          | 364/751 [01:57<02:34,  2.50it/s, Materializing param=model.layers.22.self_attn.q_a_layernorm.weight]Loading weights:  49%|█████████████████████████████████████████████████████████▎                                                            | 365/751 [01:57<02:34,  2.50it/s, Materializing param=model.layers.22.self_attn.q_a_proj.weight]Loading weights:  49%|█████████████████████████████████████████████████████████▎                                                            | 365/751 [01:57<02:34,  2.50it/s, Materializing param=model.layers.22.self_attn.q_a_proj.weight]Loading weights:  49%|█████████████████████████████████████████████████████████▌                                                            | 366/751 [01:57<02:33,  2.50it/s, Materializing param=model.layers.22.self_attn.q_b_proj.weight]Loading weights:  49%|█████████████████████████████████████████████████████████▌                                                            | 366/751 [01:57<02:33,  2.50it/s, Materializing param=model.layers.22.self_attn.q_b_proj.weight]Loading weights:  49%|███████████████████████████████████████████████████████████▏                                                             | 367/751 [01:57<02:33,  2.50it/s, Materializing param=model.layers.23.input_layernorm.weight]Loading weights:  49%|███████████████████████████████████████████████████████████▏                                                             | 367/751 [01:57<02:33,  2.50it/s, Materializing param=model.layers.23.input_layernorm.weight]Loading weights:  49%|███████████████████████████████████████████████████████████▊                                                              | 368/751 [01:57<02:33,  2.50it/s, Materializing param=model.layers.23.mlp.experts.down_proj]Loading weights:  49%|███████████████████████████████████████████████████████████▊                                                              | 368/751 [01:57<02:33,  2.50it/s, Materializing param=model.layers.23.mlp.experts.down_proj]Loading weights:  49%|███████████████████████████████████████████████████████████▉                                                              | 369/751 [01:58<01:39,  3.85it/s, Materializing param=model.layers.23.mlp.experts.down_proj]Loading weights:  49%|███████████████████████████████████████████████████████████▉                                                              | 369/751 [01:58<01:38,  3.86it/s, Materializing param=model.layers.23.mlp.experts.down_proj]Loading weights:  49%|██████████████████████████████████████████████████████████▍                                                            | 369/751 [01:58<01:39,  3.85it/s, Materializing param=model.layers.23.mlp.experts.gate_up_proj]Loading weights:  49%|██████████████████████████████████████████████████████████▍                                                            | 369/751 [01:58<01:38,  3.86it/s, Materializing param=model.layers.23.mlp.experts.gate_up_proj]Loading weights:  49%|██████████████████████████████████████████████████████████▍                                                            | 369/751 [01:58<01:39,  3.85it/s, Materializing param=model.layers.23.mlp.experts.gate_up_proj]Loading weights:  49%|██████████████████████████████████████████████████████████▍                                                            | 369/751 [01:58<01:38,  3.86it/s, Materializing param=model.layers.23.mlp.experts.gate_up_proj]Loading weights:  49%|██████████████████████████████████████████████████████████▋                                                            | 370/751 [02:02<02:32,  2.49it/s, Materializing param=model.layers.23.mlp.experts.gate_up_proj]Loading weights:  49%|██████████████████████████████████████████████████████▋                                                        | 370/751 [02:02<02:32,  2.49it/s, Materializing param=model.layers.23.mlp.gate.e_score_correction_bias]Loading weights:  49%|██████████████████████████████████████████████████████▋                                                        | 370/751 [02:02<02:32,  2.49it/s, Materializing param=model.layers.23.mlp.gate.e_score_correction_bias]Loading weights:  49%|███████████████████████████████████████████████████████████████▏                                                                | 371/751 [02:02<02:32,  2.49it/s, Materializing param=model.layers.23.mlp.gate.weight]Loading weights:  49%|███████████████████████████████████████████████████████████████▏                                                                | 371/751 [02:02<02:32,  2.49it/s, Materializing param=model.layers.23.mlp.gate.weight]Loading weights:  50%|█████████████████████████████████████████████████████▍                                                      | 372/751 [02:02<02:31,  2.49it/s, Materializing param=model.layers.23.mlp.shared_experts.down_proj.weight]Loading weights:  50%|█████████████████████████████████████████████████████▍                                                      | 372/751 [02:02<02:31,  2.49it/s, Materializing param=model.layers.23.mlp.shared_experts.down_proj.weight]Loading weights:  50%|█████████████████████████████████████████████████████▋                                                      | 373/751 [02:02<02:31,  2.49it/s, Materializing param=model.layers.23.mlp.shared_experts.gate_proj.weight]Loading weights:  50%|█████████████████████████████████████████████████████▋                                                      | 373/751 [02:02<02:31,  2.49it/s, Materializing param=model.layers.23.mlp.shared_experts.gate_proj.weight]Loading weights:  50%|██████████████████████████████████████████████████████▊                                                       | 374/751 [02:02<02:31,  2.49it/s, Materializing param=model.layers.23.mlp.shared_experts.up_proj.weight]Loading weights:  50%|██████████████████████████████████████████████████████▊                                                       | 374/751 [02:02<02:31,  2.49it/s, Materializing param=model.layers.23.mlp.shared_experts.up_proj.weight]Loading weights:  50%|███████████████████████████████████████████████████████▉                                                        | 375/751 [02:02<02:30,  2.49it/s, Materializing param=model.layers.23.post_attention_layernorm.weight]Loading weights:  50%|███████████████████████████████████████████████████████▉                                                        | 375/751 [02:02<02:30,  2.49it/s, Materializing param=model.layers.23.post_attention_layernorm.weight]Loading weights:  50%|████████████████████████████████████████████████████████                                                        | 376/751 [02:02<02:30,  2.49it/s, Materializing param=model.layers.23.self_attn.kv_a_layernorm.weight]Loading weights:  50%|████████████████████████████████████████████████████████                                                        | 376/751 [02:02<02:30,  2.49it/s, Materializing param=model.layers.23.self_attn.kv_a_layernorm.weight]Loading weights:  50%|██████████████████████████████████████████████████████▏                                                     | 377/751 [02:02<02:29,  2.49it/s, Materializing param=model.layers.23.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  49%|██████████████████████████████████████████████████████████▋                                                            | 370/751 [02:02<02:33,  2.49it/s, Materializing param=model.layers.23.mlp.experts.gate_up_proj]Loading weights:  50%|██████████████████████████████████████████████████████▏                                                     | 377/751 [02:02<02:29,  2.49it/s, Materializing param=model.layers.23.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  49%|██████████████████████████████████████████████████████▋                                                        | 370/751 [02:02<02:33,  2.49it/s, Materializing param=model.layers.23.mlp.gate.e_score_correction_bias]Loading weights:  50%|██████████████████████████████████████████████████████████▉                                                          | 378/751 [02:02<02:29,  2.49it/s, Materializing param=model.layers.23.self_attn.kv_b_proj.weight]Loading weights:  49%|██████████████████████████████████████████████████████▋                                                        | 370/751 [02:02<02:33,  2.49it/s, Materializing param=model.layers.23.mlp.gate.e_score_correction_bias]Loading weights:  50%|██████████████████████████████████████████████████████████▉                                                          | 378/751 [02:02<02:29,  2.49it/s, Materializing param=model.layers.23.self_attn.kv_b_proj.weight]Loading weights:  50%|████████████████████████████████████████████████████████████▌                                                           | 379/751 [02:02<02:29,  2.49it/s, Materializing param=model.layers.23.self_attn.o_proj.weight]Loading weights:  49%|███████████████████████████████████████████████████████████████▏                                                                | 371/751 [02:02<02:32,  2.49it/s, Materializing param=model.layers.23.mlp.gate.weight]Loading weights:  50%|████████████████████████████████████████████████████████████▌                                                           | 379/751 [02:02<02:29,  2.49it/s, Materializing param=model.layers.23.self_attn.o_proj.weight]Loading weights:  49%|███████████████████████████████████████████████████████████████▏                                                                | 371/751 [02:02<02:32,  2.49it/s, Materializing param=model.layers.23.mlp.gate.weight]Loading weights:  51%|█████████████████████████████████████████████████████████▏                                                       | 380/751 [02:02<02:28,  2.49it/s, Materializing param=model.layers.23.self_attn.q_a_layernorm.weight]Loading weights:  50%|█████████████████████████████████████████████████████▍                                                      | 372/751 [02:02<02:32,  2.49it/s, Materializing param=model.layers.23.mlp.shared_experts.down_proj.weight]Loading weights:  51%|█████████████████████████████████████████████████████████▏                                                       | 380/751 [02:02<02:28,  2.49it/s, Materializing param=model.layers.23.self_attn.q_a_layernorm.weight]Loading weights:  50%|█████████████████████████████████████████████████████▍                                                      | 372/751 [02:02<02:32,  2.49it/s, Materializing param=model.layers.23.mlp.shared_experts.down_proj.weight]Loading weights:  51%|███████████████████████████████████████████████████████████▊                                                          | 381/751 [02:02<02:28,  2.49it/s, Materializing param=model.layers.23.self_attn.q_a_proj.weight]Loading weights:  50%|█████████████████████████████████████████████████████▋                                                      | 373/751 [02:02<02:32,  2.49it/s, Materializing param=model.layers.23.mlp.shared_experts.gate_proj.weight]Loading weights:  50%|█████████████████████████████████████████████████████▋                                                      | 373/751 [02:02<02:32,  2.49it/s, Materializing param=model.layers.23.mlp.shared_experts.gate_proj.weight]Loading weights:  51%|███████████████████████████████████████████████████████████▊                                                          | 381/751 [02:02<02:28,  2.49it/s, Materializing param=model.layers.23.self_attn.q_a_proj.weight]Loading weights:  50%|██████████████████████████████████████████████████████▊                                                       | 374/751 [02:02<02:31,  2.49it/s, Materializing param=model.layers.23.mlp.shared_experts.up_proj.weight]Loading weights:  51%|████████████████████████████████████████████████████████████                                                          | 382/751 [02:02<02:27,  2.49it/s, Materializing param=model.layers.23.self_attn.q_b_proj.weight]Loading weights:  50%|██████████████████████████████████████████████████████▊                                                       | 374/751 [02:02<02:31,  2.49it/s, Materializing param=model.layers.23.mlp.shared_experts.up_proj.weight]Loading weights:  51%|████████████████████████████████████████████████████████████                                                          | 382/751 [02:02<02:27,  2.49it/s, Materializing param=model.layers.23.self_attn.q_b_proj.weight]Loading weights:  50%|███████████████████████████████████████████████████████▉                                                        | 375/751 [02:02<02:31,  2.49it/s, Materializing param=model.layers.23.post_attention_layernorm.weight]Loading weights:  50%|███████████████████████████████████████████████████████▉                                                        | 375/751 [02:02<02:31,  2.49it/s, Materializing param=model.layers.23.post_attention_layernorm.weight]Loading weights:  51%|█████████████████████████████████████████████████████████████▋                                                           | 383/751 [02:02<02:27,  2.49it/s, Materializing param=model.layers.24.input_layernorm.weight]Loading weights:  50%|████████████████████████████████████████████████████████                                                        | 376/751 [02:02<02:30,  2.49it/s, Materializing param=model.layers.23.self_attn.kv_a_layernorm.weight]Loading weights:  51%|█████████████████████████████████████████████████████████████▋                                                           | 383/751 [02:02<02:27,  2.49it/s, Materializing param=model.layers.24.input_layernorm.weight]Loading weights:  50%|████████████████████████████████████████████████████████                                                        | 376/751 [02:02<02:30,  2.49it/s, Materializing param=model.layers.23.self_attn.kv_a_layernorm.weight]Loading weights:  51%|██████████████████████████████████████████████████████████████▍                                                           | 384/751 [02:02<02:27,  2.49it/s, Materializing param=model.layers.24.mlp.experts.down_proj]Loading weights:  50%|██████████████████████████████████████████████████████▏                                                     | 377/751 [02:02<02:30,  2.49it/s, Materializing param=model.layers.23.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  51%|██████████████████████████████████████████████████████████████▍                                                           | 384/751 [02:02<02:27,  2.49it/s, Materializing param=model.layers.24.mlp.experts.down_proj]Loading weights:  50%|██████████████████████████████████████████████████████▏                                                     | 377/751 [02:02<02:30,  2.49it/s, Materializing param=model.layers.23.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  50%|██████████████████████████████████████████████████████████▉                                                          | 378/751 [02:02<02:30,  2.49it/s, Materializing param=model.layers.23.self_attn.kv_b_proj.weight]Loading weights:  50%|██████████████████████████████████████████████████████████▉                                                          | 378/751 [02:02<02:30,  2.49it/s, Materializing param=model.layers.23.self_attn.kv_b_proj.weight]Loading weights:  50%|████████████████████████████████████████████████████████████▌                                                           | 379/751 [02:02<02:29,  2.49it/s, Materializing param=model.layers.23.self_attn.o_proj.weight]Loading weights:  50%|████████████████████████████████████████████████████████████▌                                                           | 379/751 [02:02<02:29,  2.49it/s, Materializing param=model.layers.23.self_attn.o_proj.weight]Loading weights:  51%|█████████████████████████████████████████████████████████▏                                                       | 380/751 [02:02<02:29,  2.49it/s, Materializing param=model.layers.23.self_attn.q_a_layernorm.weight]Loading weights:  51%|█████████████████████████████████████████████████████████▏                                                       | 380/751 [02:02<02:29,  2.49it/s, Materializing param=model.layers.23.self_attn.q_a_layernorm.weight]Loading weights:  51%|███████████████████████████████████████████████████████████▊                                                          | 381/751 [02:02<02:28,  2.49it/s, Materializing param=model.layers.23.self_attn.q_a_proj.weight]Loading weights:  51%|███████████████████████████████████████████████████████████▊                                                          | 381/751 [02:02<02:28,  2.49it/s, Materializing param=model.layers.23.self_attn.q_a_proj.weight]Loading weights:  51%|████████████████████████████████████████████████████████████                                                          | 382/751 [02:02<02:28,  2.49it/s, Materializing param=model.layers.23.self_attn.q_b_proj.weight]Loading weights:  51%|████████████████████████████████████████████████████████████                                                          | 382/751 [02:02<02:28,  2.49it/s, Materializing param=model.layers.23.self_attn.q_b_proj.weight]Loading weights:  51%|█████████████████████████████████████████████████████████████▋                                                           | 383/751 [02:02<02:28,  2.49it/s, Materializing param=model.layers.24.input_layernorm.weight]Loading weights:  51%|█████████████████████████████████████████████████████████████▋                                                           | 383/751 [02:02<02:28,  2.49it/s, Materializing param=model.layers.24.input_layernorm.weight]Loading weights:  51%|██████████████████████████████████████████████████████████████▍                                                           | 384/751 [02:02<02:27,  2.49it/s, Materializing param=model.layers.24.mlp.experts.down_proj]Loading weights:  51%|██████████████████████████████████████████████████████████████▍                                                           | 384/751 [02:02<02:27,  2.49it/s, Materializing param=model.layers.24.mlp.experts.down_proj]Loading weights:  51%|██████████████████████████████████████████████████████████████▌                                                           | 385/751 [02:04<01:35,  3.84it/s, Materializing param=model.layers.24.mlp.experts.down_proj]Loading weights:  51%|██████████████████████████████████████████████████████████████▌                                                           | 385/751 [02:04<01:35,  3.85it/s, Materializing param=model.layers.24.mlp.experts.down_proj]Loading weights:  51%|█████████████████████████████████████████████████████████████                                                          | 385/751 [02:04<01:35,  3.84it/s, Materializing param=model.layers.24.mlp.experts.gate_up_proj]Loading weights:  51%|█████████████████████████████████████████████████████████████                                                          | 385/751 [02:04<01:35,  3.85it/s, Materializing param=model.layers.24.mlp.experts.gate_up_proj]Loading weights:  51%|█████████████████████████████████████████████████████████████                                                          | 385/751 [02:04<01:35,  3.84it/s, Materializing param=model.layers.24.mlp.experts.gate_up_proj]Loading weights:  51%|█████████████████████████████████████████████████████████████                                                          | 385/751 [02:04<01:35,  3.85it/s, Materializing param=model.layers.24.mlp.experts.gate_up_proj]Loading weights:  51%|█████████████████████████████████████████████████████████████▏                                                         | 386/751 [02:07<02:30,  2.42it/s, Materializing param=model.layers.24.mlp.experts.gate_up_proj]Loading weights:  51%|█████████████████████████████████████████████████████████                                                      | 386/751 [02:07<02:30,  2.42it/s, Materializing param=model.layers.24.mlp.gate.e_score_correction_bias]Loading weights:  51%|█████████████████████████████████████████████████████████                                                      | 386/751 [02:07<02:30,  2.42it/s, Materializing param=model.layers.24.mlp.gate.e_score_correction_bias]Loading weights:  52%|█████████████████████████████████████████████████████████████████▉                                                              | 387/751 [02:07<02:30,  2.42it/s, Materializing param=model.layers.24.mlp.gate.weight]Loading weights:  52%|█████████████████████████████████████████████████████████████████▉                                                              | 387/751 [02:07<02:30,  2.42it/s, Materializing param=model.layers.24.mlp.gate.weight]Loading weights:  52%|███████████████████████████████████████████████████████▊                                                    | 388/751 [02:07<02:29,  2.42it/s, Materializing param=model.layers.24.mlp.shared_experts.down_proj.weight]Loading weights:  52%|███████████████████████████████████████████████████████▊                                                    | 388/751 [02:07<02:29,  2.42it/s, Materializing param=model.layers.24.mlp.shared_experts.down_proj.weight]Loading weights:  52%|███████████████████████████████████████████████████████▉                                                    | 389/751 [02:07<02:29,  2.42it/s, Materializing param=model.layers.24.mlp.shared_experts.gate_proj.weight]Loading weights:  52%|███████████████████████████████████████████████████████▉                                                    | 389/751 [02:07<02:29,  2.42it/s, Materializing param=model.layers.24.mlp.shared_experts.gate_proj.weight]Loading weights:  52%|█████████████████████████████████████████████████████████                                                     | 390/751 [02:07<02:28,  2.42it/s, Materializing param=model.layers.24.mlp.shared_experts.up_proj.weight]Loading weights:  52%|█████████████████████████████████████████████████████████                                                     | 390/751 [02:07<02:28,  2.42it/s, Materializing param=model.layers.24.mlp.shared_experts.up_proj.weight]Loading weights:  52%|██████████████████████████████████████████████████████████▎                                                     | 391/751 [02:07<02:28,  2.42it/s, Materializing param=model.layers.24.post_attention_layernorm.weight]Loading weights:  52%|██████████████████████████████████████████████████████████▎                                                     | 391/751 [02:07<02:28,  2.42it/s, Materializing param=model.layers.24.post_attention_layernorm.weight]Loading weights:  52%|██████████████████████████████████████████████████████████▍                                                     | 392/751 [02:07<02:28,  2.42it/s, Materializing param=model.layers.24.self_attn.kv_a_layernorm.weight]Loading weights:  52%|██████████████████████████████████████████████████████████▍                                                     | 392/751 [02:07<02:28,  2.42it/s, Materializing param=model.layers.24.self_attn.kv_a_layernorm.weight]Loading weights:  52%|████████████████████████████████████████████████████████▌                                                   | 393/751 [02:07<02:27,  2.42it/s, Materializing param=model.layers.24.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  52%|████████████████████████████████████████████████████████▌                                                   | 393/751 [02:07<02:27,  2.42it/s, Materializing param=model.layers.24.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  52%|█████████████████████████████████████████████████████████████▍                                                       | 394/751 [02:07<02:27,  2.42it/s, Materializing param=model.layers.24.self_attn.kv_b_proj.weight]Loading weights:  52%|█████████████████████████████████████████████████████████████▍                                                       | 394/751 [02:07<02:27,  2.42it/s, Materializing param=model.layers.24.self_attn.kv_b_proj.weight]Loading weights:  53%|███████████████████████████████████████████████████████████████                                                         | 395/751 [02:07<02:26,  2.42it/s, Materializing param=model.layers.24.self_attn.o_proj.weight]Loading weights:  53%|███████████████████████████████████████████████████████████████                                                         | 395/751 [02:07<02:26,  2.42it/s, Materializing param=model.layers.24.self_attn.o_proj.weight]Loading weights:  53%|███████████████████████████████████████████████████████████▌                                                     | 396/751 [02:07<02:26,  2.42it/s, Materializing param=model.layers.24.self_attn.q_a_layernorm.weight]Loading weights:  53%|███████████████████████████████████████████████████████████▌                                                     | 396/751 [02:07<02:26,  2.42it/s, Materializing param=model.layers.24.self_attn.q_a_layernorm.weight]Loading weights:  53%|██████████████████████████████████████████████████████████████▍                                                       | 397/751 [02:07<02:26,  2.42it/s, Materializing param=model.layers.24.self_attn.q_a_proj.weight]Loading weights:  53%|██████████████████████████████████████████████████████████████▍                                                       | 397/751 [02:07<02:26,  2.42it/s, Materializing param=model.layers.24.self_attn.q_a_proj.weight]Loading weights:  53%|██████████████████████████████████████████████████████████████▌                                                       | 398/751 [02:07<02:25,  2.42it/s, Materializing param=model.layers.24.self_attn.q_b_proj.weight]Loading weights:  53%|██████████████████████████████████████████████████████████████▌                                                       | 398/751 [02:07<02:25,  2.42it/s, Materializing param=model.layers.24.self_attn.q_b_proj.weight]Loading weights:  53%|████████████████████████████████████████████████████████████████▎                                                        | 399/751 [02:07<02:25,  2.42it/s, Materializing param=model.layers.25.input_layernorm.weight]Loading weights:  53%|████████████████████████████████████████████████████████████████▎                                                        | 399/751 [02:07<02:25,  2.42it/s, Materializing param=model.layers.25.input_layernorm.weight]Loading weights:  53%|████████████████████████████████████████████████████████████████▉                                                         | 400/751 [02:07<02:24,  2.42it/s, Materializing param=model.layers.25.mlp.experts.down_proj]Loading weights:  53%|████████████████████████████████████████████████████████████████▉                                                         | 400/751 [02:07<02:24,  2.42it/s, Materializing param=model.layers.25.mlp.experts.down_proj]Loading weights:  51%|█████████████████████████████████████████████████████████████▏                                                         | 386/751 [02:07<02:30,  2.42it/s, Materializing param=model.layers.24.mlp.experts.gate_up_proj]Loading weights:  51%|█████████████████████████████████████████████████████████                                                      | 386/751 [02:07<02:30,  2.42it/s, Materializing param=model.layers.24.mlp.gate.e_score_correction_bias]Loading weights:  51%|█████████████████████████████████████████████████████████                                                      | 386/751 [02:07<02:30,  2.42it/s, Materializing param=model.layers.24.mlp.gate.e_score_correction_bias]Loading weights:  52%|█████████████████████████████████████████████████████████████████▉                                                              | 387/751 [02:07<02:30,  2.42it/s, Materializing param=model.layers.24.mlp.gate.weight]Loading weights:  52%|█████████████████████████████████████████████████████████████████▉                                                              | 387/751 [02:07<02:30,  2.42it/s, Materializing param=model.layers.24.mlp.gate.weight]Loading weights:  52%|███████████████████████████████████████████████████████▊                                                    | 388/751 [02:07<02:30,  2.42it/s, Materializing param=model.layers.24.mlp.shared_experts.down_proj.weight]Loading weights:  52%|███████████████████████████████████████████████████████▊                                                    | 388/751 [02:07<02:30,  2.42it/s, Materializing param=model.layers.24.mlp.shared_experts.down_proj.weight]Loading weights:  52%|███████████████████████████████████████████████████████▉                                                    | 389/751 [02:07<02:29,  2.42it/s, Materializing param=model.layers.24.mlp.shared_experts.gate_proj.weight]Loading weights:  52%|███████████████████████████████████████████████████████▉                                                    | 389/751 [02:07<02:29,  2.42it/s, Materializing param=model.layers.24.mlp.shared_experts.gate_proj.weight]Loading weights:  52%|█████████████████████████████████████████████████████████                                                     | 390/751 [02:07<02:29,  2.42it/s, Materializing param=model.layers.24.mlp.shared_experts.up_proj.weight]Loading weights:  52%|█████████████████████████████████████████████████████████                                                     | 390/751 [02:07<02:29,  2.42it/s, Materializing param=model.layers.24.mlp.shared_experts.up_proj.weight]Loading weights:  52%|██████████████████████████████████████████████████████████▎                                                     | 391/751 [02:07<02:28,  2.42it/s, Materializing param=model.layers.24.post_attention_layernorm.weight]Loading weights:  52%|██████████████████████████████████████████████████████████▎                                                     | 391/751 [02:07<02:28,  2.42it/s, Materializing param=model.layers.24.post_attention_layernorm.weight]Loading weights:  52%|██████████████████████████████████████████████████████████▍                                                     | 392/751 [02:07<02:28,  2.42it/s, Materializing param=model.layers.24.self_attn.kv_a_layernorm.weight]Loading weights:  52%|██████████████████████████████████████████████████████████▍                                                     | 392/751 [02:07<02:28,  2.42it/s, Materializing param=model.layers.24.self_attn.kv_a_layernorm.weight]Loading weights:  52%|████████████████████████████████████████████████████████▌                                                   | 393/751 [02:07<02:28,  2.42it/s, Materializing param=model.layers.24.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  52%|████████████████████████████████████████████████████████▌                                                   | 393/751 [02:07<02:28,  2.42it/s, Materializing param=model.layers.24.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  52%|█████████████████████████████████████████████████████████████▍                                                       | 394/751 [02:07<02:27,  2.42it/s, Materializing param=model.layers.24.self_attn.kv_b_proj.weight]Loading weights:  52%|█████████████████████████████████████████████████████████████▍                                                       | 394/751 [02:07<02:27,  2.42it/s, Materializing param=model.layers.24.self_attn.kv_b_proj.weight]Loading weights:  53%|███████████████████████████████████████████████████████████████                                                         | 395/751 [02:07<02:27,  2.42it/s, Materializing param=model.layers.24.self_attn.o_proj.weight]Loading weights:  53%|███████████████████████████████████████████████████████████████                                                         | 395/751 [02:07<02:27,  2.42it/s, Materializing param=model.layers.24.self_attn.o_proj.weight]Loading weights:  53%|███████████████████████████████████████████████████████████▌                                                     | 396/751 [02:07<02:26,  2.42it/s, Materializing param=model.layers.24.self_attn.q_a_layernorm.weight]Loading weights:  53%|███████████████████████████████████████████████████████████▌                                                     | 396/751 [02:07<02:26,  2.42it/s, Materializing param=model.layers.24.self_attn.q_a_layernorm.weight]Loading weights:  53%|██████████████████████████████████████████████████████████████▍                                                       | 397/751 [02:07<02:26,  2.42it/s, Materializing param=model.layers.24.self_attn.q_a_proj.weight]Loading weights:  53%|██████████████████████████████████████████████████████████████▍                                                       | 397/751 [02:07<02:26,  2.42it/s, Materializing param=model.layers.24.self_attn.q_a_proj.weight]Loading weights:  53%|██████████████████████████████████████████████████████████████▌                                                       | 398/751 [02:07<02:25,  2.42it/s, Materializing param=model.layers.24.self_attn.q_b_proj.weight]Loading weights:  53%|██████████████████████████████████████████████████████████████▌                                                       | 398/751 [02:07<02:25,  2.42it/s, Materializing param=model.layers.24.self_attn.q_b_proj.weight]Loading weights:  53%|████████████████████████████████████████████████████████████████▎                                                        | 399/751 [02:07<02:25,  2.42it/s, Materializing param=model.layers.25.input_layernorm.weight]Loading weights:  53%|████████████████████████████████████████████████████████████████▎                                                        | 399/751 [02:07<02:25,  2.42it/s, Materializing param=model.layers.25.input_layernorm.weight]Loading weights:  53%|████████████████████████████████████████████████████████████████▉                                                         | 400/751 [02:07<02:25,  2.42it/s, Materializing param=model.layers.25.mlp.experts.down_proj]Loading weights:  53%|████████████████████████████████████████████████████████████████▉                                                         | 400/751 [02:07<02:25,  2.42it/s, Materializing param=model.layers.25.mlp.experts.down_proj]Loading weights:  53%|█████████████████████████████████████████████████████████████████▏                                                        | 401/751 [02:09<01:32,  3.78it/s, Materializing param=model.layers.25.mlp.experts.down_proj]Loading weights:  53%|█████████████████████████████████████████████████████████████████▏                                                        | 401/751 [02:09<01:32,  3.78it/s, Materializing param=model.layers.25.mlp.experts.down_proj]Loading weights:  53%|███████████████████████████████████████████████████████████████▌                                                       | 401/751 [02:09<01:32,  3.78it/s, Materializing param=model.layers.25.mlp.experts.gate_up_proj]Loading weights:  53%|███████████████████████████████████████████████████████████████▌                                                       | 401/751 [02:09<01:32,  3.78it/s, Materializing param=model.layers.25.mlp.experts.gate_up_proj]Loading weights:  53%|███████████████████████████████████████████████████████████████▌                                                       | 401/751 [02:09<01:32,  3.78it/s, Materializing param=model.layers.25.mlp.experts.gate_up_proj]Loading weights:  53%|███████████████████████████████████████████████████████████████▌                                                       | 401/751 [02:09<01:32,  3.78it/s, Materializing param=model.layers.25.mlp.experts.gate_up_proj]Loading weights:  54%|███████████████████████████████████████████████████████████████▋                                                       | 402/751 [02:12<02:20,  2.48it/s, Materializing param=model.layers.25.mlp.experts.gate_up_proj]Loading weights:  54%|███████████████████████████████████████████████████████████▍                                                   | 402/751 [02:12<02:20,  2.48it/s, Materializing param=model.layers.25.mlp.gate.e_score_correction_bias]Loading weights:  54%|███████████████████████████████████████████████████████████▍                                                   | 402/751 [02:12<02:20,  2.48it/s, Materializing param=model.layers.25.mlp.gate.e_score_correction_bias]Loading weights:  54%|████████████████████████████████████████████████████████████████████▋                                                           | 403/751 [02:12<02:20,  2.48it/s, Materializing param=model.layers.25.mlp.gate.weight]Loading weights:  54%|████████████████████████████████████████████████████████████████████▋                                                           | 403/751 [02:12<02:20,  2.48it/s, Materializing param=model.layers.25.mlp.gate.weight]Loading weights:  54%|██████████████████████████████████████████████████████████                                                  | 404/751 [02:12<02:19,  2.48it/s, Materializing param=model.layers.25.mlp.shared_experts.down_proj.weight]Loading weights:  54%|██████████████████████████████████████████████████████████                                                  | 404/751 [02:12<02:19,  2.48it/s, Materializing param=model.layers.25.mlp.shared_experts.down_proj.weight]Loading weights:  54%|██████████████████████████████████████████████████████████▏                                                 | 405/751 [02:12<02:19,  2.48it/s, Materializing param=model.layers.25.mlp.shared_experts.gate_proj.weight]Loading weights:  54%|██████████████████████████████████████████████████████████▏                                                 | 405/751 [02:12<02:19,  2.48it/s, Materializing param=model.layers.25.mlp.shared_experts.gate_proj.weight]Loading weights:  54%|███████████████████████████████████████████████████████████▍                                                  | 406/751 [02:12<02:19,  2.48it/s, Materializing param=model.layers.25.mlp.shared_experts.up_proj.weight]Loading weights:  54%|███████████████████████████████████████████████████████████▍                                                  | 406/751 [02:12<02:19,  2.48it/s, Materializing param=model.layers.25.mlp.shared_experts.up_proj.weight]Loading weights:  54%|████████████████████████████████████████████████████████████▋                                                   | 407/751 [02:12<02:18,  2.48it/s, Materializing param=model.layers.25.post_attention_layernorm.weight]Loading weights:  54%|████████████████████████████████████████████████████████████▋                                                   | 407/751 [02:12<02:18,  2.48it/s, Materializing param=model.layers.25.post_attention_layernorm.weight]Loading weights:  54%|████████████████████████████████████████████████████████████▊                                                   | 408/751 [02:12<02:18,  2.48it/s, Materializing param=model.layers.25.self_attn.kv_a_layernorm.weight]Loading weights:  54%|████████████████████████████████████████████████████████████▊                                                   | 408/751 [02:12<02:18,  2.48it/s, Materializing param=model.layers.25.self_attn.kv_a_layernorm.weight]Loading weights:  54%|██████████████████████████████████████████████████████████▊                                                 | 409/751 [02:12<02:17,  2.48it/s, Materializing param=model.layers.25.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  54%|██████████████████████████████████████████████████████████▊                                                 | 409/751 [02:12<02:17,  2.48it/s, Materializing param=model.layers.25.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  55%|███████████████████████████████████████████████████████████████▊                                                     | 410/751 [02:12<02:17,  2.48it/s, Materializing param=model.layers.25.self_attn.kv_b_proj.weight]Loading weights:  55%|███████████████████████████████████████████████████████████████▊                                                     | 410/751 [02:12<02:17,  2.48it/s, Materializing param=model.layers.25.self_attn.kv_b_proj.weight]Loading weights:  55%|█████████████████████████████████████████████████████████████████▋                                                      | 411/751 [02:12<02:17,  2.48it/s, Materializing param=model.layers.25.self_attn.o_proj.weight]Loading weights:  55%|█████████████████████████████████████████████████████████████████▋                                                      | 411/751 [02:12<02:17,  2.48it/s, Materializing param=model.layers.25.self_attn.o_proj.weight]Loading weights:  55%|█████████████████████████████████████████████████████████████▉                                                   | 412/751 [02:12<02:16,  2.48it/s, Materializing param=model.layers.25.self_attn.q_a_layernorm.weight]Loading weights:  55%|█████████████████████████████████████████████████████████████▉                                                   | 412/751 [02:12<02:16,  2.48it/s, Materializing param=model.layers.25.self_attn.q_a_layernorm.weight]Loading weights:  55%|████████████████████████████████████████████████████████████████▉                                                     | 413/751 [02:12<02:16,  2.48it/s, Materializing param=model.layers.25.self_attn.q_a_proj.weight]Loading weights:  55%|████████████████████████████████████████████████████████████████▉                                                     | 413/751 [02:12<02:16,  2.48it/s, Materializing param=model.layers.25.self_attn.q_a_proj.weight]Loading weights:  55%|█████████████████████████████████████████████████████████████████                                                     | 414/751 [02:12<02:15,  2.48it/s, Materializing param=model.layers.25.self_attn.q_b_proj.weight]Loading weights:  55%|█████████████████████████████████████████████████████████████████                                                     | 414/751 [02:12<02:15,  2.48it/s, Materializing param=model.layers.25.self_attn.q_b_proj.weight]Loading weights:  55%|██████████████████████████████████████████████████████████████████▊                                                      | 415/751 [02:12<02:15,  2.48it/s, Materializing param=model.layers.26.input_layernorm.weight]Loading weights:  55%|██████████████████████████████████████████████████████████████████▊                                                      | 415/751 [02:12<02:15,  2.48it/s, Materializing param=model.layers.26.input_layernorm.weight]Loading weights:  55%|███████████████████████████████████████████████████████████████████▌                                                      | 416/751 [02:12<02:15,  2.48it/s, Materializing param=model.layers.26.mlp.experts.down_proj]Loading weights:  55%|███████████████████████████████████████████████████████████████████▌                                                      | 416/751 [02:12<02:15,  2.48it/s, Materializing param=model.layers.26.mlp.experts.down_proj]Loading weights:  54%|███████████████████████████████████████████████████████████████▋                                                       | 402/751 [02:12<02:20,  2.48it/s, Materializing param=model.layers.25.mlp.experts.gate_up_proj]Loading weights:  54%|███████████████████████████████████████████████████████████▍                                                   | 402/751 [02:12<02:20,  2.48it/s, Materializing param=model.layers.25.mlp.gate.e_score_correction_bias]Loading weights:  54%|███████████████████████████████████████████████████████████▍                                                   | 402/751 [02:12<02:20,  2.48it/s, Materializing param=model.layers.25.mlp.gate.e_score_correction_bias]Loading weights:  54%|████████████████████████████████████████████████████████████████████▋                                                           | 403/751 [02:12<02:20,  2.48it/s, Materializing param=model.layers.25.mlp.gate.weight]Loading weights:  54%|████████████████████████████████████████████████████████████████████▋                                                           | 403/751 [02:12<02:20,  2.48it/s, Materializing param=model.layers.25.mlp.gate.weight]Loading weights:  54%|██████████████████████████████████████████████████████████                                                  | 404/751 [02:12<02:19,  2.48it/s, Materializing param=model.layers.25.mlp.shared_experts.down_proj.weight]Loading weights:  54%|██████████████████████████████████████████████████████████                                                  | 404/751 [02:12<02:19,  2.48it/s, Materializing param=model.layers.25.mlp.shared_experts.down_proj.weight]Loading weights:  54%|██████████████████████████████████████████████████████████▏                                                 | 405/751 [02:12<02:19,  2.48it/s, Materializing param=model.layers.25.mlp.shared_experts.gate_proj.weight]Loading weights:  54%|██████████████████████████████████████████████████████████▏                                                 | 405/751 [02:12<02:19,  2.48it/s, Materializing param=model.layers.25.mlp.shared_experts.gate_proj.weight]Loading weights:  54%|███████████████████████████████████████████████████████████▍                                                  | 406/751 [02:12<02:18,  2.48it/s, Materializing param=model.layers.25.mlp.shared_experts.up_proj.weight]Loading weights:  54%|███████████████████████████████████████████████████████████▍                                                  | 406/751 [02:12<02:18,  2.48it/s, Materializing param=model.layers.25.mlp.shared_experts.up_proj.weight]Loading weights:  54%|████████████████████████████████████████████████████████████▋                                                   | 407/751 [02:12<02:18,  2.48it/s, Materializing param=model.layers.25.post_attention_layernorm.weight]Loading weights:  54%|████████████████████████████████████████████████████████████▋                                                   | 407/751 [02:12<02:18,  2.48it/s, Materializing param=model.layers.25.post_attention_layernorm.weight]Loading weights:  54%|████████████████████████████████████████████████████████████▊                                                   | 408/751 [02:12<02:18,  2.48it/s, Materializing param=model.layers.25.self_attn.kv_a_layernorm.weight]Loading weights:  54%|████████████████████████████████████████████████████████████▊                                                   | 408/751 [02:12<02:18,  2.48it/s, Materializing param=model.layers.25.self_attn.kv_a_layernorm.weight]Loading weights:  54%|██████████████████████████████████████████████████████████▊                                                 | 409/751 [02:12<02:17,  2.48it/s, Materializing param=model.layers.25.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  54%|██████████████████████████████████████████████████████████▊                                                 | 409/751 [02:12<02:17,  2.48it/s, Materializing param=model.layers.25.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  55%|███████████████████████████████████████████████████████████████▊                                                     | 410/751 [02:12<02:17,  2.48it/s, Materializing param=model.layers.25.self_attn.kv_b_proj.weight]Loading weights:  55%|███████████████████████████████████████████████████████████████▊                                                     | 410/751 [02:12<02:17,  2.48it/s, Materializing param=model.layers.25.self_attn.kv_b_proj.weight]Loading weights:  55%|█████████████████████████████████████████████████████████████████▋                                                      | 411/751 [02:12<02:16,  2.48it/s, Materializing param=model.layers.25.self_attn.o_proj.weight]Loading weights:  55%|█████████████████████████████████████████████████████████████████▋                                                      | 411/751 [02:12<02:16,  2.48it/s, Materializing param=model.layers.25.self_attn.o_proj.weight]Loading weights:  55%|█████████████████████████████████████████████████████████████▉                                                   | 412/751 [02:12<02:16,  2.48it/s, Materializing param=model.layers.25.self_attn.q_a_layernorm.weight]Loading weights:  55%|█████████████████████████████████████████████████████████████▉                                                   | 412/751 [02:12<02:16,  2.48it/s, Materializing param=model.layers.25.self_attn.q_a_layernorm.weight]Loading weights:  55%|████████████████████████████████████████████████████████████████▉                                                     | 413/751 [02:12<02:16,  2.48it/s, Materializing param=model.layers.25.self_attn.q_a_proj.weight]Loading weights:  55%|████████████████████████████████████████████████████████████████▉                                                     | 413/751 [02:12<02:16,  2.48it/s, Materializing param=model.layers.25.self_attn.q_a_proj.weight]Loading weights:  55%|█████████████████████████████████████████████████████████████████                                                     | 414/751 [02:12<02:15,  2.48it/s, Materializing param=model.layers.25.self_attn.q_b_proj.weight]Loading weights:  55%|█████████████████████████████████████████████████████████████████                                                     | 414/751 [02:12<02:15,  2.48it/s, Materializing param=model.layers.25.self_attn.q_b_proj.weight]Loading weights:  55%|██████████████████████████████████████████████████████████████████▊                                                      | 415/751 [02:12<02:15,  2.48it/s, Materializing param=model.layers.26.input_layernorm.weight]Loading weights:  55%|██████████████████████████████████████████████████████████████████▊                                                      | 415/751 [02:12<02:15,  2.48it/s, Materializing param=model.layers.26.input_layernorm.weight]Loading weights:  55%|███████████████████████████████████████████████████████████████████▌                                                      | 416/751 [02:12<02:14,  2.48it/s, Materializing param=model.layers.26.mlp.experts.down_proj]Loading weights:  55%|███████████████████████████████████████████████████████████████████▌                                                      | 416/751 [02:12<02:14,  2.48it/s, Materializing param=model.layers.26.mlp.experts.down_proj]Loading weights:  56%|███████████████████████████████████████████████████████████████████▋                                                      | 417/751 [02:14<01:26,  3.85it/s, Materializing param=model.layers.26.mlp.experts.down_proj]Loading weights:  56%|███████████████████████████████████████████████████████████████████▋                                                      | 417/751 [02:14<01:26,  3.85it/s, Materializing param=model.layers.26.mlp.experts.down_proj]Loading weights:  56%|██████████████████████████████████████████████████████████████████                                                     | 417/751 [02:14<01:26,  3.85it/s, Materializing param=model.layers.26.mlp.experts.gate_up_proj]Loading weights:  56%|██████████████████████████████████████████████████████████████████                                                     | 417/751 [02:14<01:26,  3.85it/s, Materializing param=model.layers.26.mlp.experts.gate_up_proj]Loading weights:  56%|██████████████████████████████████████████████████████████████████                                                     | 417/751 [02:14<01:26,  3.85it/s, Materializing param=model.layers.26.mlp.experts.gate_up_proj]Loading weights:  56%|██████████████████████████████████████████████████████████████████                                                     | 417/751 [02:14<01:26,  3.85it/s, Materializing param=model.layers.26.mlp.experts.gate_up_proj]Loading weights:  56%|██████████████████████████████████████████████████████████████████▏                                                    | 418/751 [02:17<02:13,  2.50it/s, Materializing param=model.layers.26.mlp.experts.gate_up_proj]Loading weights:  56%|█████████████████████████████████████████████████████████████▊                                                 | 418/751 [02:17<02:13,  2.50it/s, Materializing param=model.layers.26.mlp.gate.e_score_correction_bias]Loading weights:  56%|█████████████████████████████████████████████████████████████▊                                                 | 418/751 [02:17<02:13,  2.50it/s, Materializing param=model.layers.26.mlp.gate.e_score_correction_bias]Loading weights:  56%|███████████████████████████████████████████████████████████████████████▍                                                        | 419/751 [02:17<02:12,  2.50it/s, Materializing param=model.layers.26.mlp.gate.weight]Loading weights:  56%|███████████████████████████████████████████████████████████████████████▍                                                        | 419/751 [02:17<02:12,  2.50it/s, Materializing param=model.layers.26.mlp.gate.weight]Loading weights:  56%|████████████████████████████████████████████████████████████▍                                               | 420/751 [02:17<02:12,  2.50it/s, Materializing param=model.layers.26.mlp.shared_experts.down_proj.weight]Loading weights:  56%|████████████████████████████████████████████████████████████▍                                               | 420/751 [02:17<02:12,  2.50it/s, Materializing param=model.layers.26.mlp.shared_experts.down_proj.weight]Loading weights:  56%|████████████████████████████████████████████████████████████▌                                               | 421/751 [02:17<02:11,  2.50it/s, Materializing param=model.layers.26.mlp.shared_experts.gate_proj.weight]Loading weights:  56%|████████████████████████████████████████████████████████████▌                                               | 421/751 [02:17<02:11,  2.50it/s, Materializing param=model.layers.26.mlp.shared_experts.gate_proj.weight]Loading weights:  56%|█████████████████████████████████████████████████████████████▊                                                | 422/751 [02:17<02:11,  2.50it/s, Materializing param=model.layers.26.mlp.shared_experts.up_proj.weight]Loading weights:  56%|█████████████████████████████████████████████████████████████▊                                                | 422/751 [02:17<02:11,  2.50it/s, Materializing param=model.layers.26.mlp.shared_experts.up_proj.weight]Loading weights:  56%|███████████████████████████████████████████████████████████████                                                 | 423/751 [02:17<02:11,  2.50it/s, Materializing param=model.layers.26.post_attention_layernorm.weight]Loading weights:  56%|███████████████████████████████████████████████████████████████                                                 | 423/751 [02:17<02:11,  2.50it/s, Materializing param=model.layers.26.post_attention_layernorm.weight]Loading weights:  56%|███████████████████████████████████████████████████████████████▏                                                | 424/751 [02:17<02:10,  2.50it/s, Materializing param=model.layers.26.self_attn.kv_a_layernorm.weight]Loading weights:  56%|███████████████████████████████████████████████████████████████▏                                                | 424/751 [02:17<02:10,  2.50it/s, Materializing param=model.layers.26.self_attn.kv_a_layernorm.weight]Loading weights:  57%|█████████████████████████████████████████████████████████████                                               | 425/751 [02:17<02:10,  2.50it/s, Materializing param=model.layers.26.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  57%|█████████████████████████████████████████████████████████████                                               | 425/751 [02:17<02:10,  2.50it/s, Materializing param=model.layers.26.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  57%|██████████████████████████████████████████████████████████████████▎                                                  | 426/751 [02:17<02:09,  2.50it/s, Materializing param=model.layers.26.self_attn.kv_b_proj.weight]Loading weights:  57%|██████████████████████████████████████████████████████████████████▎                                                  | 426/751 [02:17<02:09,  2.50it/s, Materializing param=model.layers.26.self_attn.kv_b_proj.weight]Loading weights:  57%|████████████████████████████████████████████████████████████████████▏                                                   | 427/751 [02:17<02:09,  2.50it/s, Materializing param=model.layers.26.self_attn.o_proj.weight]Loading weights:  57%|████████████████████████████████████████████████████████████████████▏                                                   | 427/751 [02:17<02:09,  2.50it/s, Materializing param=model.layers.26.self_attn.o_proj.weight]Loading weights:  57%|████████████████████████████████████████████████████████████████▍                                                | 428/751 [02:17<02:09,  2.50it/s, Materializing param=model.layers.26.self_attn.q_a_layernorm.weight]Loading weights:  57%|████████████████████████████████████████████████████████████████▍                                                | 428/751 [02:17<02:09,  2.50it/s, Materializing param=model.layers.26.self_attn.q_a_layernorm.weight]Loading weights:  57%|███████████████████████████████████████████████████████████████████▍                                                  | 429/751 [02:17<02:08,  2.50it/s, Materializing param=model.layers.26.self_attn.q_a_proj.weight]Loading weights:  57%|███████████████████████████████████████████████████████████████████▍                                                  | 429/751 [02:17<02:08,  2.50it/s, Materializing param=model.layers.26.self_attn.q_a_proj.weight]Loading weights:  57%|███████████████████████████████████████████████████████████████████▌                                                  | 430/751 [02:17<02:08,  2.50it/s, Materializing param=model.layers.26.self_attn.q_b_proj.weight]Loading weights:  57%|███████████████████████████████████████████████████████████████████▌                                                  | 430/751 [02:17<02:08,  2.50it/s, Materializing param=model.layers.26.self_attn.q_b_proj.weight]Loading weights:  57%|█████████████████████████████████████████████████████████████████████▍                                                   | 431/751 [02:17<02:07,  2.50it/s, Materializing param=model.layers.27.input_layernorm.weight]Loading weights:  57%|█████████████████████████████████████████████████████████████████████▍                                                   | 431/751 [02:17<02:07,  2.50it/s, Materializing param=model.layers.27.input_layernorm.weight]Loading weights:  58%|██████████████████████████████████████████████████████████████████████▏                                                   | 432/751 [02:17<02:07,  2.50it/s, Materializing param=model.layers.27.mlp.experts.down_proj]Loading weights:  58%|██████████████████████████████████████████████████████████████████████▏                                                   | 432/751 [02:17<02:07,  2.50it/s, Materializing param=model.layers.27.mlp.experts.down_proj]Loading weights:  56%|██████████████████████████████████████████████████████████████████▏                                                    | 418/751 [02:17<02:13,  2.50it/s, Materializing param=model.layers.26.mlp.experts.gate_up_proj]Loading weights:  56%|█████████████████████████████████████████████████████████████▊                                                 | 418/751 [02:17<02:13,  2.50it/s, Materializing param=model.layers.26.mlp.gate.e_score_correction_bias]Loading weights:  56%|█████████████████████████████████████████████████████████████▊                                                 | 418/751 [02:17<02:13,  2.50it/s, Materializing param=model.layers.26.mlp.gate.e_score_correction_bias]Loading weights:  56%|███████████████████████████████████████████████████████████████████████▍                                                        | 419/751 [02:17<02:12,  2.50it/s, Materializing param=model.layers.26.mlp.gate.weight]Loading weights:  56%|███████████████████████████████████████████████████████████████████████▍                                                        | 419/751 [02:17<02:12,  2.50it/s, Materializing param=model.layers.26.mlp.gate.weight]Loading weights:  56%|████████████████████████████████████████████████████████████▍                                               | 420/751 [02:17<02:12,  2.50it/s, Materializing param=model.layers.26.mlp.shared_experts.down_proj.weight]Loading weights:  56%|████████████████████████████████████████████████████████████▍                                               | 420/751 [02:17<02:12,  2.50it/s, Materializing param=model.layers.26.mlp.shared_experts.down_proj.weight]Loading weights:  56%|████████████████████████████████████████████████████████████▌                                               | 421/751 [02:17<02:11,  2.50it/s, Materializing param=model.layers.26.mlp.shared_experts.gate_proj.weight]Loading weights:  56%|████████████████████████████████████████████████████████████▌                                               | 421/751 [02:17<02:11,  2.50it/s, Materializing param=model.layers.26.mlp.shared_experts.gate_proj.weight]Loading weights:  56%|█████████████████████████████████████████████████████████████▊                                                | 422/751 [02:17<02:11,  2.50it/s, Materializing param=model.layers.26.mlp.shared_experts.up_proj.weight]Loading weights:  56%|█████████████████████████████████████████████████████████████▊                                                | 422/751 [02:17<02:11,  2.50it/s, Materializing param=model.layers.26.mlp.shared_experts.up_proj.weight]Loading weights:  56%|███████████████████████████████████████████████████████████████                                                 | 423/751 [02:17<02:11,  2.50it/s, Materializing param=model.layers.26.post_attention_layernorm.weight]Loading weights:  56%|███████████████████████████████████████████████████████████████                                                 | 423/751 [02:17<02:11,  2.50it/s, Materializing param=model.layers.26.post_attention_layernorm.weight]Loading weights:  56%|███████████████████████████████████████████████████████████████▏                                                | 424/751 [02:17<02:10,  2.50it/s, Materializing param=model.layers.26.self_attn.kv_a_layernorm.weight]Loading weights:  56%|███████████████████████████████████████████████████████████████▏                                                | 424/751 [02:17<02:10,  2.50it/s, Materializing param=model.layers.26.self_attn.kv_a_layernorm.weight]Loading weights:  57%|█████████████████████████████████████████████████████████████                                               | 425/751 [02:17<02:10,  2.50it/s, Materializing param=model.layers.26.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  57%|█████████████████████████████████████████████████████████████                                               | 425/751 [02:17<02:10,  2.50it/s, Materializing param=model.layers.26.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  57%|██████████████████████████████████████████████████████████████████▎                                                  | 426/751 [02:17<02:09,  2.50it/s, Materializing param=model.layers.26.self_attn.kv_b_proj.weight]Loading weights:  57%|██████████████████████████████████████████████████████████████████▎                                                  | 426/751 [02:17<02:09,  2.50it/s, Materializing param=model.layers.26.self_attn.kv_b_proj.weight]Loading weights:  57%|████████████████████████████████████████████████████████████████████▏                                                   | 427/751 [02:17<02:09,  2.50it/s, Materializing param=model.layers.26.self_attn.o_proj.weight]Loading weights:  57%|████████████████████████████████████████████████████████████████████▏                                                   | 427/751 [02:17<02:09,  2.50it/s, Materializing param=model.layers.26.self_attn.o_proj.weight]Loading weights:  57%|████████████████████████████████████████████████████████████████▍                                                | 428/751 [02:17<02:09,  2.50it/s, Materializing param=model.layers.26.self_attn.q_a_layernorm.weight]Loading weights:  57%|████████████████████████████████████████████████████████████████▍                                                | 428/751 [02:17<02:09,  2.50it/s, Materializing param=model.layers.26.self_attn.q_a_layernorm.weight]Loading weights:  57%|███████████████████████████████████████████████████████████████████▍                                                  | 429/751 [02:17<02:08,  2.50it/s, Materializing param=model.layers.26.self_attn.q_a_proj.weight]Loading weights:  57%|███████████████████████████████████████████████████████████████████▍                                                  | 429/751 [02:17<02:08,  2.50it/s, Materializing param=model.layers.26.self_attn.q_a_proj.weight]Loading weights:  57%|███████████████████████████████████████████████████████████████████▌                                                  | 430/751 [02:17<02:08,  2.50it/s, Materializing param=model.layers.26.self_attn.q_b_proj.weight]Loading weights:  57%|███████████████████████████████████████████████████████████████████▌                                                  | 430/751 [02:17<02:08,  2.50it/s, Materializing param=model.layers.26.self_attn.q_b_proj.weight]Loading weights:  57%|█████████████████████████████████████████████████████████████████████▍                                                   | 431/751 [02:17<02:07,  2.50it/s, Materializing param=model.layers.27.input_layernorm.weight]Loading weights:  57%|█████████████████████████████████████████████████████████████████████▍                                                   | 431/751 [02:17<02:07,  2.50it/s, Materializing param=model.layers.27.input_layernorm.weight]Loading weights:  58%|██████████████████████████████████████████████████████████████████████▏                                                   | 432/751 [02:17<02:07,  2.50it/s, Materializing param=model.layers.27.mlp.experts.down_proj]Loading weights:  58%|██████████████████████████████████████████████████████████████████████▏                                                   | 432/751 [02:17<02:07,  2.50it/s, Materializing param=model.layers.27.mlp.experts.down_proj]Loading weights:  58%|██████████████████████████████████████████████████████████████████████▎                                                   | 433/751 [02:19<01:22,  3.87it/s, Materializing param=model.layers.27.mlp.experts.down_proj]Loading weights:  58%|██████████████████████████████████████████████████████████████████████▎                                                   | 433/751 [02:19<01:22,  3.87it/s, Materializing param=model.layers.27.mlp.experts.down_proj]Loading weights:  58%|████████████████████████████████████████████████████████████████████▌                                                  | 433/751 [02:19<01:22,  3.87it/s, Materializing param=model.layers.27.mlp.experts.gate_up_proj]Loading weights:  58%|████████████████████████████████████████████████████████████████████▌                                                  | 433/751 [02:19<01:22,  3.87it/s, Materializing param=model.layers.27.mlp.experts.gate_up_proj]Loading weights:  58%|████████████████████████████████████████████████████████████████████▌                                                  | 433/751 [02:19<01:22,  3.87it/s, Materializing param=model.layers.27.mlp.experts.gate_up_proj]Loading weights:  58%|████████████████████████████████████████████████████████████████████▌                                                  | 433/751 [02:19<01:22,  3.87it/s, Materializing param=model.layers.27.mlp.experts.gate_up_proj]Loading weights:  58%|████████████████████████████████████████████████████████████████████▊                                                  | 434/751 [02:22<02:05,  2.52it/s, Materializing param=model.layers.27.mlp.experts.gate_up_proj]Loading weights:  58%|████████████████████████████████████████████████████████████████▏                                              | 434/751 [02:22<02:05,  2.52it/s, Materializing param=model.layers.27.mlp.gate.e_score_correction_bias]Loading weights:  58%|████████████████████████████████████████████████████████████████▏                                              | 434/751 [02:22<02:05,  2.52it/s, Materializing param=model.layers.27.mlp.gate.e_score_correction_bias]Loading weights:  58%|██████████████████████████████████████████████████████████████████████████▏                                                     | 435/751 [02:22<02:05,  2.52it/s, Materializing param=model.layers.27.mlp.gate.weight]Loading weights:  58%|██████████████████████████████████████████████████████████████████████████▏                                                     | 435/751 [02:22<02:05,  2.52it/s, Materializing param=model.layers.27.mlp.gate.weight]Loading weights:  58%|██████████████████████████████████████████████████████████████▋                                             | 436/751 [02:22<02:05,  2.52it/s, Materializing param=model.layers.27.mlp.shared_experts.down_proj.weight]Loading weights:  58%|██████████████████████████████████████████████████████████████▋                                             | 436/751 [02:22<02:05,  2.52it/s, Materializing param=model.layers.27.mlp.shared_experts.down_proj.weight]Loading weights:  58%|██████████████████████████████████████████████████████████████▊                                             | 437/751 [02:22<02:04,  2.52it/s, Materializing param=model.layers.27.mlp.shared_experts.gate_proj.weight]Loading weights:  58%|██████████████████████████████████████████████████████████████▊                                             | 437/751 [02:22<02:04,  2.52it/s, Materializing param=model.layers.27.mlp.shared_experts.gate_proj.weight]Loading weights:  58%|████████████████████████████████████████████████████████████████▏                                             | 438/751 [02:22<02:04,  2.52it/s, Materializing param=model.layers.27.mlp.shared_experts.up_proj.weight]Loading weights:  58%|████████████████████████████████████████████████████████████████▏                                             | 438/751 [02:22<02:04,  2.52it/s, Materializing param=model.layers.27.mlp.shared_experts.up_proj.weight]Loading weights:  58%|█████████████████████████████████████████████████████████████████▍                                              | 439/751 [02:22<02:03,  2.52it/s, Materializing param=model.layers.27.post_attention_layernorm.weight]Loading weights:  58%|█████████████████████████████████████████████████████████████████▍                                              | 439/751 [02:22<02:03,  2.52it/s, Materializing param=model.layers.27.post_attention_layernorm.weight]Loading weights:  59%|█████████████████████████████████████████████████████████████████▌                                              | 440/751 [02:22<02:03,  2.52it/s, Materializing param=model.layers.27.self_attn.kv_a_layernorm.weight]Loading weights:  59%|█████████████████████████████████████████████████████████████████▌                                              | 440/751 [02:22<02:03,  2.52it/s, Materializing param=model.layers.27.self_attn.kv_a_layernorm.weight]Loading weights:  59%|███████████████████████████████████████████████████████████████▍                                            | 441/751 [02:22<02:03,  2.52it/s, Materializing param=model.layers.27.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  59%|███████████████████████████████████████████████████████████████▍                                            | 441/751 [02:22<02:03,  2.52it/s, Materializing param=model.layers.27.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  59%|████████████████████████████████████████████████████████████████████▊                                                | 442/751 [02:22<02:02,  2.52it/s, Materializing param=model.layers.27.self_attn.kv_b_proj.weight]Loading weights:  59%|████████████████████████████████████████████████████████████████████▊                                                | 442/751 [02:22<02:02,  2.52it/s, Materializing param=model.layers.27.self_attn.kv_b_proj.weight]Loading weights:  59%|██████████████████████████████████████████████████████████████████████▊                                                 | 443/751 [02:22<02:02,  2.52it/s, Materializing param=model.layers.27.self_attn.o_proj.weight]Loading weights:  59%|██████████████████████████████████████████████████████████████████████▊                                                 | 443/751 [02:22<02:02,  2.52it/s, Materializing param=model.layers.27.self_attn.o_proj.weight]Loading weights:  59%|██████████████████████████████████████████████████████████████████▊                                              | 444/751 [02:22<02:01,  2.52it/s, Materializing param=model.layers.27.self_attn.q_a_layernorm.weight]Loading weights:  59%|██████████████████████████████████████████████████████████████████▊                                              | 444/751 [02:22<02:01,  2.52it/s, Materializing param=model.layers.27.self_attn.q_a_layernorm.weight]Loading weights:  59%|█████████████████████████████████████████████████████████████████████▉                                                | 445/751 [02:22<02:01,  2.52it/s, Materializing param=model.layers.27.self_attn.q_a_proj.weight]Loading weights:  59%|█████████████████████████████████████████████████████████████████████▉                                                | 445/751 [02:22<02:01,  2.52it/s, Materializing param=model.layers.27.self_attn.q_a_proj.weight]Loading weights:  59%|██████████████████████████████████████████████████████████████████████                                                | 446/751 [02:22<02:01,  2.52it/s, Materializing param=model.layers.27.self_attn.q_b_proj.weight]Loading weights:  59%|██████████████████████████████████████████████████████████████████████                                                | 446/751 [02:22<02:01,  2.52it/s, Materializing param=model.layers.27.self_attn.q_b_proj.weight]Loading weights:  60%|████████████████████████████████████████████████████████████████████████                                                 | 447/751 [02:22<02:00,  2.52it/s, Materializing param=model.layers.28.input_layernorm.weight]Loading weights:  60%|████████████████████████████████████████████████████████████████████████                                                 | 447/751 [02:22<02:00,  2.52it/s, Materializing param=model.layers.28.input_layernorm.weight]Loading weights:  60%|████████████████████████████████████████████████████████████████████████▊                                                 | 448/751 [02:22<02:00,  2.52it/s, Materializing param=model.layers.28.mlp.experts.down_proj]Loading weights:  60%|████████████████████████████████████████████████████████████████████████▊                                                 | 448/751 [02:22<02:00,  2.52it/s, Materializing param=model.layers.28.mlp.experts.down_proj]Loading weights:  58%|████████████████████████████████████████████████████████████████████▊                                                  | 434/751 [02:22<02:05,  2.52it/s, Materializing param=model.layers.27.mlp.experts.gate_up_proj]Loading weights:  58%|████████████████████████████████████████████████████████████████▏                                              | 434/751 [02:22<02:05,  2.52it/s, Materializing param=model.layers.27.mlp.gate.e_score_correction_bias]Loading weights:  58%|████████████████████████████████████████████████████████████████▏                                              | 434/751 [02:22<02:05,  2.52it/s, Materializing param=model.layers.27.mlp.gate.e_score_correction_bias]Loading weights:  58%|██████████████████████████████████████████████████████████████████████████▏                                                     | 435/751 [02:22<02:05,  2.52it/s, Materializing param=model.layers.27.mlp.gate.weight]Loading weights:  58%|██████████████████████████████████████████████████████████████████████████▏                                                     | 435/751 [02:22<02:05,  2.52it/s, Materializing param=model.layers.27.mlp.gate.weight]Loading weights:  58%|██████████████████████████████████████████████████████████████▋                                             | 436/751 [02:22<02:05,  2.52it/s, Materializing param=model.layers.27.mlp.shared_experts.down_proj.weight]Loading weights:  58%|██████████████████████████████████████████████████████████████▋                                             | 436/751 [02:22<02:05,  2.52it/s, Materializing param=model.layers.27.mlp.shared_experts.down_proj.weight]Loading weights:  58%|██████████████████████████████████████████████████████████████▊                                             | 437/751 [02:22<02:04,  2.52it/s, Materializing param=model.layers.27.mlp.shared_experts.gate_proj.weight]Loading weights:  58%|██████████████████████████████████████████████████████████████▊                                             | 437/751 [02:22<02:04,  2.52it/s, Materializing param=model.layers.27.mlp.shared_experts.gate_proj.weight]Loading weights:  58%|████████████████████████████████████████████████████████████████▏                                             | 438/751 [02:22<02:04,  2.52it/s, Materializing param=model.layers.27.mlp.shared_experts.up_proj.weight]Loading weights:  58%|████████████████████████████████████████████████████████████████▏                                             | 438/751 [02:22<02:04,  2.52it/s, Materializing param=model.layers.27.mlp.shared_experts.up_proj.weight]Loading weights:  58%|█████████████████████████████████████████████████████████████████▍                                              | 439/751 [02:22<02:03,  2.52it/s, Materializing param=model.layers.27.post_attention_layernorm.weight]Loading weights:  58%|█████████████████████████████████████████████████████████████████▍                                              | 439/751 [02:22<02:03,  2.52it/s, Materializing param=model.layers.27.post_attention_layernorm.weight]Loading weights:  59%|█████████████████████████████████████████████████████████████████▌                                              | 440/751 [02:22<02:03,  2.52it/s, Materializing param=model.layers.27.self_attn.kv_a_layernorm.weight]Loading weights:  59%|█████████████████████████████████████████████████████████████████▌                                              | 440/751 [02:22<02:03,  2.52it/s, Materializing param=model.layers.27.self_attn.kv_a_layernorm.weight]Loading weights:  59%|███████████████████████████████████████████████████████████████▍                                            | 441/751 [02:22<02:03,  2.52it/s, Materializing param=model.layers.27.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  59%|███████████████████████████████████████████████████████████████▍                                            | 441/751 [02:22<02:03,  2.52it/s, Materializing param=model.layers.27.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  59%|████████████████████████████████████████████████████████████████████▊                                                | 442/751 [02:22<02:02,  2.52it/s, Materializing param=model.layers.27.self_attn.kv_b_proj.weight]Loading weights:  59%|████████████████████████████████████████████████████████████████████▊                                                | 442/751 [02:22<02:02,  2.52it/s, Materializing param=model.layers.27.self_attn.kv_b_proj.weight]Loading weights:  59%|██████████████████████████████████████████████████████████████████████▊                                                 | 443/751 [02:22<02:02,  2.52it/s, Materializing param=model.layers.27.self_attn.o_proj.weight]Loading weights:  59%|██████████████████████████████████████████████████████████████████████▊                                                 | 443/751 [02:22<02:02,  2.52it/s, Materializing param=model.layers.27.self_attn.o_proj.weight]Loading weights:  59%|██████████████████████████████████████████████████████████████████▊                                              | 444/751 [02:22<02:01,  2.52it/s, Materializing param=model.layers.27.self_attn.q_a_layernorm.weight]Loading weights:  59%|██████████████████████████████████████████████████████████████████▊                                              | 444/751 [02:22<02:01,  2.52it/s, Materializing param=model.layers.27.self_attn.q_a_layernorm.weight]Loading weights:  59%|█████████████████████████████████████████████████████████████████████▉                                                | 445/751 [02:22<02:01,  2.52it/s, Materializing param=model.layers.27.self_attn.q_a_proj.weight]Loading weights:  59%|█████████████████████████████████████████████████████████████████████▉                                                | 445/751 [02:22<02:01,  2.52it/s, Materializing param=model.layers.27.self_attn.q_a_proj.weight]Loading weights:  59%|██████████████████████████████████████████████████████████████████████                                                | 446/751 [02:22<02:01,  2.52it/s, Materializing param=model.layers.27.self_attn.q_b_proj.weight]Loading weights:  59%|██████████████████████████████████████████████████████████████████████                                                | 446/751 [02:22<02:01,  2.52it/s, Materializing param=model.layers.27.self_attn.q_b_proj.weight]Loading weights:  60%|████████████████████████████████████████████████████████████████████████                                                 | 447/751 [02:22<02:00,  2.52it/s, Materializing param=model.layers.28.input_layernorm.weight]Loading weights:  60%|████████████████████████████████████████████████████████████████████████                                                 | 447/751 [02:22<02:00,  2.52it/s, Materializing param=model.layers.28.input_layernorm.weight]Loading weights:  60%|████████████████████████████████████████████████████████████████████████▊                                                 | 448/751 [02:22<02:00,  2.52it/s, Materializing param=model.layers.28.mlp.experts.down_proj]Loading weights:  60%|████████████████████████████████████████████████████████████████████████▊                                                 | 448/751 [02:22<02:00,  2.52it/s, Materializing param=model.layers.28.mlp.experts.down_proj]Loading weights:  60%|████████████████████████████████████████████████████████████████████████▉                                                 | 449/751 [02:24<01:17,  3.88it/s, Materializing param=model.layers.28.mlp.experts.down_proj]Loading weights:  60%|████████████████████████████████████████████████████████████████████████▉                                                 | 449/751 [02:24<01:17,  3.88it/s, Materializing param=model.layers.28.mlp.experts.down_proj]Loading weights:  60%|███████████████████████████████████████████████████████████████████████▏                                               | 449/751 [02:24<01:17,  3.88it/s, Materializing param=model.layers.28.mlp.experts.gate_up_proj]Loading weights:  60%|███████████████████████████████████████████████████████████████████████▏                                               | 449/751 [02:24<01:17,  3.88it/s, Materializing param=model.layers.28.mlp.experts.gate_up_proj]Loading weights:  60%|███████████████████████████████████████████████████████████████████████▏                                               | 449/751 [02:24<01:17,  3.88it/s, Materializing param=model.layers.28.mlp.experts.gate_up_proj]Loading weights:  60%|███████████████████████████████████████████████████████████████████████▏                                               | 449/751 [02:24<01:17,  3.88it/s, Materializing param=model.layers.28.mlp.experts.gate_up_proj]Loading weights:  60%|███████████████████████████████████████████████████████████████████████▎                                               | 450/751 [02:27<01:59,  2.52it/s, Materializing param=model.layers.28.mlp.experts.gate_up_proj]Loading weights:  60%|██████████████████████████████████████████████████████████████████▌                                            | 450/751 [02:27<01:59,  2.52it/s, Materializing param=model.layers.28.mlp.gate.e_score_correction_bias]Loading weights:  60%|██████████████████████████████████████████████████████████████████▌                                            | 450/751 [02:27<01:59,  2.52it/s, Materializing param=model.layers.28.mlp.gate.e_score_correction_bias]Loading weights:  60%|████████████████████████████████████████████████████████████████████████████▊                                                   | 451/751 [02:27<01:59,  2.52it/s, Materializing param=model.layers.28.mlp.gate.weight]Loading weights:  60%|████████████████████████████████████████████████████████████████████████████▊                                                   | 451/751 [02:27<01:59,  2.52it/s, Materializing param=model.layers.28.mlp.gate.weight]Loading weights:  60%|█████████████████████████████████████████████████████████████████                                           | 452/751 [02:27<01:58,  2.52it/s, Materializing param=model.layers.28.mlp.shared_experts.down_proj.weight]Loading weights:  60%|█████████████████████████████████████████████████████████████████                                           | 452/751 [02:27<01:58,  2.52it/s, Materializing param=model.layers.28.mlp.shared_experts.down_proj.weight]Loading weights:  60%|█████████████████████████████████████████████████████████████████▏                                          | 453/751 [02:27<01:58,  2.52it/s, Materializing param=model.layers.28.mlp.shared_experts.gate_proj.weight]Loading weights:  60%|█████████████████████████████████████████████████████████████████▏                                          | 453/751 [02:27<01:58,  2.52it/s, Materializing param=model.layers.28.mlp.shared_experts.gate_proj.weight]Loading weights:  60%|██████████████████████████████████████████████████████████████████▍                                           | 454/751 [02:27<01:57,  2.52it/s, Materializing param=model.layers.28.mlp.shared_experts.up_proj.weight]Loading weights:  60%|██████████████████████████████████████████████████████████████████▍                                           | 454/751 [02:27<01:57,  2.52it/s, Materializing param=model.layers.28.mlp.shared_experts.up_proj.weight]Loading weights:  61%|███████████████████████████████████████████████████████████████████▊                                            | 455/751 [02:27<01:57,  2.52it/s, Materializing param=model.layers.28.post_attention_layernorm.weight]Loading weights:  61%|███████████████████████████████████████████████████████████████████▊                                            | 455/751 [02:27<01:57,  2.52it/s, Materializing param=model.layers.28.post_attention_layernorm.weight]Loading weights:  61%|████████████████████████████████████████████████████████████████████                                            | 456/751 [02:27<01:57,  2.52it/s, Materializing param=model.layers.28.self_attn.kv_a_layernorm.weight]Loading weights:  61%|████████████████████████████████████████████████████████████████████                                            | 456/751 [02:27<01:57,  2.52it/s, Materializing param=model.layers.28.self_attn.kv_a_layernorm.weight]Loading weights:  61%|█████████████████████████████████████████████████████████████████▋                                          | 457/751 [02:27<01:56,  2.52it/s, Materializing param=model.layers.28.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  61%|█████████████████████████████████████████████████████████████████▋                                          | 457/751 [02:27<01:56,  2.52it/s, Materializing param=model.layers.28.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  61%|███████████████████████████████████████████████████████████████████████▎                                             | 458/751 [02:27<01:56,  2.52it/s, Materializing param=model.layers.28.self_attn.kv_b_proj.weight]Loading weights:  61%|███████████████████████████████████████████████████████████████████████▎                                             | 458/751 [02:27<01:56,  2.52it/s, Materializing param=model.layers.28.self_attn.kv_b_proj.weight]Loading weights:  61%|█████████████████████████████████████████████████████████████████████████▎                                              | 459/751 [02:27<01:55,  2.52it/s, Materializing param=model.layers.28.self_attn.o_proj.weight]Loading weights:  61%|█████████████████████████████████████████████████████████████████████████▎                                              | 459/751 [02:27<01:55,  2.52it/s, Materializing param=model.layers.28.self_attn.o_proj.weight]Loading weights:  61%|█████████████████████████████████████████████████████████████████████▏                                           | 460/751 [02:27<01:55,  2.52it/s, Materializing param=model.layers.28.self_attn.q_a_layernorm.weight]Loading weights:  61%|█████████████████████████████████████████████████████████████████████▏                                           | 460/751 [02:27<01:55,  2.52it/s, Materializing param=model.layers.28.self_attn.q_a_layernorm.weight]Loading weights:  61%|████████████████████████████████████████████████████████████████████████▍                                             | 461/751 [02:27<01:55,  2.52it/s, Materializing param=model.layers.28.self_attn.q_a_proj.weight]Loading weights:  61%|████████████████████████████████████████████████████████████████████████▍                                             | 461/751 [02:27<01:55,  2.52it/s, Materializing param=model.layers.28.self_attn.q_a_proj.weight]Loading weights:  62%|████████████████████████████████████████████████████████████████████████▌                                             | 462/751 [02:27<01:54,  2.52it/s, Materializing param=model.layers.28.self_attn.q_b_proj.weight]Loading weights:  62%|████████████████████████████████████████████████████████████████████████▌                                             | 462/751 [02:27<01:54,  2.52it/s, Materializing param=model.layers.28.self_attn.q_b_proj.weight]Loading weights:  62%|██████████████████████████████████████████████████████████████████████████▌                                              | 463/751 [02:27<01:54,  2.52it/s, Materializing param=model.layers.29.input_layernorm.weight]Loading weights:  62%|██████████████████████████████████████████████████████████████████████████▌                                              | 463/751 [02:27<01:54,  2.52it/s, Materializing param=model.layers.29.input_layernorm.weight]Loading weights:  62%|███████████████████████████████████████████████████████████████████████████▍                                              | 464/751 [02:27<01:53,  2.52it/s, Materializing param=model.layers.29.mlp.experts.down_proj]Loading weights:  62%|███████████████████████████████████████████████████████████████████████████▍                                              | 464/751 [02:27<01:53,  2.52it/s, Materializing param=model.layers.29.mlp.experts.down_proj]Loading weights:  60%|███████████████████████████████████████████████████████████████████████▎                                               | 450/751 [02:27<01:59,  2.52it/s, Materializing param=model.layers.28.mlp.experts.gate_up_proj]Loading weights:  60%|██████████████████████████████████████████████████████████████████▌                                            | 450/751 [02:27<01:59,  2.52it/s, Materializing param=model.layers.28.mlp.gate.e_score_correction_bias]Loading weights:  60%|██████████████████████████████████████████████████████████████████▌                                            | 450/751 [02:27<01:59,  2.52it/s, Materializing param=model.layers.28.mlp.gate.e_score_correction_bias]Loading weights:  60%|████████████████████████████████████████████████████████████████████████████▊                                                   | 451/751 [02:27<01:59,  2.52it/s, Materializing param=model.layers.28.mlp.gate.weight]Loading weights:  60%|████████████████████████████████████████████████████████████████████████████▊                                                   | 451/751 [02:27<01:59,  2.52it/s, Materializing param=model.layers.28.mlp.gate.weight]Loading weights:  60%|█████████████████████████████████████████████████████████████████                                           | 452/751 [02:27<01:58,  2.52it/s, Materializing param=model.layers.28.mlp.shared_experts.down_proj.weight]Loading weights:  60%|█████████████████████████████████████████████████████████████████                                           | 452/751 [02:27<01:58,  2.52it/s, Materializing param=model.layers.28.mlp.shared_experts.down_proj.weight]Loading weights:  60%|█████████████████████████████████████████████████████████████████▏                                          | 453/751 [02:27<01:58,  2.52it/s, Materializing param=model.layers.28.mlp.shared_experts.gate_proj.weight]Loading weights:  60%|█████████████████████████████████████████████████████████████████▏                                          | 453/751 [02:27<01:58,  2.52it/s, Materializing param=model.layers.28.mlp.shared_experts.gate_proj.weight]Loading weights:  60%|██████████████████████████████████████████████████████████████████▍                                           | 454/751 [02:27<01:57,  2.52it/s, Materializing param=model.layers.28.mlp.shared_experts.up_proj.weight]Loading weights:  60%|██████████████████████████████████████████████████████████████████▍                                           | 454/751 [02:27<01:57,  2.52it/s, Materializing param=model.layers.28.mlp.shared_experts.up_proj.weight]Loading weights:  61%|███████████████████████████████████████████████████████████████████▊                                            | 455/751 [02:27<01:57,  2.52it/s, Materializing param=model.layers.28.post_attention_layernorm.weight]Loading weights:  61%|███████████████████████████████████████████████████████████████████▊                                            | 455/751 [02:27<01:57,  2.52it/s, Materializing param=model.layers.28.post_attention_layernorm.weight]Loading weights:  61%|████████████████████████████████████████████████████████████████████                                            | 456/751 [02:27<01:57,  2.52it/s, Materializing param=model.layers.28.self_attn.kv_a_layernorm.weight]Loading weights:  61%|████████████████████████████████████████████████████████████████████                                            | 456/751 [02:27<01:57,  2.52it/s, Materializing param=model.layers.28.self_attn.kv_a_layernorm.weight]Loading weights:  61%|█████████████████████████████████████████████████████████████████▋                                          | 457/751 [02:27<01:56,  2.52it/s, Materializing param=model.layers.28.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  61%|█████████████████████████████████████████████████████████████████▋                                          | 457/751 [02:27<01:56,  2.52it/s, Materializing param=model.layers.28.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  61%|███████████████████████████████████████████████████████████████████████▎                                             | 458/751 [02:27<01:56,  2.52it/s, Materializing param=model.layers.28.self_attn.kv_b_proj.weight]Loading weights:  61%|███████████████████████████████████████████████████████████████████████▎                                             | 458/751 [02:27<01:56,  2.52it/s, Materializing param=model.layers.28.self_attn.kv_b_proj.weight]Loading weights:  61%|█████████████████████████████████████████████████████████████████████████▎                                              | 459/751 [02:27<01:55,  2.52it/s, Materializing param=model.layers.28.self_attn.o_proj.weight]Loading weights:  61%|█████████████████████████████████████████████████████████████████████████▎                                              | 459/751 [02:27<01:55,  2.52it/s, Materializing param=model.layers.28.self_attn.o_proj.weight]Loading weights:  61%|█████████████████████████████████████████████████████████████████████▏                                           | 460/751 [02:27<01:55,  2.52it/s, Materializing param=model.layers.28.self_attn.q_a_layernorm.weight]Loading weights:  61%|█████████████████████████████████████████████████████████████████████▏                                           | 460/751 [02:27<01:55,  2.52it/s, Materializing param=model.layers.28.self_attn.q_a_layernorm.weight]Loading weights:  61%|████████████████████████████████████████████████████████████████████████▍                                             | 461/751 [02:27<01:55,  2.52it/s, Materializing param=model.layers.28.self_attn.q_a_proj.weight]Loading weights:  61%|████████████████████████████████████████████████████████████████████████▍                                             | 461/751 [02:27<01:55,  2.52it/s, Materializing param=model.layers.28.self_attn.q_a_proj.weight]Loading weights:  62%|████████████████████████████████████████████████████████████████████████▌                                             | 462/751 [02:27<01:54,  2.52it/s, Materializing param=model.layers.28.self_attn.q_b_proj.weight]Loading weights:  62%|████████████████████████████████████████████████████████████████████████▌                                             | 462/751 [02:27<01:54,  2.52it/s, Materializing param=model.layers.28.self_attn.q_b_proj.weight]Loading weights:  62%|██████████████████████████████████████████████████████████████████████████▌                                              | 463/751 [02:27<01:54,  2.52it/s, Materializing param=model.layers.29.input_layernorm.weight]Loading weights:  62%|██████████████████████████████████████████████████████████████████████████▌                                              | 463/751 [02:27<01:54,  2.52it/s, Materializing param=model.layers.29.input_layernorm.weight]Loading weights:  62%|███████████████████████████████████████████████████████████████████████████▍                                              | 464/751 [02:27<01:53,  2.52it/s, Materializing param=model.layers.29.mlp.experts.down_proj]Loading weights:  62%|███████████████████████████████████████████████████████████████████████████▍                                              | 464/751 [02:27<01:53,  2.52it/s, Materializing param=model.layers.29.mlp.experts.down_proj]Loading weights:  62%|███████████████████████████████████████████████████████████████████████████▌                                              | 465/751 [02:29<01:13,  3.87it/s, Materializing param=model.layers.29.mlp.experts.down_proj]Loading weights:  62%|███████████████████████████████████████████████████████████████████████████▌                                              | 465/751 [02:29<01:13,  3.87it/s, Materializing param=model.layers.29.mlp.experts.down_proj]Loading weights:  62%|█████████████████████████████████████████████████████████████████████████▋                                             | 465/751 [02:29<01:13,  3.87it/s, Materializing param=model.layers.29.mlp.experts.gate_up_proj]Loading weights:  62%|█████████████████████████████████████████████████████████████████████████▋                                             | 465/751 [02:29<01:13,  3.87it/s, Materializing param=model.layers.29.mlp.experts.gate_up_proj]Loading weights:  62%|█████████████████████████████████████████████████████████████████████████▋                                             | 465/751 [02:29<01:13,  3.87it/s, Materializing param=model.layers.29.mlp.experts.gate_up_proj]Loading weights:  62%|█████████████████████████████████████████████████████████████████████████▋                                             | 465/751 [02:29<01:13,  3.87it/s, Materializing param=model.layers.29.mlp.experts.gate_up_proj]Loading weights:  62%|█████████████████████████████████████████████████████████████████████████▊                                             | 466/751 [02:33<01:53,  2.50it/s, Materializing param=model.layers.29.mlp.experts.gate_up_proj]Loading weights:  62%|████████████████████████████████████████████████████████████████████▉                                          | 466/751 [02:33<01:53,  2.50it/s, Materializing param=model.layers.29.mlp.gate.e_score_correction_bias]Loading weights:  62%|████████████████████████████████████████████████████████████████████▉                                          | 466/751 [02:33<01:53,  2.50it/s, Materializing param=model.layers.29.mlp.gate.e_score_correction_bias]Loading weights:  62%|███████████████████████████████████████████████████████████████████████████████▌                                                | 467/751 [02:33<01:53,  2.50it/s, Materializing param=model.layers.29.mlp.gate.weight]Loading weights:  62%|███████████████████████████████████████████████████████████████████████████████▌                                                | 467/751 [02:33<01:53,  2.50it/s, Materializing param=model.layers.29.mlp.gate.weight]Loading weights:  62%|███████████████████████████████████████████████████████████████████▎                                        | 468/751 [02:33<01:53,  2.50it/s, Materializing param=model.layers.29.mlp.shared_experts.down_proj.weight]Loading weights:  62%|███████████████████████████████████████████████████████████████████▎                                        | 468/751 [02:33<01:53,  2.50it/s, Materializing param=model.layers.29.mlp.shared_experts.down_proj.weight]Loading weights:  62%|███████████████████████████████████████████████████████████████████▍                                        | 469/751 [02:33<01:52,  2.50it/s, Materializing param=model.layers.29.mlp.shared_experts.gate_proj.weight]Loading weights:  62%|███████████████████████████████████████████████████████████████████▍                                        | 469/751 [02:33<01:52,  2.50it/s, Materializing param=model.layers.29.mlp.shared_experts.gate_proj.weight]Loading weights:  63%|████████████████████████████████████████████████████████████████████▊                                         | 470/751 [02:33<01:52,  2.50it/s, Materializing param=model.layers.29.mlp.shared_experts.up_proj.weight]Loading weights:  63%|████████████████████████████████████████████████████████████████████▊                                         | 470/751 [02:33<01:52,  2.50it/s, Materializing param=model.layers.29.mlp.shared_experts.up_proj.weight]Loading weights:  63%|██████████████████████████████████████████████████████████████████████▏                                         | 471/751 [02:33<01:51,  2.50it/s, Materializing param=model.layers.29.post_attention_layernorm.weight]Loading weights:  63%|██████████████████████████████████████████████████████████████████████▏                                         | 471/751 [02:33<01:51,  2.50it/s, Materializing param=model.layers.29.post_attention_layernorm.weight]Loading weights:  63%|██████████████████████████████████████████████████████████████████████▍                                         | 472/751 [02:33<01:51,  2.50it/s, Materializing param=model.layers.29.self_attn.kv_a_layernorm.weight]Loading weights:  63%|██████████████████████████████████████████████████████████████████████▍                                         | 472/751 [02:33<01:51,  2.50it/s, Materializing param=model.layers.29.self_attn.kv_a_layernorm.weight]Loading weights:  63%|████████████████████████████████████████████████████████████████████                                        | 473/751 [02:33<01:51,  2.50it/s, Materializing param=model.layers.29.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  63%|████████████████████████████████████████████████████████████████████                                        | 473/751 [02:33<01:51,  2.50it/s, Materializing param=model.layers.29.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  63%|█████████████████████████████████████████████████████████████████████████▊                                           | 474/751 [02:33<01:50,  2.50it/s, Materializing param=model.layers.29.self_attn.kv_b_proj.weight]Loading weights:  63%|█████████████████████████████████████████████████████████████████████████▊                                           | 474/751 [02:33<01:50,  2.50it/s, Materializing param=model.layers.29.self_attn.kv_b_proj.weight]Loading weights:  63%|███████████████████████████████████████████████████████████████████████████▉                                            | 475/751 [02:33<01:50,  2.50it/s, Materializing param=model.layers.29.self_attn.o_proj.weight]Loading weights:  63%|███████████████████████████████████████████████████████████████████████████▉                                            | 475/751 [02:33<01:50,  2.50it/s, Materializing param=model.layers.29.self_attn.o_proj.weight]Loading weights:  63%|███████████████████████████████████████████████████████████████████████▌                                         | 476/751 [02:33<01:49,  2.50it/s, Materializing param=model.layers.29.self_attn.q_a_layernorm.weight]Loading weights:  63%|███████████████████████████████████████████████████████████████████████▌                                         | 476/751 [02:33<01:49,  2.50it/s, Materializing param=model.layers.29.self_attn.q_a_layernorm.weight]Loading weights:  64%|██████████████████████████████████████████████████████████████████████████▉                                           | 477/751 [02:33<01:49,  2.50it/s, Materializing param=model.layers.29.self_attn.q_a_proj.weight]Loading weights:  64%|██████████████████████████████████████████████████████████████████████████▉                                           | 477/751 [02:33<01:49,  2.50it/s, Materializing param=model.layers.29.self_attn.q_a_proj.weight]Loading weights:  64%|███████████████████████████████████████████████████████████████████████████                                           | 478/751 [02:33<01:49,  2.50it/s, Materializing param=model.layers.29.self_attn.q_b_proj.weight]Loading weights:  64%|███████████████████████████████████████████████████████████████████████████                                           | 478/751 [02:33<01:49,  2.50it/s, Materializing param=model.layers.29.self_attn.q_b_proj.weight]Loading weights:  64%|█████████████████████████████████████████████████████████████████████████████▏                                           | 479/751 [02:33<01:48,  2.50it/s, Materializing param=model.layers.30.input_layernorm.weight]Loading weights:  64%|█████████████████████████████████████████████████████████████████████████████▏                                           | 479/751 [02:33<01:48,  2.50it/s, Materializing param=model.layers.30.input_layernorm.weight]Loading weights:  64%|█████████████████████████████████████████████████████████████████████████████▉                                            | 480/751 [02:33<01:48,  2.50it/s, Materializing param=model.layers.30.mlp.experts.down_proj]Loading weights:  64%|█████████████████████████████████████████████████████████████████████████████▉                                            | 480/751 [02:33<01:48,  2.50it/s, Materializing param=model.layers.30.mlp.experts.down_proj]Loading weights:  62%|█████████████████████████████████████████████████████████████████████████▊                                             | 466/751 [02:33<01:53,  2.50it/s, Materializing param=model.layers.29.mlp.experts.gate_up_proj]Loading weights:  62%|████████████████████████████████████████████████████████████████████▉                                          | 466/751 [02:33<01:53,  2.50it/s, Materializing param=model.layers.29.mlp.gate.e_score_correction_bias]Loading weights:  62%|████████████████████████████████████████████████████████████████████▉                                          | 466/751 [02:33<01:53,  2.50it/s, Materializing param=model.layers.29.mlp.gate.e_score_correction_bias]Loading weights:  62%|███████████████████████████████████████████████████████████████████████████████▌                                                | 467/751 [02:33<01:53,  2.50it/s, Materializing param=model.layers.29.mlp.gate.weight]Loading weights:  62%|███████████████████████████████████████████████████████████████████████████████▌                                                | 467/751 [02:33<01:53,  2.50it/s, Materializing param=model.layers.29.mlp.gate.weight]Loading weights:  62%|███████████████████████████████████████████████████████████████████▎                                        | 468/751 [02:33<01:53,  2.50it/s, Materializing param=model.layers.29.mlp.shared_experts.down_proj.weight]Loading weights:  62%|███████████████████████████████████████████████████████████████████▎                                        | 468/751 [02:33<01:53,  2.50it/s, Materializing param=model.layers.29.mlp.shared_experts.down_proj.weight]Loading weights:  62%|███████████████████████████████████████████████████████████████████▍                                        | 469/751 [02:33<01:52,  2.50it/s, Materializing param=model.layers.29.mlp.shared_experts.gate_proj.weight]Loading weights:  62%|███████████████████████████████████████████████████████████████████▍                                        | 469/751 [02:33<01:52,  2.50it/s, Materializing param=model.layers.29.mlp.shared_experts.gate_proj.weight]Loading weights:  63%|████████████████████████████████████████████████████████████████████▊                                         | 470/751 [02:33<01:52,  2.50it/s, Materializing param=model.layers.29.mlp.shared_experts.up_proj.weight]Loading weights:  63%|████████████████████████████████████████████████████████████████████▊                                         | 470/751 [02:33<01:52,  2.50it/s, Materializing param=model.layers.29.mlp.shared_experts.up_proj.weight]Loading weights:  63%|██████████████████████████████████████████████████████████████████████▏                                         | 471/751 [02:33<01:51,  2.50it/s, Materializing param=model.layers.29.post_attention_layernorm.weight]Loading weights:  63%|██████████████████████████████████████████████████████████████████████▏                                         | 471/751 [02:33<01:51,  2.50it/s, Materializing param=model.layers.29.post_attention_layernorm.weight]Loading weights:  63%|██████████████████████████████████████████████████████████████████████▍                                         | 472/751 [02:33<01:51,  2.50it/s, Materializing param=model.layers.29.self_attn.kv_a_layernorm.weight]Loading weights:  63%|██████████████████████████████████████████████████████████████████████▍                                         | 472/751 [02:33<01:51,  2.50it/s, Materializing param=model.layers.29.self_attn.kv_a_layernorm.weight]Loading weights:  63%|████████████████████████████████████████████████████████████████████                                        | 473/751 [02:33<01:51,  2.50it/s, Materializing param=model.layers.29.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  63%|████████████████████████████████████████████████████████████████████                                        | 473/751 [02:33<01:51,  2.50it/s, Materializing param=model.layers.29.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  63%|█████████████████████████████████████████████████████████████████████████▊                                           | 474/751 [02:33<01:50,  2.50it/s, Materializing param=model.layers.29.self_attn.kv_b_proj.weight]Loading weights:  63%|█████████████████████████████████████████████████████████████████████████▊                                           | 474/751 [02:33<01:50,  2.50it/s, Materializing param=model.layers.29.self_attn.kv_b_proj.weight]Loading weights:  63%|███████████████████████████████████████████████████████████████████████████▉                                            | 475/751 [02:33<01:50,  2.50it/s, Materializing param=model.layers.29.self_attn.o_proj.weight]Loading weights:  63%|███████████████████████████████████████████████████████████████████████████▉                                            | 475/751 [02:33<01:50,  2.50it/s, Materializing param=model.layers.29.self_attn.o_proj.weight]Loading weights:  63%|███████████████████████████████████████████████████████████████████████▌                                         | 476/751 [02:33<01:49,  2.50it/s, Materializing param=model.layers.29.self_attn.q_a_layernorm.weight]Loading weights:  63%|███████████████████████████████████████████████████████████████████████▌                                         | 476/751 [02:33<01:49,  2.50it/s, Materializing param=model.layers.29.self_attn.q_a_layernorm.weight]Loading weights:  64%|██████████████████████████████████████████████████████████████████████████▉                                           | 477/751 [02:33<01:49,  2.50it/s, Materializing param=model.layers.29.self_attn.q_a_proj.weight]Loading weights:  64%|██████████████████████████████████████████████████████████████████████████▉                                           | 477/751 [02:33<01:49,  2.50it/s, Materializing param=model.layers.29.self_attn.q_a_proj.weight]Loading weights:  64%|███████████████████████████████████████████████████████████████████████████                                           | 478/751 [02:33<01:49,  2.50it/s, Materializing param=model.layers.29.self_attn.q_b_proj.weight]Loading weights:  64%|███████████████████████████████████████████████████████████████████████████                                           | 478/751 [02:33<01:49,  2.50it/s, Materializing param=model.layers.29.self_attn.q_b_proj.weight]Loading weights:  64%|█████████████████████████████████████████████████████████████████████████████▏                                           | 479/751 [02:33<01:48,  2.50it/s, Materializing param=model.layers.30.input_layernorm.weight]Loading weights:  64%|█████████████████████████████████████████████████████████████████████████████▏                                           | 479/751 [02:33<01:48,  2.50it/s, Materializing param=model.layers.30.input_layernorm.weight]Loading weights:  64%|█████████████████████████████████████████████████████████████████████████████▉                                            | 480/751 [02:33<01:48,  2.50it/s, Materializing param=model.layers.30.mlp.experts.down_proj]Loading weights:  64%|█████████████████████████████████████████████████████████████████████████████▉                                            | 480/751 [02:33<01:48,  2.50it/s, Materializing param=model.layers.30.mlp.experts.down_proj]Loading weights:  64%|██████████████████████████████████████████████████████████████████████████████▏                                           | 481/751 [02:34<01:10,  3.86it/s, Materializing param=model.layers.30.mlp.experts.down_proj]Loading weights:  64%|██████████████████████████████████████████████████████████████████████████████▏                                           | 481/751 [02:34<01:10,  3.86it/s, Materializing param=model.layers.30.mlp.experts.down_proj]Loading weights:  64%|████████████████████████████████████████████████████████████████████████████▏                                          | 481/751 [02:34<01:10,  3.86it/s, Materializing param=model.layers.30.mlp.experts.gate_up_proj]Loading weights:  64%|████████████████████████████████████████████████████████████████████████████▏                                          | 481/751 [02:34<01:10,  3.86it/s, Materializing param=model.layers.30.mlp.experts.gate_up_proj]Loading weights:  64%|████████████████████████████████████████████████████████████████████████████▏                                          | 481/751 [02:34<01:10,  3.86it/s, Materializing param=model.layers.30.mlp.experts.gate_up_proj]Loading weights:  64%|████████████████████████████████████████████████████████████████████████████▏                                          | 481/751 [02:34<01:10,  3.86it/s, Materializing param=model.layers.30.mlp.experts.gate_up_proj]Loading weights:  64%|████████████████████████████████████████████████████████████████████████████▍                                          | 482/751 [02:38<01:47,  2.50it/s, Materializing param=model.layers.30.mlp.experts.gate_up_proj]Loading weights:  64%|███████████████████████████████████████████████████████████████████████▏                                       | 482/751 [02:38<01:47,  2.50it/s, Materializing param=model.layers.30.mlp.gate.e_score_correction_bias]Loading weights:  64%|███████████████████████████████████████████████████████████████████████▏                                       | 482/751 [02:38<01:47,  2.50it/s, Materializing param=model.layers.30.mlp.gate.e_score_correction_bias]Loading weights:  64%|██████████████████████████████████████████████████████████████████████████████████▎                                             | 483/751 [02:38<01:47,  2.50it/s, Materializing param=model.layers.30.mlp.gate.weight]Loading weights:  64%|██████████████████████████████████████████████████████████████████████████████████▎                                             | 483/751 [02:38<01:47,  2.50it/s, Materializing param=model.layers.30.mlp.gate.weight]Loading weights:  64%|█████████████████████████████████████████████████████████████████████▌                                      | 484/751 [02:38<01:46,  2.50it/s, Materializing param=model.layers.30.mlp.shared_experts.down_proj.weight]Loading weights:  64%|█████████████████████████████████████████████████████████████████████▌                                      | 484/751 [02:38<01:46,  2.50it/s, Materializing param=model.layers.30.mlp.shared_experts.down_proj.weight]Loading weights:  65%|█████████████████████████████████████████████████████████████████████▋                                      | 485/751 [02:38<01:46,  2.50it/s, Materializing param=model.layers.30.mlp.shared_experts.gate_proj.weight]Loading weights:  65%|█████████████████████████████████████████████████████████████████████▋                                      | 485/751 [02:38<01:46,  2.50it/s, Materializing param=model.layers.30.mlp.shared_experts.gate_proj.weight]Loading weights:  65%|███████████████████████████████████████████████████████████████████████▏                                      | 486/751 [02:38<01:45,  2.50it/s, Materializing param=model.layers.30.mlp.shared_experts.up_proj.weight]Loading weights:  65%|███████████████████████████████████████████████████████████████████████▏                                      | 486/751 [02:38<01:45,  2.50it/s, Materializing param=model.layers.30.mlp.shared_experts.up_proj.weight]Loading weights:  65%|████████████████████████████████████████████████████████████████████████▋                                       | 487/751 [02:38<01:45,  2.50it/s, Materializing param=model.layers.30.post_attention_layernorm.weight]Loading weights:  65%|████████████████████████████████████████████████████████████████████████▋                                       | 487/751 [02:38<01:45,  2.50it/s, Materializing param=model.layers.30.post_attention_layernorm.weight]Loading weights:  65%|████████████████████████████████████████████████████████████████████████▊                                       | 488/751 [02:38<01:45,  2.50it/s, Materializing param=model.layers.30.self_attn.kv_a_layernorm.weight]Loading weights:  65%|████████████████████████████████████████████████████████████████████████▊                                       | 488/751 [02:38<01:45,  2.50it/s, Materializing param=model.layers.30.self_attn.kv_a_layernorm.weight]Loading weights:  65%|██████████████████████████████████████████████████████████████████████▎                                     | 489/751 [02:38<01:44,  2.50it/s, Materializing param=model.layers.30.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  65%|██████████████████████████████████████████████████████████████████████▎                                     | 489/751 [02:38<01:44,  2.50it/s, Materializing param=model.layers.30.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  65%|████████████████████████████████████████████████████████████████████████████▎                                        | 490/751 [02:38<01:44,  2.50it/s, Materializing param=model.layers.30.self_attn.kv_b_proj.weight]Loading weights:  65%|████████████████████████████████████████████████████████████████████████████▎                                        | 490/751 [02:38<01:44,  2.50it/s, Materializing param=model.layers.30.self_attn.kv_b_proj.weight]Loading weights:  65%|██████████████████████████████████████████████████████████████████████████████▍                                         | 491/751 [02:38<01:43,  2.50it/s, Materializing param=model.layers.30.self_attn.o_proj.weight]Loading weights:  65%|██████████████████████████████████████████████████████████████████████████████▍                                         | 491/751 [02:38<01:43,  2.50it/s, Materializing param=model.layers.30.self_attn.o_proj.weight]Loading weights:  66%|██████████████████████████████████████████████████████████████████████████                                       | 492/751 [02:38<01:43,  2.50it/s, Materializing param=model.layers.30.self_attn.q_a_layernorm.weight]Loading weights:  66%|██████████████████████████████████████████████████████████████████████████                                       | 492/751 [02:38<01:43,  2.50it/s, Materializing param=model.layers.30.self_attn.q_a_layernorm.weight]Loading weights:  66%|█████████████████████████████████████████████████████████████████████████████▍                                        | 493/751 [02:38<01:43,  2.50it/s, Materializing param=model.layers.30.self_attn.q_a_proj.weight]Loading weights:  66%|█████████████████████████████████████████████████████████████████████████████▍                                        | 493/751 [02:38<01:43,  2.50it/s, Materializing param=model.layers.30.self_attn.q_a_proj.weight]Loading weights:  66%|█████████████████████████████████████████████████████████████████████████████▌                                        | 494/751 [02:38<01:42,  2.50it/s, Materializing param=model.layers.30.self_attn.q_b_proj.weight]Loading weights:  66%|█████████████████████████████████████████████████████████████████████████████▌                                        | 494/751 [02:38<01:42,  2.50it/s, Materializing param=model.layers.30.self_attn.q_b_proj.weight]Loading weights:  66%|███████████████████████████████████████████████████████████████████████████████▊                                         | 495/751 [02:38<01:42,  2.50it/s, Materializing param=model.layers.31.input_layernorm.weight]Loading weights:  66%|███████████████████████████████████████████████████████████████████████████████▊                                         | 495/751 [02:38<01:42,  2.50it/s, Materializing param=model.layers.31.input_layernorm.weight]Loading weights:  66%|████████████████████████████████████████████████████████████████████████████████▌                                         | 496/751 [02:38<01:41,  2.50it/s, Materializing param=model.layers.31.mlp.experts.down_proj]Loading weights:  66%|████████████████████████████████████████████████████████████████████████████████▌                                         | 496/751 [02:38<01:41,  2.50it/s, Materializing param=model.layers.31.mlp.experts.down_proj]Loading weights:  64%|████████████████████████████████████████████████████████████████████████████▍                                          | 482/751 [02:38<01:47,  2.50it/s, Materializing param=model.layers.30.mlp.experts.gate_up_proj]Loading weights:  64%|███████████████████████████████████████████████████████████████████████▏                                       | 482/751 [02:38<01:47,  2.50it/s, Materializing param=model.layers.30.mlp.gate.e_score_correction_bias]Loading weights:  64%|███████████████████████████████████████████████████████████████████████▏                                       | 482/751 [02:38<01:47,  2.50it/s, Materializing param=model.layers.30.mlp.gate.e_score_correction_bias]Loading weights:  64%|██████████████████████████████████████████████████████████████████████████████████▎                                             | 483/751 [02:38<01:47,  2.50it/s, Materializing param=model.layers.30.mlp.gate.weight]Loading weights:  64%|██████████████████████████████████████████████████████████████████████████████████▎                                             | 483/751 [02:38<01:47,  2.50it/s, Materializing param=model.layers.30.mlp.gate.weight]Loading weights:  64%|█████████████████████████████████████████████████████████████████████▌                                      | 484/751 [02:38<01:46,  2.50it/s, Materializing param=model.layers.30.mlp.shared_experts.down_proj.weight]Loading weights:  64%|█████████████████████████████████████████████████████████████████████▌                                      | 484/751 [02:38<01:46,  2.50it/s, Materializing param=model.layers.30.mlp.shared_experts.down_proj.weight]Loading weights:  65%|█████████████████████████████████████████████████████████████████████▋                                      | 485/751 [02:38<01:46,  2.50it/s, Materializing param=model.layers.30.mlp.shared_experts.gate_proj.weight]Loading weights:  65%|█████████████████████████████████████████████████████████████████████▋                                      | 485/751 [02:38<01:46,  2.50it/s, Materializing param=model.layers.30.mlp.shared_experts.gate_proj.weight]Loading weights:  65%|███████████████████████████████████████████████████████████████████████▏                                      | 486/751 [02:38<01:46,  2.50it/s, Materializing param=model.layers.30.mlp.shared_experts.up_proj.weight]Loading weights:  65%|███████████████████████████████████████████████████████████████████████▏                                      | 486/751 [02:38<01:46,  2.50it/s, Materializing param=model.layers.30.mlp.shared_experts.up_proj.weight]Loading weights:  65%|████████████████████████████████████████████████████████████████████████▋                                       | 487/751 [02:38<01:45,  2.50it/s, Materializing param=model.layers.30.post_attention_layernorm.weight]Loading weights:  65%|████████████████████████████████████████████████████████████████████████▋                                       | 487/751 [02:38<01:45,  2.50it/s, Materializing param=model.layers.30.post_attention_layernorm.weight]Loading weights:  65%|████████████████████████████████████████████████████████████████████████▊                                       | 488/751 [02:38<01:45,  2.50it/s, Materializing param=model.layers.30.self_attn.kv_a_layernorm.weight]Loading weights:  65%|████████████████████████████████████████████████████████████████████████▊                                       | 488/751 [02:38<01:45,  2.50it/s, Materializing param=model.layers.30.self_attn.kv_a_layernorm.weight]Loading weights:  65%|██████████████████████████████████████████████████████████████████████▎                                     | 489/751 [02:38<01:44,  2.50it/s, Materializing param=model.layers.30.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  65%|██████████████████████████████████████████████████████████████████████▎                                     | 489/751 [02:38<01:44,  2.50it/s, Materializing param=model.layers.30.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  65%|████████████████████████████████████████████████████████████████████████████▎                                        | 490/751 [02:38<01:44,  2.50it/s, Materializing param=model.layers.30.self_attn.kv_b_proj.weight]Loading weights:  65%|████████████████████████████████████████████████████████████████████████████▎                                        | 490/751 [02:38<01:44,  2.50it/s, Materializing param=model.layers.30.self_attn.kv_b_proj.weight]Loading weights:  65%|██████████████████████████████████████████████████████████████████████████████▍                                         | 491/751 [02:38<01:44,  2.50it/s, Materializing param=model.layers.30.self_attn.o_proj.weight]Loading weights:  65%|██████████████████████████████████████████████████████████████████████████████▍                                         | 491/751 [02:38<01:44,  2.50it/s, Materializing param=model.layers.30.self_attn.o_proj.weight]Loading weights:  66%|██████████████████████████████████████████████████████████████████████████                                       | 492/751 [02:38<01:43,  2.50it/s, Materializing param=model.layers.30.self_attn.q_a_layernorm.weight]Loading weights:  66%|██████████████████████████████████████████████████████████████████████████                                       | 492/751 [02:38<01:43,  2.50it/s, Materializing param=model.layers.30.self_attn.q_a_layernorm.weight]Loading weights:  66%|█████████████████████████████████████████████████████████████████████████████▍                                        | 493/751 [02:38<01:43,  2.50it/s, Materializing param=model.layers.30.self_attn.q_a_proj.weight]Loading weights:  66%|█████████████████████████████████████████████████████████████████████████████▍                                        | 493/751 [02:38<01:43,  2.50it/s, Materializing param=model.layers.30.self_attn.q_a_proj.weight]Loading weights:  66%|█████████████████████████████████████████████████████████████████████████████▌                                        | 494/751 [02:38<01:42,  2.50it/s, Materializing param=model.layers.30.self_attn.q_b_proj.weight]Loading weights:  66%|█████████████████████████████████████████████████████████████████████████████▌                                        | 494/751 [02:38<01:42,  2.50it/s, Materializing param=model.layers.30.self_attn.q_b_proj.weight]Loading weights:  66%|███████████████████████████████████████████████████████████████████████████████▊                                         | 495/751 [02:38<01:42,  2.50it/s, Materializing param=model.layers.31.input_layernorm.weight]Loading weights:  66%|███████████████████████████████████████████████████████████████████████████████▊                                         | 495/751 [02:38<01:42,  2.50it/s, Materializing param=model.layers.31.input_layernorm.weight]Loading weights:  66%|████████████████████████████████████████████████████████████████████████████████▌                                         | 496/751 [02:38<01:42,  2.50it/s, Materializing param=model.layers.31.mlp.experts.down_proj]Loading weights:  66%|████████████████████████████████████████████████████████████████████████████████▌                                         | 496/751 [02:38<01:42,  2.50it/s, Materializing param=model.layers.31.mlp.experts.down_proj]Loading weights:  66%|████████████████████████████████████████████████████████████████████████████████▋                                         | 497/751 [02:39<01:05,  3.88it/s, Materializing param=model.layers.31.mlp.experts.down_proj]Loading weights:  66%|████████████████████████████████████████████████████████████████████████████████▋                                         | 497/751 [02:39<01:05,  3.88it/s, Materializing param=model.layers.31.mlp.experts.down_proj]Loading weights:  66%|██████████████████████████████████████████████████████████████████████████████▊                                        | 497/751 [02:39<01:05,  3.88it/s, Materializing param=model.layers.31.mlp.experts.gate_up_proj]Loading weights:  66%|██████████████████████████████████████████████████████████████████████████████▊                                        | 497/751 [02:39<01:05,  3.88it/s, Materializing param=model.layers.31.mlp.experts.gate_up_proj]Loading weights:  66%|██████████████████████████████████████████████████████████████████████████████▊                                        | 497/751 [02:39<01:05,  3.88it/s, Materializing param=model.layers.31.mlp.experts.gate_up_proj]Loading weights:  66%|██████████████████████████████████████████████████████████████████████████████▊                                        | 497/751 [02:39<01:05,  3.88it/s, Materializing param=model.layers.31.mlp.experts.gate_up_proj]Loading weights:  66%|██████████████████████████████████████████████████████████████████████████████▉                                        | 498/751 [02:43<01:40,  2.51it/s, Materializing param=model.layers.31.mlp.experts.gate_up_proj]Loading weights:  66%|█████████████████████████████████████████████████████████████████████████▌                                     | 498/751 [02:43<01:40,  2.51it/s, Materializing param=model.layers.31.mlp.gate.e_score_correction_bias]Loading weights:  66%|█████████████████████████████████████████████████████████████████████████▌                                     | 498/751 [02:43<01:40,  2.51it/s, Materializing param=model.layers.31.mlp.gate.e_score_correction_bias]Loading weights:  66%|█████████████████████████████████████████████████████████████████████████████████████                                           | 499/751 [02:43<01:40,  2.51it/s, Materializing param=model.layers.31.mlp.gate.weight]Loading weights:  66%|█████████████████████████████████████████████████████████████████████████████████████                                           | 499/751 [02:43<01:40,  2.51it/s, Materializing param=model.layers.31.mlp.gate.weight]Loading weights:  67%|███████████████████████████████████████████████████████████████████████▉                                    | 500/751 [02:43<01:39,  2.51it/s, Materializing param=model.layers.31.mlp.shared_experts.down_proj.weight]Loading weights:  67%|███████████████████████████████████████████████████████████████████████▉                                    | 500/751 [02:43<01:39,  2.51it/s, Materializing param=model.layers.31.mlp.shared_experts.down_proj.weight]Loading weights:  67%|████████████████████████████████████████████████████████████████████████                                    | 501/751 [02:43<01:39,  2.51it/s, Materializing param=model.layers.31.mlp.shared_experts.gate_proj.weight]Loading weights:  67%|████████████████████████████████████████████████████████████████████████                                    | 501/751 [02:43<01:39,  2.51it/s, Materializing param=model.layers.31.mlp.shared_experts.gate_proj.weight]Loading weights:  67%|█████████████████████████████████████████████████████████████████████████▌                                    | 502/751 [02:43<01:39,  2.51it/s, Materializing param=model.layers.31.mlp.shared_experts.up_proj.weight]Loading weights:  67%|█████████████████████████████████████████████████████████████████████████▌                                    | 502/751 [02:43<01:39,  2.51it/s, Materializing param=model.layers.31.mlp.shared_experts.up_proj.weight]Loading weights:  67%|███████████████████████████████████████████████████████████████████████████                                     | 503/751 [02:43<01:38,  2.51it/s, Materializing param=model.layers.31.post_attention_layernorm.weight]Loading weights:  67%|███████████████████████████████████████████████████████████████████████████                                     | 503/751 [02:43<01:38,  2.51it/s, Materializing param=model.layers.31.post_attention_layernorm.weight]Loading weights:  67%|███████████████████████████████████████████████████████████████████████████▏                                    | 504/751 [02:43<01:38,  2.51it/s, Materializing param=model.layers.31.self_attn.kv_a_layernorm.weight]Loading weights:  67%|███████████████████████████████████████████████████████████████████████████▏                                    | 504/751 [02:43<01:38,  2.51it/s, Materializing param=model.layers.31.self_attn.kv_a_layernorm.weight]Loading weights:  66%|██████████████████████████████████████████████████████████████████████████████▉                                        | 498/751 [02:43<01:40,  2.51it/s, Materializing param=model.layers.31.mlp.experts.gate_up_proj]Loading weights:  67%|████████████████████████████████████████████████████████████████████████▌                                   | 505/751 [02:43<01:38,  2.51it/s, Materializing param=model.layers.31.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  66%|█████████████████████████████████████████████████████████████████████████▌                                     | 498/751 [02:43<01:40,  2.51it/s, Materializing param=model.layers.31.mlp.gate.e_score_correction_bias]Loading weights:  67%|████████████████████████████████████████████████████████████████████████▌                                   | 505/751 [02:43<01:38,  2.51it/s, Materializing param=model.layers.31.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  66%|█████████████████████████████████████████████████████████████████████████▌                                     | 498/751 [02:43<01:40,  2.51it/s, Materializing param=model.layers.31.mlp.gate.e_score_correction_bias]Loading weights:  67%|██████████████████████████████████████████████████████████████████████████████▊                                      | 506/751 [02:43<01:37,  2.51it/s, Materializing param=model.layers.31.self_attn.kv_b_proj.weight]Loading weights:  67%|██████████████████████████████████████████████████████████████████████████████▊                                      | 506/751 [02:43<01:37,  2.51it/s, Materializing param=model.layers.31.self_attn.kv_b_proj.weight]Loading weights:  66%|█████████████████████████████████████████████████████████████████████████████████████                                           | 499/751 [02:43<01:40,  2.51it/s, Materializing param=model.layers.31.mlp.gate.weight]Loading weights:  68%|█████████████████████████████████████████████████████████████████████████████████                                       | 507/751 [02:43<01:37,  2.51it/s, Materializing param=model.layers.31.self_attn.o_proj.weight]Loading weights:  66%|█████████████████████████████████████████████████████████████████████████████████████                                           | 499/751 [02:43<01:40,  2.51it/s, Materializing param=model.layers.31.mlp.gate.weight]Loading weights:  68%|█████████████████████████████████████████████████████████████████████████████████                                       | 507/751 [02:43<01:37,  2.51it/s, Materializing param=model.layers.31.self_attn.o_proj.weight]Loading weights:  67%|███████████████████████████████████████████████████████████████████████▉                                    | 500/751 [02:43<01:40,  2.51it/s, Materializing param=model.layers.31.mlp.shared_experts.down_proj.weight]Loading weights:  68%|████████████████████████████████████████████████████████████████████████████▍                                    | 508/751 [02:43<01:36,  2.51it/s, Materializing param=model.layers.31.self_attn.q_a_layernorm.weight]Loading weights:  67%|███████████████████████████████████████████████████████████████████████▉                                    | 500/751 [02:43<01:40,  2.51it/s, Materializing param=model.layers.31.mlp.shared_experts.down_proj.weight]Loading weights:  68%|████████████████████████████████████████████████████████████████████████████▍                                    | 508/751 [02:43<01:36,  2.51it/s, Materializing param=model.layers.31.self_attn.q_a_layernorm.weight]Loading weights:  67%|████████████████████████████████████████████████████████████████████████                                    | 501/751 [02:43<01:39,  2.51it/s, Materializing param=model.layers.31.mlp.shared_experts.gate_proj.weight]Loading weights:  68%|███████████████████████████████████████████████████████████████████████████████▉                                      | 509/751 [02:43<01:36,  2.51it/s, Materializing param=model.layers.31.self_attn.q_a_proj.weight]Loading weights:  68%|███████████████████████████████████████████████████████████████████████████████▉                                      | 509/751 [02:43<01:36,  2.51it/s, Materializing param=model.layers.31.self_attn.q_a_proj.weight]Loading weights:  67%|████████████████████████████████████████████████████████████████████████                                    | 501/751 [02:43<01:39,  2.51it/s, Materializing param=model.layers.31.mlp.shared_experts.gate_proj.weight]Loading weights:  68%|████████████████████████████████████████████████████████████████████████████████▏                                     | 510/751 [02:43<01:36,  2.51it/s, Materializing param=model.layers.31.self_attn.q_b_proj.weight]Loading weights:  68%|████████████████████████████████████████████████████████████████████████████████▏                                     | 510/751 [02:43<01:36,  2.51it/s, Materializing param=model.layers.31.self_attn.q_b_proj.weight]Loading weights:  67%|█████████████████████████████████████████████████████████████████████████▌                                    | 502/751 [02:43<01:39,  2.51it/s, Materializing param=model.layers.31.mlp.shared_experts.up_proj.weight]Loading weights:  68%|██████████████████████████████████████████████████████████████████████████████████▎                                      | 511/751 [02:43<01:35,  2.51it/s, Materializing param=model.layers.32.input_layernorm.weight]Loading weights:  67%|█████████████████████████████████████████████████████████████████████████▌                                    | 502/751 [02:43<01:39,  2.51it/s, Materializing param=model.layers.31.mlp.shared_experts.up_proj.weight]Loading weights:  68%|██████████████████████████████████████████████████████████████████████████████████▎                                      | 511/751 [02:43<01:35,  2.51it/s, Materializing param=model.layers.32.input_layernorm.weight]Loading weights:  67%|███████████████████████████████████████████████████████████████████████████                                     | 503/751 [02:43<01:38,  2.51it/s, Materializing param=model.layers.31.post_attention_layernorm.weight]Loading weights:  68%|███████████████████████████████████████████████████████████████████████████████████▏                                      | 512/751 [02:43<01:35,  2.51it/s, Materializing param=model.layers.32.mlp.experts.down_proj]Loading weights:  67%|███████████████████████████████████████████████████████████████████████████                                     | 503/751 [02:43<01:38,  2.51it/s, Materializing param=model.layers.31.post_attention_layernorm.weight]Loading weights:  68%|███████████████████████████████████████████████████████████████████████████████████▏                                      | 512/751 [02:43<01:35,  2.51it/s, Materializing param=model.layers.32.mlp.experts.down_proj]Loading weights:  67%|███████████████████████████████████████████████████████████████████████████▏                                    | 504/751 [02:43<01:38,  2.51it/s, Materializing param=model.layers.31.self_attn.kv_a_layernorm.weight]Loading weights:  67%|███████████████████████████████████████████████████████████████████████████▏                                    | 504/751 [02:43<01:38,  2.51it/s, Materializing param=model.layers.31.self_attn.kv_a_layernorm.weight]Loading weights:  67%|████████████████████████████████████████████████████████████████████████▌                                   | 505/751 [02:43<01:38,  2.51it/s, Materializing param=model.layers.31.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  67%|████████████████████████████████████████████████████████████████████████▌                                   | 505/751 [02:43<01:38,  2.51it/s, Materializing param=model.layers.31.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  67%|██████████████████████████████████████████████████████████████████████████████▊                                      | 506/751 [02:43<01:37,  2.51it/s, Materializing param=model.layers.31.self_attn.kv_b_proj.weight]Loading weights:  67%|██████████████████████████████████████████████████████████████████████████████▊                                      | 506/751 [02:43<01:37,  2.51it/s, Materializing param=model.layers.31.self_attn.kv_b_proj.weight]Loading weights:  68%|█████████████████████████████████████████████████████████████████████████████████                                       | 507/751 [02:43<01:37,  2.51it/s, Materializing param=model.layers.31.self_attn.o_proj.weight]Loading weights:  68%|█████████████████████████████████████████████████████████████████████████████████                                       | 507/751 [02:43<01:37,  2.51it/s, Materializing param=model.layers.31.self_attn.o_proj.weight]Loading weights:  68%|████████████████████████████████████████████████████████████████████████████▍                                    | 508/751 [02:43<01:36,  2.51it/s, Materializing param=model.layers.31.self_attn.q_a_layernorm.weight]Loading weights:  68%|████████████████████████████████████████████████████████████████████████████▍                                    | 508/751 [02:43<01:36,  2.51it/s, Materializing param=model.layers.31.self_attn.q_a_layernorm.weight]Loading weights:  68%|███████████████████████████████████████████████████████████████████████████████▉                                      | 509/751 [02:43<01:36,  2.51it/s, Materializing param=model.layers.31.self_attn.q_a_proj.weight]Loading weights:  68%|███████████████████████████████████████████████████████████████████████████████▉                                      | 509/751 [02:43<01:36,  2.51it/s, Materializing param=model.layers.31.self_attn.q_a_proj.weight]Loading weights:  68%|████████████████████████████████████████████████████████████████████████████████▏                                     | 510/751 [02:43<01:36,  2.51it/s, Materializing param=model.layers.31.self_attn.q_b_proj.weight]Loading weights:  68%|████████████████████████████████████████████████████████████████████████████████▏                                     | 510/751 [02:43<01:36,  2.51it/s, Materializing param=model.layers.31.self_attn.q_b_proj.weight]Loading weights:  68%|██████████████████████████████████████████████████████████████████████████████████▎                                      | 511/751 [02:43<01:35,  2.51it/s, Materializing param=model.layers.32.input_layernorm.weight]Loading weights:  68%|██████████████████████████████████████████████████████████████████████████████████▎                                      | 511/751 [02:43<01:35,  2.51it/s, Materializing param=model.layers.32.input_layernorm.weight]Loading weights:  68%|███████████████████████████████████████████████████████████████████████████████████▏                                      | 512/751 [02:43<01:35,  2.51it/s, Materializing param=model.layers.32.mlp.experts.down_proj]Loading weights:  68%|███████████████████████████████████████████████████████████████████████████████████▏                                      | 512/751 [02:43<01:35,  2.51it/s, Materializing param=model.layers.32.mlp.experts.down_proj]Loading weights:  68%|███████████████████████████████████████████████████████████████████████████████████▎                                      | 513/751 [02:44<01:01,  3.88it/s, Materializing param=model.layers.32.mlp.experts.down_proj]Loading weights:  68%|███████████████████████████████████████████████████████████████████████████████████▎                                      | 513/751 [02:44<01:01,  3.89it/s, Materializing param=model.layers.32.mlp.experts.down_proj]Loading weights:  68%|█████████████████████████████████████████████████████████████████████████████████▎                                     | 513/751 [02:44<01:01,  3.88it/s, Materializing param=model.layers.32.mlp.experts.gate_up_proj]Loading weights:  68%|█████████████████████████████████████████████████████████████████████████████████▎                                     | 513/751 [02:44<01:01,  3.89it/s, Materializing param=model.layers.32.mlp.experts.gate_up_proj]Loading weights:  68%|█████████████████████████████████████████████████████████████████████████████████▎                                     | 513/751 [02:44<01:01,  3.88it/s, Materializing param=model.layers.32.mlp.experts.gate_up_proj]Loading weights:  68%|█████████████████████████████████████████████████████████████████████████████████▎                                     | 513/751 [02:44<01:01,  3.89it/s, Materializing param=model.layers.32.mlp.experts.gate_up_proj]Loading weights:  68%|█████████████████████████████████████████████████████████████████████████████████▍                                     | 514/751 [02:48<01:33,  2.53it/s, Materializing param=model.layers.32.mlp.experts.gate_up_proj]Loading weights:  68%|███████████████████████████████████████████████████████████████████████████▉                                   | 514/751 [02:48<01:33,  2.53it/s, Materializing param=model.layers.32.mlp.gate.e_score_correction_bias]Loading weights:  68%|███████████████████████████████████████████████████████████████████████████▉                                   | 514/751 [02:48<01:33,  2.53it/s, Materializing param=model.layers.32.mlp.gate.e_score_correction_bias]Loading weights:  69%|███████████████████████████████████████████████████████████████████████████████████████▊                                        | 515/751 [02:48<01:33,  2.53it/s, Materializing param=model.layers.32.mlp.gate.weight]Loading weights:  69%|███████████████████████████████████████████████████████████████████████████████████████▊                                        | 515/751 [02:48<01:33,  2.53it/s, Materializing param=model.layers.32.mlp.gate.weight]Loading weights:  69%|██████████████████████████████████████████████████████████████████████████▏                                 | 516/751 [02:48<01:32,  2.53it/s, Materializing param=model.layers.32.mlp.shared_experts.down_proj.weight]Loading weights:  69%|██████████████████████████████████████████████████████████████████████████▏                                 | 516/751 [02:48<01:32,  2.53it/s, Materializing param=model.layers.32.mlp.shared_experts.down_proj.weight]Loading weights:  69%|██████████████████████████████████████████████████████████████████████████▎                                 | 517/751 [02:48<01:32,  2.53it/s, Materializing param=model.layers.32.mlp.shared_experts.gate_proj.weight]Loading weights:  69%|██████████████████████████████████████████████████████████████████████████▎                                 | 517/751 [02:48<01:32,  2.53it/s, Materializing param=model.layers.32.mlp.shared_experts.gate_proj.weight]Loading weights:  69%|███████████████████████████████████████████████████████████████████████████▊                                  | 518/751 [02:48<01:32,  2.53it/s, Materializing param=model.layers.32.mlp.shared_experts.up_proj.weight]Loading weights:  69%|███████████████████████████████████████████████████████████████████████████▊                                  | 518/751 [02:48<01:32,  2.53it/s, Materializing param=model.layers.32.mlp.shared_experts.up_proj.weight]Loading weights:  69%|█████████████████████████████████████████████████████████████████████████████▍                                  | 519/751 [02:48<01:31,  2.53it/s, Materializing param=model.layers.32.post_attention_layernorm.weight]Loading weights:  69%|█████████████████████████████████████████████████████████████████████████████▍                                  | 519/751 [02:48<01:31,  2.53it/s, Materializing param=model.layers.32.post_attention_layernorm.weight]Loading weights:  69%|█████████████████████████████████████████████████████████████████████████████▌                                  | 520/751 [02:48<01:31,  2.53it/s, Materializing param=model.layers.32.self_attn.kv_a_layernorm.weight]Loading weights:  69%|█████████████████████████████████████████████████████████████████████████████▌                                  | 520/751 [02:48<01:31,  2.53it/s, Materializing param=model.layers.32.self_attn.kv_a_layernorm.weight]Loading weights:  69%|██████████████████████████████████████████████████████████████████████████▉                                 | 521/751 [02:48<01:30,  2.53it/s, Materializing param=model.layers.32.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  69%|██████████████████████████████████████████████████████████████████████████▉                                 | 521/751 [02:48<01:30,  2.53it/s, Materializing param=model.layers.32.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  70%|█████████████████████████████████████████████████████████████████████████████████▎                                   | 522/751 [02:48<01:30,  2.53it/s, Materializing param=model.layers.32.self_attn.kv_b_proj.weight]Loading weights:  70%|█████████████████████████████████████████████████████████████████████████████████▎                                   | 522/751 [02:48<01:30,  2.53it/s, Materializing param=model.layers.32.self_attn.kv_b_proj.weight]Loading weights:  70%|███████████████████████████████████████████████████████████████████████████████████▌                                    | 523/751 [02:48<01:30,  2.53it/s, Materializing param=model.layers.32.self_attn.o_proj.weight]Loading weights:  70%|███████████████████████████████████████████████████████████████████████████████████▌                                    | 523/751 [02:48<01:30,  2.53it/s, Materializing param=model.layers.32.self_attn.o_proj.weight]Loading weights:  70%|██████████████████████████████████████████████████████████████████████████████▊                                  | 524/751 [02:48<01:29,  2.53it/s, Materializing param=model.layers.32.self_attn.q_a_layernorm.weight]Loading weights:  70%|██████████████████████████████████████████████████████████████████████████████▊                                  | 524/751 [02:48<01:29,  2.53it/s, Materializing param=model.layers.32.self_attn.q_a_layernorm.weight]Loading weights:  70%|██████████████████████████████████████████████████████████████████████████████████▍                                   | 525/751 [02:48<01:29,  2.53it/s, Materializing param=model.layers.32.self_attn.q_a_proj.weight]Loading weights:  70%|██████████████████████████████████████████████████████████████████████████████████▍                                   | 525/751 [02:48<01:29,  2.53it/s, Materializing param=model.layers.32.self_attn.q_a_proj.weight]Loading weights:  70%|██████████████████████████████████████████████████████████████████████████████████▋                                   | 526/751 [02:48<01:28,  2.53it/s, Materializing param=model.layers.32.self_attn.q_b_proj.weight]Loading weights:  70%|██████████████████████████████████████████████████████████████████████████████████▋                                   | 526/751 [02:48<01:28,  2.53it/s, Materializing param=model.layers.32.self_attn.q_b_proj.weight]Loading weights:  70%|████████████████████████████████████████████████████████████████████████████████████▉                                    | 527/751 [02:48<01:28,  2.53it/s, Materializing param=model.layers.33.input_layernorm.weight]Loading weights:  70%|████████████████████████████████████████████████████████████████████████████████████▉                                    | 527/751 [02:48<01:28,  2.53it/s, Materializing param=model.layers.33.input_layernorm.weight]Loading weights:  70%|█████████████████████████████████████████████████████████████████████████████████████▊                                    | 528/751 [02:48<01:28,  2.53it/s, Materializing param=model.layers.33.mlp.experts.down_proj]Loading weights:  70%|█████████████████████████████████████████████████████████████████████████████████████▊                                    | 528/751 [02:48<01:28,  2.53it/s, Materializing param=model.layers.33.mlp.experts.down_proj]Loading weights:  68%|█████████████████████████████████████████████████████████████████████████████████▍                                     | 514/751 [02:48<01:33,  2.53it/s, Materializing param=model.layers.32.mlp.experts.gate_up_proj]Loading weights:  68%|███████████████████████████████████████████████████████████████████████████▉                                   | 514/751 [02:48<01:33,  2.53it/s, Materializing param=model.layers.32.mlp.gate.e_score_correction_bias]Loading weights:  68%|███████████████████████████████████████████████████████████████████████████▉                                   | 514/751 [02:48<01:33,  2.53it/s, Materializing param=model.layers.32.mlp.gate.e_score_correction_bias]Loading weights:  69%|███████████████████████████████████████████████████████████████████████████████████████▊                                        | 515/751 [02:48<01:33,  2.53it/s, Materializing param=model.layers.32.mlp.gate.weight]Loading weights:  69%|███████████████████████████████████████████████████████████████████████████████████████▊                                        | 515/751 [02:48<01:33,  2.53it/s, Materializing param=model.layers.32.mlp.gate.weight]Loading weights:  69%|██████████████████████████████████████████████████████████████████████████▏                                 | 516/751 [02:48<01:32,  2.53it/s, Materializing param=model.layers.32.mlp.shared_experts.down_proj.weight]Loading weights:  69%|██████████████████████████████████████████████████████████████████████████▏                                 | 516/751 [02:48<01:32,  2.53it/s, Materializing param=model.layers.32.mlp.shared_experts.down_proj.weight]Loading weights:  69%|██████████████████████████████████████████████████████████████████████████▎                                 | 517/751 [02:48<01:32,  2.53it/s, Materializing param=model.layers.32.mlp.shared_experts.gate_proj.weight]Loading weights:  69%|██████████████████████████████████████████████████████████████████████████▎                                 | 517/751 [02:48<01:32,  2.53it/s, Materializing param=model.layers.32.mlp.shared_experts.gate_proj.weight]Loading weights:  69%|███████████████████████████████████████████████████████████████████████████▊                                  | 518/751 [02:48<01:32,  2.53it/s, Materializing param=model.layers.32.mlp.shared_experts.up_proj.weight]Loading weights:  69%|███████████████████████████████████████████████████████████████████████████▊                                  | 518/751 [02:48<01:32,  2.53it/s, Materializing param=model.layers.32.mlp.shared_experts.up_proj.weight]Loading weights:  69%|█████████████████████████████████████████████████████████████████████████████▍                                  | 519/751 [02:48<01:31,  2.53it/s, Materializing param=model.layers.32.post_attention_layernorm.weight]Loading weights:  69%|█████████████████████████████████████████████████████████████████████████████▍                                  | 519/751 [02:48<01:31,  2.53it/s, Materializing param=model.layers.32.post_attention_layernorm.weight]Loading weights:  69%|█████████████████████████████████████████████████████████████████████████████▌                                  | 520/751 [02:48<01:31,  2.53it/s, Materializing param=model.layers.32.self_attn.kv_a_layernorm.weight]Loading weights:  69%|█████████████████████████████████████████████████████████████████████████████▌                                  | 520/751 [02:48<01:31,  2.53it/s, Materializing param=model.layers.32.self_attn.kv_a_layernorm.weight]Loading weights:  69%|██████████████████████████████████████████████████████████████████████████▉                                 | 521/751 [02:48<01:30,  2.53it/s, Materializing param=model.layers.32.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  69%|██████████████████████████████████████████████████████████████████████████▉                                 | 521/751 [02:48<01:30,  2.53it/s, Materializing param=model.layers.32.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  70%|█████████████████████████████████████████████████████████████████████████████████▎                                   | 522/751 [02:48<01:30,  2.53it/s, Materializing param=model.layers.32.self_attn.kv_b_proj.weight]Loading weights:  70%|█████████████████████████████████████████████████████████████████████████████████▎                                   | 522/751 [02:48<01:30,  2.53it/s, Materializing param=model.layers.32.self_attn.kv_b_proj.weight]Loading weights:  70%|███████████████████████████████████████████████████████████████████████████████████▌                                    | 523/751 [02:48<01:30,  2.53it/s, Materializing param=model.layers.32.self_attn.o_proj.weight]Loading weights:  70%|███████████████████████████████████████████████████████████████████████████████████▌                                    | 523/751 [02:48<01:30,  2.53it/s, Materializing param=model.layers.32.self_attn.o_proj.weight]Loading weights:  70%|██████████████████████████████████████████████████████████████████████████████▊                                  | 524/751 [02:48<01:29,  2.53it/s, Materializing param=model.layers.32.self_attn.q_a_layernorm.weight]Loading weights:  70%|██████████████████████████████████████████████████████████████████████████████▊                                  | 524/751 [02:48<01:29,  2.53it/s, Materializing param=model.layers.32.self_attn.q_a_layernorm.weight]Loading weights:  70%|██████████████████████████████████████████████████████████████████████████████████▍                                   | 525/751 [02:48<01:29,  2.53it/s, Materializing param=model.layers.32.self_attn.q_a_proj.weight]Loading weights:  70%|██████████████████████████████████████████████████████████████████████████████████▍                                   | 525/751 [02:48<01:29,  2.53it/s, Materializing param=model.layers.32.self_attn.q_a_proj.weight]Loading weights:  70%|██████████████████████████████████████████████████████████████████████████████████▋                                   | 526/751 [02:48<01:28,  2.53it/s, Materializing param=model.layers.32.self_attn.q_b_proj.weight]Loading weights:  70%|██████████████████████████████████████████████████████████████████████████████████▋                                   | 526/751 [02:48<01:28,  2.53it/s, Materializing param=model.layers.32.self_attn.q_b_proj.weight]Loading weights:  70%|████████████████████████████████████████████████████████████████████████████████████▉                                    | 527/751 [02:48<01:28,  2.53it/s, Materializing param=model.layers.33.input_layernorm.weight]Loading weights:  70%|████████████████████████████████████████████████████████████████████████████████████▉                                    | 527/751 [02:48<01:28,  2.53it/s, Materializing param=model.layers.33.input_layernorm.weight]Loading weights:  70%|█████████████████████████████████████████████████████████████████████████████████████▊                                    | 528/751 [02:48<01:28,  2.53it/s, Materializing param=model.layers.33.mlp.experts.down_proj]Loading weights:  70%|█████████████████████████████████████████████████████████████████████████████████████▊                                    | 528/751 [02:48<01:28,  2.53it/s, Materializing param=model.layers.33.mlp.experts.down_proj]Loading weights:  70%|█████████████████████████████████████████████████████████████████████████████████████▉                                    | 529/751 [02:49<00:56,  3.91it/s, Materializing param=model.layers.33.mlp.experts.down_proj]Loading weights:  70%|█████████████████████████████████████████████████████████████████████████████████████▉                                    | 529/751 [02:49<00:56,  3.91it/s, Materializing param=model.layers.33.mlp.experts.down_proj]Loading weights:  70%|███████████████████████████████████████████████████████████████████████████████████▊                                   | 529/751 [02:49<00:56,  3.91it/s, Materializing param=model.layers.33.mlp.experts.gate_up_proj]Loading weights:  70%|███████████████████████████████████████████████████████████████████████████████████▊                                   | 529/751 [02:49<00:56,  3.91it/s, Materializing param=model.layers.33.mlp.experts.gate_up_proj]Loading weights:  70%|███████████████████████████████████████████████████████████████████████████████████▊                                   | 529/751 [02:49<00:56,  3.91it/s, Materializing param=model.layers.33.mlp.experts.gate_up_proj]Loading weights:  70%|███████████████████████████████████████████████████████████████████████████████████▊                                   | 529/751 [02:49<00:56,  3.91it/s, Materializing param=model.layers.33.mlp.experts.gate_up_proj]Loading weights:  71%|███████████████████████████████████████████████████████████████████████████████████▉                                   | 530/751 [02:53<01:28,  2.50it/s, Materializing param=model.layers.33.mlp.experts.gate_up_proj]Loading weights:  71%|██████████████████████████████████████████████████████████████████████████████▎                                | 530/751 [02:53<01:28,  2.50it/s, Materializing param=model.layers.33.mlp.gate.e_score_correction_bias]Loading weights:  71%|██████████████████████████████████████████████████████████████████████████████▎                                | 530/751 [02:53<01:28,  2.50it/s, Materializing param=model.layers.33.mlp.gate.e_score_correction_bias]Loading weights:  71%|██████████████████████████████████████████████████████████████████████████████████████████▌                                     | 531/751 [02:53<01:28,  2.50it/s, Materializing param=model.layers.33.mlp.gate.weight]Loading weights:  71%|██████████████████████████████████████████████████████████████████████████████████████████▌                                     | 531/751 [02:53<01:28,  2.50it/s, Materializing param=model.layers.33.mlp.gate.weight]Loading weights:  71%|████████████████████████████████████████████████████████████████████████████▌                               | 532/751 [02:53<01:27,  2.50it/s, Materializing param=model.layers.33.mlp.shared_experts.down_proj.weight]Loading weights:  71%|████████████████████████████████████████████████████████████████████████████▌                               | 532/751 [02:53<01:27,  2.50it/s, Materializing param=model.layers.33.mlp.shared_experts.down_proj.weight]Loading weights:  71%|████████████████████████████████████████████████████████████████████████████▋                               | 533/751 [02:53<01:27,  2.50it/s, Materializing param=model.layers.33.mlp.shared_experts.gate_proj.weight]Loading weights:  71%|████████████████████████████████████████████████████████████████████████████▋                               | 533/751 [02:53<01:27,  2.50it/s, Materializing param=model.layers.33.mlp.shared_experts.gate_proj.weight]Loading weights:  71%|██████████████████████████████████████████████████████████████████████████████▏                               | 534/751 [02:53<01:26,  2.50it/s, Materializing param=model.layers.33.mlp.shared_experts.up_proj.weight]Loading weights:  71%|██████████████████████████████████████████████████████████████████████████████▏                               | 534/751 [02:53<01:26,  2.50it/s, Materializing param=model.layers.33.mlp.shared_experts.up_proj.weight]Loading weights:  71%|███████████████████████████████████████████████████████████████████████████████▊                                | 535/751 [02:53<01:26,  2.50it/s, Materializing param=model.layers.33.post_attention_layernorm.weight]Loading weights:  71%|███████████████████████████████████████████████████████████████████████████████▊                                | 535/751 [02:53<01:26,  2.50it/s, Materializing param=model.layers.33.post_attention_layernorm.weight]Loading weights:  71%|███████████████████████████████████████████████████████████████████████████████▉                                | 536/751 [02:53<01:26,  2.50it/s, Materializing param=model.layers.33.self_attn.kv_a_layernorm.weight]Loading weights:  71%|███████████████████████████████████████████████████████████████████████████████▉                                | 536/751 [02:53<01:26,  2.50it/s, Materializing param=model.layers.33.self_attn.kv_a_layernorm.weight]Loading weights:  72%|█████████████████████████████████████████████████████████████████████████████▏                              | 537/751 [02:53<01:25,  2.50it/s, Materializing param=model.layers.33.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  72%|█████████████████████████████████████████████████████████████████████████████▏                              | 537/751 [02:53<01:25,  2.50it/s, Materializing param=model.layers.33.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  72%|███████████████████████████████████████████████████████████████████████████████████▊                                 | 538/751 [02:53<01:25,  2.50it/s, Materializing param=model.layers.33.self_attn.kv_b_proj.weight]Loading weights:  72%|███████████████████████████████████████████████████████████████████████████████████▊                                 | 538/751 [02:53<01:25,  2.50it/s, Materializing param=model.layers.33.self_attn.kv_b_proj.weight]Loading weights:  72%|██████████████████████████████████████████████████████████████████████████████████████▏                                 | 539/751 [02:53<01:24,  2.50it/s, Materializing param=model.layers.33.self_attn.o_proj.weight]Loading weights:  72%|██████████████████████████████████████████████████████████████████████████████████████▏                                 | 539/751 [02:53<01:24,  2.50it/s, Materializing param=model.layers.33.self_attn.o_proj.weight]Loading weights:  72%|█████████████████████████████████████████████████████████████████████████████████▎                               | 540/751 [02:53<01:24,  2.50it/s, Materializing param=model.layers.33.self_attn.q_a_layernorm.weight]Loading weights:  72%|█████████████████████████████████████████████████████████████████████████████████▎                               | 540/751 [02:53<01:24,  2.50it/s, Materializing param=model.layers.33.self_attn.q_a_layernorm.weight]Loading weights:  72%|█████████████████████████████████████████████████████████████████████████████████████                                 | 541/751 [02:53<01:24,  2.50it/s, Materializing param=model.layers.33.self_attn.q_a_proj.weight]Loading weights:  72%|█████████████████████████████████████████████████████████████████████████████████████                                 | 541/751 [02:53<01:24,  2.50it/s, Materializing param=model.layers.33.self_attn.q_a_proj.weight]Loading weights:  72%|█████████████████████████████████████████████████████████████████████████████████████▏                                | 542/751 [02:53<01:23,  2.50it/s, Materializing param=model.layers.33.self_attn.q_b_proj.weight]Loading weights:  72%|█████████████████████████████████████████████████████████████████████████████████████▏                                | 542/751 [02:53<01:23,  2.50it/s, Materializing param=model.layers.33.self_attn.q_b_proj.weight]Loading weights:  72%|███████████████████████████████████████████████████████████████████████████████████████▍                                 | 543/751 [02:53<01:23,  2.50it/s, Materializing param=model.layers.34.input_layernorm.weight]Loading weights:  72%|███████████████████████████████████████████████████████████████████████████████████████▍                                 | 543/751 [02:53<01:23,  2.50it/s, Materializing param=model.layers.34.input_layernorm.weight]Loading weights:  72%|████████████████████████████████████████████████████████████████████████████████████████▎                                 | 544/751 [02:53<01:22,  2.50it/s, Materializing param=model.layers.34.mlp.experts.down_proj]Loading weights:  72%|████████████████████████████████████████████████████████████████████████████████████████▎                                 | 544/751 [02:53<01:22,  2.50it/s, Materializing param=model.layers.34.mlp.experts.down_proj]Loading weights:  71%|███████████████████████████████████████████████████████████████████████████████████▉                                   | 530/751 [02:53<01:28,  2.50it/s, Materializing param=model.layers.33.mlp.experts.gate_up_proj]Loading weights:  71%|██████████████████████████████████████████████████████████████████████████████▎                                | 530/751 [02:53<01:28,  2.50it/s, Materializing param=model.layers.33.mlp.gate.e_score_correction_bias]Loading weights:  71%|██████████████████████████████████████████████████████████████████████████████▎                                | 530/751 [02:53<01:28,  2.50it/s, Materializing param=model.layers.33.mlp.gate.e_score_correction_bias]Loading weights:  71%|██████████████████████████████████████████████████████████████████████████████████████████▌                                     | 531/751 [02:53<01:28,  2.50it/s, Materializing param=model.layers.33.mlp.gate.weight]Loading weights:  71%|██████████████████████████████████████████████████████████████████████████████████████████▌                                     | 531/751 [02:53<01:28,  2.50it/s, Materializing param=model.layers.33.mlp.gate.weight]Loading weights:  71%|████████████████████████████████████████████████████████████████████████████▌                               | 532/751 [02:53<01:27,  2.50it/s, Materializing param=model.layers.33.mlp.shared_experts.down_proj.weight]Loading weights:  71%|████████████████████████████████████████████████████████████████████████████▌                               | 532/751 [02:53<01:27,  2.50it/s, Materializing param=model.layers.33.mlp.shared_experts.down_proj.weight]Loading weights:  71%|████████████████████████████████████████████████████████████████████████████▋                               | 533/751 [02:53<01:27,  2.50it/s, Materializing param=model.layers.33.mlp.shared_experts.gate_proj.weight]Loading weights:  71%|████████████████████████████████████████████████████████████████████████████▋                               | 533/751 [02:53<01:27,  2.50it/s, Materializing param=model.layers.33.mlp.shared_experts.gate_proj.weight]Loading weights:  71%|██████████████████████████████████████████████████████████████████████████████▏                               | 534/751 [02:53<01:26,  2.50it/s, Materializing param=model.layers.33.mlp.shared_experts.up_proj.weight]Loading weights:  71%|██████████████████████████████████████████████████████████████████████████████▏                               | 534/751 [02:53<01:26,  2.50it/s, Materializing param=model.layers.33.mlp.shared_experts.up_proj.weight]Loading weights:  71%|███████████████████████████████████████████████████████████████████████████████▊                                | 535/751 [02:53<01:26,  2.50it/s, Materializing param=model.layers.33.post_attention_layernorm.weight]Loading weights:  71%|███████████████████████████████████████████████████████████████████████████████▊                                | 535/751 [02:53<01:26,  2.50it/s, Materializing param=model.layers.33.post_attention_layernorm.weight]Loading weights:  71%|███████████████████████████████████████████████████████████████████████████████▉                                | 536/751 [02:53<01:26,  2.50it/s, Materializing param=model.layers.33.self_attn.kv_a_layernorm.weight]Loading weights:  71%|███████████████████████████████████████████████████████████████████████████████▉                                | 536/751 [02:53<01:26,  2.50it/s, Materializing param=model.layers.33.self_attn.kv_a_layernorm.weight]Loading weights:  72%|█████████████████████████████████████████████████████████████████████████████▏                              | 537/751 [02:53<01:25,  2.50it/s, Materializing param=model.layers.33.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  72%|█████████████████████████████████████████████████████████████████████████████▏                              | 537/751 [02:53<01:25,  2.50it/s, Materializing param=model.layers.33.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  72%|███████████████████████████████████████████████████████████████████████████████████▊                                 | 538/751 [02:53<01:25,  2.50it/s, Materializing param=model.layers.33.self_attn.kv_b_proj.weight]Loading weights:  72%|███████████████████████████████████████████████████████████████████████████████████▊                                 | 538/751 [02:53<01:25,  2.50it/s, Materializing param=model.layers.33.self_attn.kv_b_proj.weight]Loading weights:  72%|██████████████████████████████████████████████████████████████████████████████████████▏                                 | 539/751 [02:53<01:24,  2.50it/s, Materializing param=model.layers.33.self_attn.o_proj.weight]Loading weights:  72%|██████████████████████████████████████████████████████████████████████████████████████▏                                 | 539/751 [02:53<01:24,  2.50it/s, Materializing param=model.layers.33.self_attn.o_proj.weight]Loading weights:  72%|█████████████████████████████████████████████████████████████████████████████████▎                               | 540/751 [02:53<01:24,  2.50it/s, Materializing param=model.layers.33.self_attn.q_a_layernorm.weight]Loading weights:  72%|█████████████████████████████████████████████████████████████████████████████████▎                               | 540/751 [02:53<01:24,  2.50it/s, Materializing param=model.layers.33.self_attn.q_a_layernorm.weight]Loading weights:  72%|█████████████████████████████████████████████████████████████████████████████████████                                 | 541/751 [02:53<01:24,  2.50it/s, Materializing param=model.layers.33.self_attn.q_a_proj.weight]Loading weights:  72%|█████████████████████████████████████████████████████████████████████████████████████                                 | 541/751 [02:53<01:24,  2.50it/s, Materializing param=model.layers.33.self_attn.q_a_proj.weight]Loading weights:  72%|█████████████████████████████████████████████████████████████████████████████████████▏                                | 542/751 [02:53<01:23,  2.50it/s, Materializing param=model.layers.33.self_attn.q_b_proj.weight]Loading weights:  72%|█████████████████████████████████████████████████████████████████████████████████████▏                                | 542/751 [02:53<01:23,  2.50it/s, Materializing param=model.layers.33.self_attn.q_b_proj.weight]Loading weights:  72%|███████████████████████████████████████████████████████████████████████████████████████▍                                 | 543/751 [02:53<01:23,  2.50it/s, Materializing param=model.layers.34.input_layernorm.weight]Loading weights:  72%|███████████████████████████████████████████████████████████████████████████████████████▍                                 | 543/751 [02:53<01:23,  2.50it/s, Materializing param=model.layers.34.input_layernorm.weight]Loading weights:  72%|████████████████████████████████████████████████████████████████████████████████████████▎                                 | 544/751 [02:53<01:22,  2.50it/s, Materializing param=model.layers.34.mlp.experts.down_proj]Loading weights:  72%|████████████████████████████████████████████████████████████████████████████████████████▎                                 | 544/751 [02:53<01:22,  2.50it/s, Materializing param=model.layers.34.mlp.experts.down_proj]Loading weights:  73%|████████████████████████████████████████████████████████████████████████████████████████▌                                 | 545/751 [02:55<00:54,  3.77it/s, Materializing param=model.layers.34.mlp.experts.down_proj]Loading weights:  73%|████████████████████████████████████████████████████████████████████████████████████████▌                                 | 545/751 [02:55<00:54,  3.77it/s, Materializing param=model.layers.34.mlp.experts.down_proj]Loading weights:  73%|██████████████████████████████████████████████████████████████████████████████████████▎                                | 545/751 [02:55<00:54,  3.77it/s, Materializing param=model.layers.34.mlp.experts.gate_up_proj]Loading weights:  73%|██████████████████████████████████████████████████████████████████████████████████████▎                                | 545/751 [02:55<00:54,  3.77it/s, Materializing param=model.layers.34.mlp.experts.gate_up_proj]Loading weights:  73%|██████████████████████████████████████████████████████████████████████████████████████▎                                | 545/751 [02:55<00:54,  3.77it/s, Materializing param=model.layers.34.mlp.experts.gate_up_proj]Loading weights:  73%|██████████████████████████████████████████████████████████████████████████████████████▎                                | 545/751 [02:55<00:54,  3.77it/s, Materializing param=model.layers.34.mlp.experts.gate_up_proj]Loading weights:  73%|██████████████████████████████████████████████████████████████████████████████████████▌                                | 546/751 [02:58<01:22,  2.47it/s, Materializing param=model.layers.34.mlp.experts.gate_up_proj]Loading weights:  73%|████████████████████████████████████████████████████████████████████████████████▋                              | 546/751 [02:58<01:22,  2.47it/s, Materializing param=model.layers.34.mlp.gate.e_score_correction_bias]Loading weights:  73%|████████████████████████████████████████████████████████████████████████████████▋                              | 546/751 [02:58<01:22,  2.47it/s, Materializing param=model.layers.34.mlp.gate.e_score_correction_bias]Loading weights:  73%|█████████████████████████████████████████████████████████████████████████████████████████████▏                                  | 547/751 [02:58<01:22,  2.47it/s, Materializing param=model.layers.34.mlp.gate.weight]Loading weights:  73%|█████████████████████████████████████████████████████████████████████████████████████████████▏                                  | 547/751 [02:58<01:22,  2.47it/s, Materializing param=model.layers.34.mlp.gate.weight]Loading weights:  73%|██████████████████████████████████████████████████████████████████████████████▊                             | 548/751 [02:58<01:22,  2.47it/s, Materializing param=model.layers.34.mlp.shared_experts.down_proj.weight]Loading weights:  73%|██████████████████████████████████████████████████████████████████████████████▊                             | 548/751 [02:58<01:22,  2.47it/s, Materializing param=model.layers.34.mlp.shared_experts.down_proj.weight]Loading weights:  73%|██████████████████████████████████████████████████████████████████████████████▉                             | 549/751 [02:58<01:21,  2.47it/s, Materializing param=model.layers.34.mlp.shared_experts.gate_proj.weight]Loading weights:  73%|██████████████████████████████████████████████████████████████████████████████▉                             | 549/751 [02:58<01:21,  2.47it/s, Materializing param=model.layers.34.mlp.shared_experts.gate_proj.weight]Loading weights:  73%|████████████████████████████████████████████████████████████████████████████████▌                             | 550/751 [02:58<01:21,  2.47it/s, Materializing param=model.layers.34.mlp.shared_experts.up_proj.weight]Loading weights:  73%|████████████████████████████████████████████████████████████████████████████████▌                             | 550/751 [02:58<01:21,  2.47it/s, Materializing param=model.layers.34.mlp.shared_experts.up_proj.weight]Loading weights:  73%|██████████████████████████████████████████████████████████████████████████████████▏                             | 551/751 [02:58<01:20,  2.47it/s, Materializing param=model.layers.34.post_attention_layernorm.weight]Loading weights:  73%|██████████████████████████████████████████████████████████████████████████████████▏                             | 551/751 [02:58<01:20,  2.47it/s, Materializing param=model.layers.34.post_attention_layernorm.weight]Loading weights:  74%|██████████████████████████████████████████████████████████████████████████████████▎                             | 552/751 [02:58<01:20,  2.47it/s, Materializing param=model.layers.34.self_attn.kv_a_layernorm.weight]Loading weights:  74%|██████████████████████████████████████████████████████████████████████████████████▎                             | 552/751 [02:58<01:20,  2.47it/s, Materializing param=model.layers.34.self_attn.kv_a_layernorm.weight]Loading weights:  74%|███████████████████████████████████████████████████████████████████████████████▌                            | 553/751 [02:58<01:20,  2.47it/s, Materializing param=model.layers.34.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  74%|███████████████████████████████████████████████████████████████████████████████▌                            | 553/751 [02:58<01:20,  2.47it/s, Materializing param=model.layers.34.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  74%|██████████████████████████████████████████████████████████████████████████████████████▎                              | 554/751 [02:58<01:19,  2.47it/s, Materializing param=model.layers.34.self_attn.kv_b_proj.weight]Loading weights:  74%|██████████████████████████████████████████████████████████████████████████████████████▎                              | 554/751 [02:58<01:19,  2.47it/s, Materializing param=model.layers.34.self_attn.kv_b_proj.weight]Loading weights:  74%|████████████████████████████████████████████████████████████████████████████████████████▋                               | 555/751 [02:58<01:19,  2.47it/s, Materializing param=model.layers.34.self_attn.o_proj.weight]Loading weights:  74%|████████████████████████████████████████████████████████████████████████████████████████▋                               | 555/751 [02:58<01:19,  2.47it/s, Materializing param=model.layers.34.self_attn.o_proj.weight]Loading weights:  74%|███████████████████████████████████████████████████████████████████████████████████▋                             | 556/751 [02:58<01:18,  2.47it/s, Materializing param=model.layers.34.self_attn.q_a_layernorm.weight]Loading weights:  74%|███████████████████████████████████████████████████████████████████████████████████▋                             | 556/751 [02:58<01:18,  2.47it/s, Materializing param=model.layers.34.self_attn.q_a_layernorm.weight]Loading weights:  74%|███████████████████████████████████████████████████████████████████████████████████████▌                              | 557/751 [02:58<01:18,  2.47it/s, Materializing param=model.layers.34.self_attn.q_a_proj.weight]Loading weights:  74%|███████████████████████████████████████████████████████████████████████████████████████▌                              | 557/751 [02:58<01:18,  2.47it/s, Materializing param=model.layers.34.self_attn.q_a_proj.weight]Loading weights:  74%|███████████████████████████████████████████████████████████████████████████████████████▋                              | 558/751 [02:58<01:18,  2.47it/s, Materializing param=model.layers.34.self_attn.q_b_proj.weight]Loading weights:  74%|███████████████████████████████████████████████████████████████████████████████████████▋                              | 558/751 [02:58<01:18,  2.47it/s, Materializing param=model.layers.34.self_attn.q_b_proj.weight]Loading weights:  74%|██████████████████████████████████████████████████████████████████████████████████████████                               | 559/751 [02:58<01:17,  2.47it/s, Materializing param=model.layers.35.input_layernorm.weight]Loading weights:  74%|██████████████████████████████████████████████████████████████████████████████████████████                               | 559/751 [02:58<01:17,  2.47it/s, Materializing param=model.layers.35.input_layernorm.weight]Loading weights:  75%|██████████████████████████████████████████████████████████████████████████████████████████▉                               | 560/751 [02:58<01:17,  2.47it/s, Materializing param=model.layers.35.mlp.experts.down_proj]Loading weights:  75%|██████████████████████████████████████████████████████████████████████████████████████████▉                               | 560/751 [02:58<01:17,  2.47it/s, Materializing param=model.layers.35.mlp.experts.down_proj]Loading weights:  73%|██████████████████████████████████████████████████████████████████████████████████████▌                                | 546/751 [02:58<01:23,  2.47it/s, Materializing param=model.layers.34.mlp.experts.gate_up_proj]Loading weights:  73%|████████████████████████████████████████████████████████████████████████████████▋                              | 546/751 [02:58<01:23,  2.47it/s, Materializing param=model.layers.34.mlp.gate.e_score_correction_bias]Loading weights:  73%|████████████████████████████████████████████████████████████████████████████████▋                              | 546/751 [02:58<01:23,  2.47it/s, Materializing param=model.layers.34.mlp.gate.e_score_correction_bias]Loading weights:  73%|█████████████████████████████████████████████████████████████████████████████████████████████▏                                  | 547/751 [02:58<01:22,  2.47it/s, Materializing param=model.layers.34.mlp.gate.weight]Loading weights:  73%|█████████████████████████████████████████████████████████████████████████████████████████████▏                                  | 547/751 [02:58<01:22,  2.47it/s, Materializing param=model.layers.34.mlp.gate.weight]Loading weights:  73%|██████████████████████████████████████████████████████████████████████████████▊                             | 548/751 [02:58<01:22,  2.47it/s, Materializing param=model.layers.34.mlp.shared_experts.down_proj.weight]Loading weights:  73%|██████████████████████████████████████████████████████████████████████████████▊                             | 548/751 [02:58<01:22,  2.47it/s, Materializing param=model.layers.34.mlp.shared_experts.down_proj.weight]Loading weights:  73%|██████████████████████████████████████████████████████████████████████████████▉                             | 549/751 [02:58<01:21,  2.47it/s, Materializing param=model.layers.34.mlp.shared_experts.gate_proj.weight]Loading weights:  73%|██████████████████████████████████████████████████████████████████████████████▉                             | 549/751 [02:58<01:21,  2.47it/s, Materializing param=model.layers.34.mlp.shared_experts.gate_proj.weight]Loading weights:  73%|████████████████████████████████████████████████████████████████████████████████▌                             | 550/751 [02:58<01:21,  2.47it/s, Materializing param=model.layers.34.mlp.shared_experts.up_proj.weight]Loading weights:  73%|████████████████████████████████████████████████████████████████████████████████▌                             | 550/751 [02:58<01:21,  2.47it/s, Materializing param=model.layers.34.mlp.shared_experts.up_proj.weight]Loading weights:  73%|██████████████████████████████████████████████████████████████████████████████████▏                             | 551/751 [02:58<01:20,  2.47it/s, Materializing param=model.layers.34.post_attention_layernorm.weight]Loading weights:  73%|██████████████████████████████████████████████████████████████████████████████████▏                             | 551/751 [02:58<01:20,  2.47it/s, Materializing param=model.layers.34.post_attention_layernorm.weight]Loading weights:  74%|██████████████████████████████████████████████████████████████████████████████████▎                             | 552/751 [02:58<01:20,  2.47it/s, Materializing param=model.layers.34.self_attn.kv_a_layernorm.weight]Loading weights:  74%|██████████████████████████████████████████████████████████████████████████████████▎                             | 552/751 [02:58<01:20,  2.47it/s, Materializing param=model.layers.34.self_attn.kv_a_layernorm.weight]Loading weights:  74%|███████████████████████████████████████████████████████████████████████████████▌                            | 553/751 [02:58<01:20,  2.47it/s, Materializing param=model.layers.34.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  74%|███████████████████████████████████████████████████████████████████████████████▌                            | 553/751 [02:58<01:20,  2.47it/s, Materializing param=model.layers.34.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  74%|██████████████████████████████████████████████████████████████████████████████████████▎                              | 554/751 [02:58<01:19,  2.47it/s, Materializing param=model.layers.34.self_attn.kv_b_proj.weight]Loading weights:  74%|██████████████████████████████████████████████████████████████████████████████████████▎                              | 554/751 [02:58<01:19,  2.47it/s, Materializing param=model.layers.34.self_attn.kv_b_proj.weight]Loading weights:  74%|████████████████████████████████████████████████████████████████████████████████████████▋                               | 555/751 [02:58<01:19,  2.47it/s, Materializing param=model.layers.34.self_attn.o_proj.weight]Loading weights:  74%|████████████████████████████████████████████████████████████████████████████████████████▋                               | 555/751 [02:58<01:19,  2.47it/s, Materializing param=model.layers.34.self_attn.o_proj.weight]Loading weights:  74%|███████████████████████████████████████████████████████████████████████████████████▋                             | 556/751 [02:58<01:18,  2.47it/s, Materializing param=model.layers.34.self_attn.q_a_layernorm.weight]Loading weights:  74%|███████████████████████████████████████████████████████████████████████████████████▋                             | 556/751 [02:58<01:18,  2.47it/s, Materializing param=model.layers.34.self_attn.q_a_layernorm.weight]Loading weights:  74%|███████████████████████████████████████████████████████████████████████████████████████▌                              | 557/751 [02:58<01:18,  2.47it/s, Materializing param=model.layers.34.self_attn.q_a_proj.weight]Loading weights:  74%|███████████████████████████████████████████████████████████████████████████████████████▌                              | 557/751 [02:58<01:18,  2.47it/s, Materializing param=model.layers.34.self_attn.q_a_proj.weight]Loading weights:  74%|███████████████████████████████████████████████████████████████████████████████████████▋                              | 558/751 [02:58<01:18,  2.47it/s, Materializing param=model.layers.34.self_attn.q_b_proj.weight]Loading weights:  74%|███████████████████████████████████████████████████████████████████████████████████████▋                              | 558/751 [02:58<01:18,  2.47it/s, Materializing param=model.layers.34.self_attn.q_b_proj.weight]Loading weights:  74%|██████████████████████████████████████████████████████████████████████████████████████████                               | 559/751 [02:58<01:17,  2.47it/s, Materializing param=model.layers.35.input_layernorm.weight]Loading weights:  74%|██████████████████████████████████████████████████████████████████████████████████████████                               | 559/751 [02:58<01:17,  2.47it/s, Materializing param=model.layers.35.input_layernorm.weight]Loading weights:  75%|██████████████████████████████████████████████████████████████████████████████████████████▉                               | 560/751 [02:58<01:17,  2.47it/s, Materializing param=model.layers.35.mlp.experts.down_proj]Loading weights:  75%|██████████████████████████████████████████████████████████████████████████████████████████▉                               | 560/751 [02:58<01:17,  2.47it/s, Materializing param=model.layers.35.mlp.experts.down_proj]Loading weights:  75%|███████████████████████████████████████████████████████████████████████████████████████████▏                              | 561/751 [03:00<00:49,  3.81it/s, Materializing param=model.layers.35.mlp.experts.down_proj]Loading weights:  75%|███████████████████████████████████████████████████████████████████████████████████████████▏                              | 561/751 [03:00<00:49,  3.81it/s, Materializing param=model.layers.35.mlp.experts.down_proj]Loading weights:  75%|████████████████████████████████████████████████████████████████████████████████████████▉                              | 561/751 [03:00<00:49,  3.81it/s, Materializing param=model.layers.35.mlp.experts.gate_up_proj]Loading weights:  75%|████████████████████████████████████████████████████████████████████████████████████████▉                              | 561/751 [03:00<00:49,  3.81it/s, Materializing param=model.layers.35.mlp.experts.gate_up_proj]Loading weights:  75%|████████████████████████████████████████████████████████████████████████████████████████▉                              | 561/751 [03:00<00:49,  3.81it/s, Materializing param=model.layers.35.mlp.experts.gate_up_proj]Loading weights:  75%|████████████████████████████████████████████████████████████████████████████████████████▉                              | 561/751 [03:00<00:49,  3.81it/s, Materializing param=model.layers.35.mlp.experts.gate_up_proj]Loading weights:  75%|█████████████████████████████████████████████████████████████████████████████████████████                              | 562/751 [03:03<01:15,  2.50it/s, Materializing param=model.layers.35.mlp.experts.gate_up_proj]Loading weights:  75%|███████████████████████████████████████████████████████████████████████████████████                            | 562/751 [03:03<01:15,  2.50it/s, Materializing param=model.layers.35.mlp.gate.e_score_correction_bias]Loading weights:  75%|███████████████████████████████████████████████████████████████████████████████████                            | 562/751 [03:03<01:15,  2.50it/s, Materializing param=model.layers.35.mlp.gate.e_score_correction_bias]Loading weights:  75%|███████████████████████████████████████████████████████████████████████████████████████████████▉                                | 563/751 [03:03<01:15,  2.50it/s, Materializing param=model.layers.35.mlp.gate.weight]Loading weights:  75%|███████████████████████████████████████████████████████████████████████████████████████████████▉                                | 563/751 [03:03<01:15,  2.50it/s, Materializing param=model.layers.35.mlp.gate.weight]Loading weights:  75%|█████████████████████████████████████████████████████████████████████████████████                           | 564/751 [03:03<01:14,  2.50it/s, Materializing param=model.layers.35.mlp.shared_experts.down_proj.weight]Loading weights:  75%|█████████████████████████████████████████████████████████████████████████████████                           | 564/751 [03:03<01:14,  2.50it/s, Materializing param=model.layers.35.mlp.shared_experts.down_proj.weight]Loading weights:  75%|█████████████████████████████████████████████████████████████████████████████████▎                          | 565/751 [03:03<01:14,  2.50it/s, Materializing param=model.layers.35.mlp.shared_experts.gate_proj.weight]Loading weights:  75%|█████████████████████████████████████████████████████████████████████████████████▎                          | 565/751 [03:03<01:14,  2.50it/s, Materializing param=model.layers.35.mlp.shared_experts.gate_proj.weight]Loading weights:  75%|██████████████████████████████████████████████████████████████████████████████████▉                           | 566/751 [03:03<01:14,  2.50it/s, Materializing param=model.layers.35.mlp.shared_experts.up_proj.weight]Loading weights:  75%|██████████████████████████████████████████████████████████████████████████████████▉                           | 566/751 [03:03<01:14,  2.50it/s, Materializing param=model.layers.35.mlp.shared_experts.up_proj.weight]Loading weights:  75%|████████████████████████████████████████████████████████████████████████████████████▌                           | 567/751 [03:03<01:13,  2.50it/s, Materializing param=model.layers.35.post_attention_layernorm.weight]Loading weights:  75%|████████████████████████████████████████████████████████████████████████████████████▌                           | 567/751 [03:03<01:13,  2.50it/s, Materializing param=model.layers.35.post_attention_layernorm.weight]Loading weights:  76%|████████████████████████████████████████████████████████████████████████████████████▋                           | 568/751 [03:03<01:13,  2.50it/s, Materializing param=model.layers.35.self_attn.kv_a_layernorm.weight]Loading weights:  76%|████████████████████████████████████████████████████████████████████████████████████▋                           | 568/751 [03:03<01:13,  2.50it/s, Materializing param=model.layers.35.self_attn.kv_a_layernorm.weight]Loading weights:  76%|█████████████████████████████████████████████████████████████████████████████████▊                          | 569/751 [03:03<01:12,  2.50it/s, Materializing param=model.layers.35.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  76%|█████████████████████████████████████████████████████████████████████████████████▊                          | 569/751 [03:03<01:12,  2.50it/s, Materializing param=model.layers.35.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  76%|████████████████████████████████████████████████████████████████████████████████████████▊                            | 570/751 [03:03<01:12,  2.50it/s, Materializing param=model.layers.35.self_attn.kv_b_proj.weight]Loading weights:  76%|████████████████████████████████████████████████████████████████████████████████████████▊                            | 570/751 [03:03<01:12,  2.50it/s, Materializing param=model.layers.35.self_attn.kv_b_proj.weight]Loading weights:  76%|███████████████████████████████████████████████████████████████████████████████████████████▏                            | 571/751 [03:03<01:12,  2.50it/s, Materializing param=model.layers.35.self_attn.o_proj.weight]Loading weights:  76%|███████████████████████████████████████████████████████████████████████████████████████████▏                            | 571/751 [03:03<01:12,  2.50it/s, Materializing param=model.layers.35.self_attn.o_proj.weight]Loading weights:  76%|██████████████████████████████████████████████████████████████████████████████████████                           | 572/751 [03:03<01:11,  2.50it/s, Materializing param=model.layers.35.self_attn.q_a_layernorm.weight]Loading weights:  76%|██████████████████████████████████████████████████████████████████████████████████████                           | 572/751 [03:03<01:11,  2.50it/s, Materializing param=model.layers.35.self_attn.q_a_layernorm.weight]Loading weights:  76%|██████████████████████████████████████████████████████████████████████████████████████████                            | 573/751 [03:03<01:11,  2.50it/s, Materializing param=model.layers.35.self_attn.q_a_proj.weight]Loading weights:  76%|██████████████████████████████████████████████████████████████████████████████████████████                            | 573/751 [03:03<01:11,  2.50it/s, Materializing param=model.layers.35.self_attn.q_a_proj.weight]Loading weights:  76%|██████████████████████████████████████████████████████████████████████████████████████████▏                           | 574/751 [03:03<01:10,  2.50it/s, Materializing param=model.layers.35.self_attn.q_b_proj.weight]Loading weights:  76%|██████████████████████████████████████████████████████████████████████████████████████████▏                           | 574/751 [03:03<01:10,  2.50it/s, Materializing param=model.layers.35.self_attn.q_b_proj.weight]Loading weights:  77%|████████████████████████████████████████████████████████████████████████████████████████████▋                            | 575/751 [03:03<01:10,  2.50it/s, Materializing param=model.layers.36.input_layernorm.weight]Loading weights:  77%|████████████████████████████████████████████████████████████████████████████████████████████▋                            | 575/751 [03:03<01:10,  2.50it/s, Materializing param=model.layers.36.input_layernorm.weight]Loading weights:  77%|█████████████████████████████████████████████████████████████████████████████████████████████▌                            | 576/751 [03:03<01:10,  2.50it/s, Materializing param=model.layers.36.mlp.experts.down_proj]Loading weights:  77%|█████████████████████████████████████████████████████████████████████████████████████████████▌                            | 576/751 [03:03<01:10,  2.50it/s, Materializing param=model.layers.36.mlp.experts.down_proj]Loading weights:  75%|█████████████████████████████████████████████████████████████████████████████████████████                              | 562/751 [03:03<01:15,  2.50it/s, Materializing param=model.layers.35.mlp.experts.gate_up_proj]Loading weights:  75%|███████████████████████████████████████████████████████████████████████████████████                            | 562/751 [03:03<01:15,  2.50it/s, Materializing param=model.layers.35.mlp.gate.e_score_correction_bias]Loading weights:  75%|███████████████████████████████████████████████████████████████████████████████████                            | 562/751 [03:03<01:15,  2.50it/s, Materializing param=model.layers.35.mlp.gate.e_score_correction_bias]Loading weights:  75%|███████████████████████████████████████████████████████████████████████████████████████████████▉                                | 563/751 [03:03<01:15,  2.50it/s, Materializing param=model.layers.35.mlp.gate.weight]Loading weights:  75%|███████████████████████████████████████████████████████████████████████████████████████████████▉                                | 563/751 [03:03<01:15,  2.50it/s, Materializing param=model.layers.35.mlp.gate.weight]Loading weights:  75%|█████████████████████████████████████████████████████████████████████████████████                           | 564/751 [03:03<01:14,  2.50it/s, Materializing param=model.layers.35.mlp.shared_experts.down_proj.weight]Loading weights:  75%|█████████████████████████████████████████████████████████████████████████████████                           | 564/751 [03:03<01:14,  2.50it/s, Materializing param=model.layers.35.mlp.shared_experts.down_proj.weight]Loading weights:  75%|█████████████████████████████████████████████████████████████████████████████████▎                          | 565/751 [03:03<01:14,  2.50it/s, Materializing param=model.layers.35.mlp.shared_experts.gate_proj.weight]Loading weights:  75%|█████████████████████████████████████████████████████████████████████████████████▎                          | 565/751 [03:03<01:14,  2.50it/s, Materializing param=model.layers.35.mlp.shared_experts.gate_proj.weight]Loading weights:  75%|██████████████████████████████████████████████████████████████████████████████████▉                           | 566/751 [03:03<01:14,  2.50it/s, Materializing param=model.layers.35.mlp.shared_experts.up_proj.weight]Loading weights:  75%|██████████████████████████████████████████████████████████████████████████████████▉                           | 566/751 [03:03<01:14,  2.50it/s, Materializing param=model.layers.35.mlp.shared_experts.up_proj.weight]Loading weights:  75%|████████████████████████████████████████████████████████████████████████████████████▌                           | 567/751 [03:03<01:13,  2.50it/s, Materializing param=model.layers.35.post_attention_layernorm.weight]Loading weights:  75%|████████████████████████████████████████████████████████████████████████████████████▌                           | 567/751 [03:03<01:13,  2.50it/s, Materializing param=model.layers.35.post_attention_layernorm.weight]Loading weights:  76%|████████████████████████████████████████████████████████████████████████████████████▋                           | 568/751 [03:03<01:13,  2.50it/s, Materializing param=model.layers.35.self_attn.kv_a_layernorm.weight]Loading weights:  76%|████████████████████████████████████████████████████████████████████████████████████▋                           | 568/751 [03:03<01:13,  2.50it/s, Materializing param=model.layers.35.self_attn.kv_a_layernorm.weight]Loading weights:  76%|█████████████████████████████████████████████████████████████████████████████████▊                          | 569/751 [03:03<01:12,  2.50it/s, Materializing param=model.layers.35.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  76%|█████████████████████████████████████████████████████████████████████████████████▊                          | 569/751 [03:03<01:12,  2.50it/s, Materializing param=model.layers.35.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  76%|████████████████████████████████████████████████████████████████████████████████████████▊                            | 570/751 [03:03<01:12,  2.50it/s, Materializing param=model.layers.35.self_attn.kv_b_proj.weight]Loading weights:  76%|████████████████████████████████████████████████████████████████████████████████████████▊                            | 570/751 [03:03<01:12,  2.50it/s, Materializing param=model.layers.35.self_attn.kv_b_proj.weight]Loading weights:  76%|███████████████████████████████████████████████████████████████████████████████████████████▏                            | 571/751 [03:03<01:12,  2.50it/s, Materializing param=model.layers.35.self_attn.o_proj.weight]Loading weights:  76%|███████████████████████████████████████████████████████████████████████████████████████████▏                            | 571/751 [03:03<01:12,  2.50it/s, Materializing param=model.layers.35.self_attn.o_proj.weight]Loading weights:  76%|██████████████████████████████████████████████████████████████████████████████████████                           | 572/751 [03:03<01:11,  2.50it/s, Materializing param=model.layers.35.self_attn.q_a_layernorm.weight]Loading weights:  76%|██████████████████████████████████████████████████████████████████████████████████████                           | 572/751 [03:03<01:11,  2.50it/s, Materializing param=model.layers.35.self_attn.q_a_layernorm.weight]Loading weights:  76%|██████████████████████████████████████████████████████████████████████████████████████████                            | 573/751 [03:03<01:11,  2.50it/s, Materializing param=model.layers.35.self_attn.q_a_proj.weight]Loading weights:  76%|██████████████████████████████████████████████████████████████████████████████████████████                            | 573/751 [03:03<01:11,  2.50it/s, Materializing param=model.layers.35.self_attn.q_a_proj.weight]Loading weights:  76%|██████████████████████████████████████████████████████████████████████████████████████████▏                           | 574/751 [03:03<01:10,  2.50it/s, Materializing param=model.layers.35.self_attn.q_b_proj.weight]Loading weights:  76%|██████████████████████████████████████████████████████████████████████████████████████████▏                           | 574/751 [03:03<01:10,  2.50it/s, Materializing param=model.layers.35.self_attn.q_b_proj.weight]Loading weights:  77%|████████████████████████████████████████████████████████████████████████████████████████████▋                            | 575/751 [03:03<01:10,  2.50it/s, Materializing param=model.layers.36.input_layernorm.weight]Loading weights:  77%|████████████████████████████████████████████████████████████████████████████████████████████▋                            | 575/751 [03:03<01:10,  2.50it/s, Materializing param=model.layers.36.input_layernorm.weight]Loading weights:  77%|█████████████████████████████████████████████████████████████████████████████████████████████▌                            | 576/751 [03:03<01:10,  2.50it/s, Materializing param=model.layers.36.mlp.experts.down_proj]Loading weights:  77%|█████████████████████████████████████████████████████████████████████████████████████████████▌                            | 576/751 [03:03<01:10,  2.50it/s, Materializing param=model.layers.36.mlp.experts.down_proj]Loading weights:  77%|█████████████████████████████████████████████████████████████████████████████████████████████▋                            | 577/751 [03:05<00:44,  3.87it/s, Materializing param=model.layers.36.mlp.experts.down_proj]Loading weights:  77%|█████████████████████████████████████████████████████████████████████████████████████████████▋                            | 577/751 [03:05<00:44,  3.87it/s, Materializing param=model.layers.36.mlp.experts.down_proj]Loading weights:  77%|███████████████████████████████████████████████████████████████████████████████████████████▍                           | 577/751 [03:05<00:44,  3.87it/s, Materializing param=model.layers.36.mlp.experts.gate_up_proj]Loading weights:  77%|███████████████████████████████████████████████████████████████████████████████████████████▍                           | 577/751 [03:05<00:44,  3.87it/s, Materializing param=model.layers.36.mlp.experts.gate_up_proj]Loading weights:  77%|███████████████████████████████████████████████████████████████████████████████████████████▍                           | 577/751 [03:05<00:44,  3.87it/s, Materializing param=model.layers.36.mlp.experts.gate_up_proj]Loading weights:  77%|███████████████████████████████████████████████████████████████████████████████████████████▍                           | 577/751 [03:05<00:44,  3.87it/s, Materializing param=model.layers.36.mlp.experts.gate_up_proj]Loading weights:  77%|███████████████████████████████████████████████████████████████████████████████████████████▌                           | 578/751 [03:08<01:09,  2.49it/s, Materializing param=model.layers.36.mlp.experts.gate_up_proj]Loading weights:  77%|█████████████████████████████████████████████████████████████████████████████████████▍                         | 578/751 [03:08<01:09,  2.49it/s, Materializing param=model.layers.36.mlp.gate.e_score_correction_bias]Loading weights:  77%|█████████████████████████████████████████████████████████████████████████████████████▍                         | 578/751 [03:08<01:09,  2.49it/s, Materializing param=model.layers.36.mlp.gate.e_score_correction_bias]Loading weights:  77%|██████████████████████████████████████████████████████████████████████████████████████████████████▋                             | 579/751 [03:08<01:08,  2.49it/s, Materializing param=model.layers.36.mlp.gate.weight]Loading weights:  77%|██████████████████████████████████████████████████████████████████████████████████████████████████▋                             | 579/751 [03:08<01:08,  2.49it/s, Materializing param=model.layers.36.mlp.gate.weight]Loading weights:  77%|███████████████████████████████████████████████████████████████████████████████████▍                        | 580/751 [03:08<01:08,  2.49it/s, Materializing param=model.layers.36.mlp.shared_experts.down_proj.weight]Loading weights:  77%|███████████████████████████████████████████████████████████████████████████████████▍                        | 580/751 [03:08<01:08,  2.49it/s, Materializing param=model.layers.36.mlp.shared_experts.down_proj.weight]Loading weights:  77%|███████████████████████████████████████████████████████████████████████████████████▌                        | 581/751 [03:08<01:08,  2.49it/s, Materializing param=model.layers.36.mlp.shared_experts.gate_proj.weight]Loading weights:  77%|███████████████████████████████████████████████████████████████████████████████████▌                        | 581/751 [03:08<01:08,  2.49it/s, Materializing param=model.layers.36.mlp.shared_experts.gate_proj.weight]Loading weights:  77%|█████████████████████████████████████████████████████████████████████████████████████▏                        | 582/751 [03:08<01:07,  2.49it/s, Materializing param=model.layers.36.mlp.shared_experts.up_proj.weight]Loading weights:  77%|█████████████████████████████████████████████████████████████████████████████████████▏                        | 582/751 [03:08<01:07,  2.49it/s, Materializing param=model.layers.36.mlp.shared_experts.up_proj.weight]Loading weights:  78%|██████████████████████████████████████████████████████████████████████████████████████▉                         | 583/751 [03:08<01:07,  2.49it/s, Materializing param=model.layers.36.post_attention_layernorm.weight]Loading weights:  78%|██████████████████████████████████████████████████████████████████████████████████████▉                         | 583/751 [03:08<01:07,  2.49it/s, Materializing param=model.layers.36.post_attention_layernorm.weight]Loading weights:  78%|███████████████████████████████████████████████████████████████████████████████████████                         | 584/751 [03:08<01:06,  2.49it/s, Materializing param=model.layers.36.self_attn.kv_a_layernorm.weight]Loading weights:  78%|███████████████████████████████████████████████████████████████████████████████████████                         | 584/751 [03:08<01:06,  2.49it/s, Materializing param=model.layers.36.self_attn.kv_a_layernorm.weight]Loading weights:  78%|████████████████████████████████████████████████████████████████████████████████████▏                       | 585/751 [03:08<01:06,  2.49it/s, Materializing param=model.layers.36.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  78%|████████████████████████████████████████████████████████████████████████████████████▏                       | 585/751 [03:08<01:06,  2.49it/s, Materializing param=model.layers.36.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  78%|███████████████████████████████████████████████████████████████████████████████████████████▎                         | 586/751 [03:08<01:06,  2.49it/s, Materializing param=model.layers.36.self_attn.kv_b_proj.weight]Loading weights:  78%|███████████████████████████████████████████████████████████████████████████████████████████▎                         | 586/751 [03:08<01:06,  2.49it/s, Materializing param=model.layers.36.self_attn.kv_b_proj.weight]Loading weights:  78%|█████████████████████████████████████████████████████████████████████████████████████████████▊                          | 587/751 [03:08<01:05,  2.49it/s, Materializing param=model.layers.36.self_attn.o_proj.weight]Loading weights:  78%|█████████████████████████████████████████████████████████████████████████████████████████████▊                          | 587/751 [03:08<01:05,  2.49it/s, Materializing param=model.layers.36.self_attn.o_proj.weight]Loading weights:  78%|████████████████████████████████████████████████████████████████████████████████████████▍                        | 588/751 [03:08<01:05,  2.49it/s, Materializing param=model.layers.36.self_attn.q_a_layernorm.weight]Loading weights:  78%|████████████████████████████████████████████████████████████████████████████████████████▍                        | 588/751 [03:08<01:05,  2.49it/s, Materializing param=model.layers.36.self_attn.q_a_layernorm.weight]Loading weights:  78%|████████████████████████████████████████████████████████████████████████████████████████████▌                         | 589/751 [03:08<01:04,  2.49it/s, Materializing param=model.layers.36.self_attn.q_a_proj.weight]Loading weights:  78%|████████████████████████████████████████████████████████████████████████████████████████████▌                         | 589/751 [03:08<01:04,  2.49it/s, Materializing param=model.layers.36.self_attn.q_a_proj.weight]Loading weights:  79%|████████████████████████████████████████████████████████████████████████████████████████████▋                         | 590/751 [03:08<01:04,  2.49it/s, Materializing param=model.layers.36.self_attn.q_b_proj.weight]Loading weights:  79%|████████████████████████████████████████████████████████████████████████████████████████████▋                         | 590/751 [03:08<01:04,  2.49it/s, Materializing param=model.layers.36.self_attn.q_b_proj.weight]Loading weights:  79%|███████████████████████████████████████████████████████████████████████████████████████████████▏                         | 591/751 [03:08<01:04,  2.49it/s, Materializing param=model.layers.37.input_layernorm.weight]Loading weights:  79%|███████████████████████████████████████████████████████████████████████████████████████████████▏                         | 591/751 [03:08<01:04,  2.49it/s, Materializing param=model.layers.37.input_layernorm.weight]Loading weights:  79%|████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 592/751 [03:08<01:03,  2.49it/s, Materializing param=model.layers.37.mlp.experts.down_proj]Loading weights:  79%|████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 592/751 [03:08<01:03,  2.49it/s, Materializing param=model.layers.37.mlp.experts.down_proj]Loading weights:  77%|███████████████████████████████████████████████████████████████████████████████████████████▌                           | 578/751 [03:08<01:09,  2.49it/s, Materializing param=model.layers.36.mlp.experts.gate_up_proj]Loading weights:  77%|█████████████████████████████████████████████████████████████████████████████████████▍                         | 578/751 [03:08<01:09,  2.49it/s, Materializing param=model.layers.36.mlp.gate.e_score_correction_bias]Loading weights:  77%|█████████████████████████████████████████████████████████████████████████████████████▍                         | 578/751 [03:08<01:09,  2.49it/s, Materializing param=model.layers.36.mlp.gate.e_score_correction_bias]Loading weights:  77%|██████████████████████████████████████████████████████████████████████████████████████████████████▋                             | 579/751 [03:08<01:08,  2.49it/s, Materializing param=model.layers.36.mlp.gate.weight]Loading weights:  77%|██████████████████████████████████████████████████████████████████████████████████████████████████▋                             | 579/751 [03:08<01:08,  2.49it/s, Materializing param=model.layers.36.mlp.gate.weight]Loading weights:  77%|███████████████████████████████████████████████████████████████████████████████████▍                        | 580/751 [03:08<01:08,  2.49it/s, Materializing param=model.layers.36.mlp.shared_experts.down_proj.weight]Loading weights:  77%|███████████████████████████████████████████████████████████████████████████████████▍                        | 580/751 [03:08<01:08,  2.49it/s, Materializing param=model.layers.36.mlp.shared_experts.down_proj.weight]Loading weights:  77%|███████████████████████████████████████████████████████████████████████████████████▌                        | 581/751 [03:08<01:08,  2.49it/s, Materializing param=model.layers.36.mlp.shared_experts.gate_proj.weight]Loading weights:  77%|███████████████████████████████████████████████████████████████████████████████████▌                        | 581/751 [03:08<01:08,  2.49it/s, Materializing param=model.layers.36.mlp.shared_experts.gate_proj.weight]Loading weights:  77%|█████████████████████████████████████████████████████████████████████████████████████▏                        | 582/751 [03:08<01:07,  2.49it/s, Materializing param=model.layers.36.mlp.shared_experts.up_proj.weight]Loading weights:  77%|█████████████████████████████████████████████████████████████████████████████████████▏                        | 582/751 [03:08<01:07,  2.49it/s, Materializing param=model.layers.36.mlp.shared_experts.up_proj.weight]Loading weights:  78%|██████████████████████████████████████████████████████████████████████████████████████▉                         | 583/751 [03:08<01:07,  2.49it/s, Materializing param=model.layers.36.post_attention_layernorm.weight]Loading weights:  78%|██████████████████████████████████████████████████████████████████████████████████████▉                         | 583/751 [03:08<01:07,  2.49it/s, Materializing param=model.layers.36.post_attention_layernorm.weight]Loading weights:  78%|███████████████████████████████████████████████████████████████████████████████████████                         | 584/751 [03:08<01:06,  2.49it/s, Materializing param=model.layers.36.self_attn.kv_a_layernorm.weight]Loading weights:  78%|███████████████████████████████████████████████████████████████████████████████████████                         | 584/751 [03:08<01:06,  2.49it/s, Materializing param=model.layers.36.self_attn.kv_a_layernorm.weight]Loading weights:  78%|████████████████████████████████████████████████████████████████████████████████████▏                       | 585/751 [03:08<01:06,  2.49it/s, Materializing param=model.layers.36.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  78%|████████████████████████████████████████████████████████████████████████████████████▏                       | 585/751 [03:08<01:06,  2.49it/s, Materializing param=model.layers.36.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  78%|███████████████████████████████████████████████████████████████████████████████████████████▎                         | 586/751 [03:08<01:06,  2.49it/s, Materializing param=model.layers.36.self_attn.kv_b_proj.weight]Loading weights:  78%|███████████████████████████████████████████████████████████████████████████████████████████▎                         | 586/751 [03:08<01:06,  2.49it/s, Materializing param=model.layers.36.self_attn.kv_b_proj.weight]Loading weights:  78%|█████████████████████████████████████████████████████████████████████████████████████████████▊                          | 587/751 [03:08<01:05,  2.49it/s, Materializing param=model.layers.36.self_attn.o_proj.weight]Loading weights:  78%|█████████████████████████████████████████████████████████████████████████████████████████████▊                          | 587/751 [03:08<01:05,  2.49it/s, Materializing param=model.layers.36.self_attn.o_proj.weight]Loading weights:  78%|████████████████████████████████████████████████████████████████████████████████████████▍                        | 588/751 [03:08<01:05,  2.49it/s, Materializing param=model.layers.36.self_attn.q_a_layernorm.weight]Loading weights:  78%|████████████████████████████████████████████████████████████████████████████████████████▍                        | 588/751 [03:08<01:05,  2.49it/s, Materializing param=model.layers.36.self_attn.q_a_layernorm.weight]Loading weights:  78%|████████████████████████████████████████████████████████████████████████████████████████████▌                         | 589/751 [03:08<01:04,  2.49it/s, Materializing param=model.layers.36.self_attn.q_a_proj.weight]Loading weights:  78%|████████████████████████████████████████████████████████████████████████████████████████████▌                         | 589/751 [03:08<01:04,  2.49it/s, Materializing param=model.layers.36.self_attn.q_a_proj.weight]Loading weights:  79%|████████████████████████████████████████████████████████████████████████████████████████████▋                         | 590/751 [03:08<01:04,  2.49it/s, Materializing param=model.layers.36.self_attn.q_b_proj.weight]Loading weights:  79%|████████████████████████████████████████████████████████████████████████████████████████████▋                         | 590/751 [03:08<01:04,  2.49it/s, Materializing param=model.layers.36.self_attn.q_b_proj.weight]Loading weights:  79%|███████████████████████████████████████████████████████████████████████████████████████████████▏                         | 591/751 [03:08<01:04,  2.49it/s, Materializing param=model.layers.37.input_layernorm.weight]Loading weights:  79%|███████████████████████████████████████████████████████████████████████████████████████████████▏                         | 591/751 [03:08<01:04,  2.49it/s, Materializing param=model.layers.37.input_layernorm.weight]Loading weights:  79%|████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 592/751 [03:08<01:03,  2.49it/s, Materializing param=model.layers.37.mlp.experts.down_proj]Loading weights:  79%|████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 592/751 [03:08<01:03,  2.49it/s, Materializing param=model.layers.37.mlp.experts.down_proj]Loading weights:  79%|████████████████████████████████████████████████████████████████████████████████████████████████▎                         | 593/751 [03:10<00:40,  3.92it/s, Materializing param=model.layers.37.mlp.experts.down_proj]Loading weights:  79%|████████████████████████████████████████████████████████████████████████████████████████████████▎                         | 593/751 [03:10<00:40,  3.92it/s, Materializing param=model.layers.37.mlp.experts.down_proj]Loading weights:  79%|█████████████████████████████████████████████████████████████████████████████████████████████▉                         | 593/751 [03:10<00:40,  3.92it/s, Materializing param=model.layers.37.mlp.experts.gate_up_proj]Loading weights:  79%|█████████████████████████████████████████████████████████████████████████████████████████████▉                         | 593/751 [03:10<00:40,  3.92it/s, Materializing param=model.layers.37.mlp.experts.gate_up_proj]Loading weights:  79%|█████████████████████████████████████████████████████████████████████████████████████████████▉                         | 593/751 [03:10<00:40,  3.92it/s, Materializing param=model.layers.37.mlp.experts.gate_up_proj]Loading weights:  79%|█████████████████████████████████████████████████████████████████████████████████████████████▉                         | 593/751 [03:10<00:40,  3.92it/s, Materializing param=model.layers.37.mlp.experts.gate_up_proj]Loading weights:  79%|██████████████████████████████████████████████████████████████████████████████████████████████                         | 594/751 [03:13<01:01,  2.55it/s, Materializing param=model.layers.37.mlp.experts.gate_up_proj]Loading weights:  79%|███████████████████████████████████████████████████████████████████████████████████████▊                       | 594/751 [03:13<01:01,  2.55it/s, Materializing param=model.layers.37.mlp.gate.e_score_correction_bias]Loading weights:  79%|███████████████████████████████████████████████████████████████████████████████████████▊                       | 594/751 [03:13<01:01,  2.55it/s, Materializing param=model.layers.37.mlp.gate.e_score_correction_bias]Loading weights:  79%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                          | 595/751 [03:13<01:01,  2.55it/s, Materializing param=model.layers.37.mlp.gate.weight]Loading weights:  79%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                          | 595/751 [03:13<01:01,  2.55it/s, Materializing param=model.layers.37.mlp.gate.weight]Loading weights:  79%|█████████████████████████████████████████████████████████████████████████████████████▋                      | 596/751 [03:13<01:00,  2.55it/s, Materializing param=model.layers.37.mlp.shared_experts.down_proj.weight]Loading weights:  79%|█████████████████████████████████████████████████████████████████████████████████████▋                      | 596/751 [03:13<01:00,  2.55it/s, Materializing param=model.layers.37.mlp.shared_experts.down_proj.weight]Loading weights:  79%|██████████████████████████████████████████████████████████████████████████████████████████████                         | 594/751 [03:13<01:01,  2.55it/s, Materializing param=model.layers.37.mlp.experts.gate_up_proj]Loading weights:  79%|█████████████████████████████████████████████████████████████████████████████████████▊                      | 597/751 [03:13<01:00,  2.55it/s, Materializing param=model.layers.37.mlp.shared_experts.gate_proj.weight]Loading weights:  79%|███████████████████████████████████████████████████████████████████████████████████████▊                       | 594/751 [03:13<01:01,  2.55it/s, Materializing param=model.layers.37.mlp.gate.e_score_correction_bias]Loading weights:  79%|█████████████████████████████████████████████████████████████████████████████████████▊                      | 597/751 [03:13<01:00,  2.55it/s, Materializing param=model.layers.37.mlp.shared_experts.gate_proj.weight]Loading weights:  79%|███████████████████████████████████████████████████████████████████████████████████████▊                       | 594/751 [03:13<01:01,  2.55it/s, Materializing param=model.layers.37.mlp.gate.e_score_correction_bias]Loading weights:  80%|███████████████████████████████████████████████████████████████████████████████████████▌                      | 598/751 [03:13<00:59,  2.55it/s, Materializing param=model.layers.37.mlp.shared_experts.up_proj.weight]Loading weights:  79%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                          | 595/751 [03:13<01:01,  2.55it/s, Materializing param=model.layers.37.mlp.gate.weight]Loading weights:  80%|███████████████████████████████████████████████████████████████████████████████████████▌                      | 598/751 [03:13<00:59,  2.55it/s, Materializing param=model.layers.37.mlp.shared_experts.up_proj.weight]Loading weights:  79%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                          | 595/751 [03:13<01:01,  2.55it/s, Materializing param=model.layers.37.mlp.gate.weight]Loading weights:  80%|█████████████████████████████████████████████████████████████████████████████████████████▎                      | 599/751 [03:13<00:59,  2.55it/s, Materializing param=model.layers.37.post_attention_layernorm.weight]Loading weights:  80%|█████████████████████████████████████████████████████████████████████████████████████████▎                      | 599/751 [03:13<00:59,  2.55it/s, Materializing param=model.layers.37.post_attention_layernorm.weight]Loading weights:  79%|█████████████████████████████████████████████████████████████████████████████████████▋                      | 596/751 [03:13<01:00,  2.55it/s, Materializing param=model.layers.37.mlp.shared_experts.down_proj.weight]Loading weights:  79%|█████████████████████████████████████████████████████████████████████████████████████▋                      | 596/751 [03:13<01:00,  2.55it/s, Materializing param=model.layers.37.mlp.shared_experts.down_proj.weight]Loading weights:  80%|█████████████████████████████████████████████████████████████████████████████████████████▍                      | 600/751 [03:13<00:59,  2.55it/s, Materializing param=model.layers.37.self_attn.kv_a_layernorm.weight]Loading weights:  80%|█████████████████████████████████████████████████████████████████████████████████████████▍                      | 600/751 [03:13<00:59,  2.55it/s, Materializing param=model.layers.37.self_attn.kv_a_layernorm.weight]Loading weights:  79%|█████████████████████████████████████████████████████████████████████████████████████▊                      | 597/751 [03:13<01:00,  2.55it/s, Materializing param=model.layers.37.mlp.shared_experts.gate_proj.weight]Loading weights:  80%|██████████████████████████████████████████████████████████████████████████████████████▍                     | 601/751 [03:13<00:58,  2.55it/s, Materializing param=model.layers.37.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  79%|█████████████████████████████████████████████████████████████████████████████████████▊                      | 597/751 [03:13<01:00,  2.55it/s, Materializing param=model.layers.37.mlp.shared_experts.gate_proj.weight]Loading weights:  80%|██████████████████████████████████████████████████████████████████████████████████████▍                     | 601/751 [03:13<00:58,  2.55it/s, Materializing param=model.layers.37.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  80%|███████████████████████████████████████████████████████████████████████████████████████▌                      | 598/751 [03:13<00:59,  2.55it/s, Materializing param=model.layers.37.mlp.shared_experts.up_proj.weight]Loading weights:  80%|█████████████████████████████████████████████████████████████████████████████████████████████▊                       | 602/751 [03:13<00:58,  2.55it/s, Materializing param=model.layers.37.self_attn.kv_b_proj.weight]Loading weights:  80%|███████████████████████████████████████████████████████████████████████████████████████▌                      | 598/751 [03:13<00:59,  2.55it/s, Materializing param=model.layers.37.mlp.shared_experts.up_proj.weight]Loading weights:  80%|█████████████████████████████████████████████████████████████████████████████████████████████▊                       | 602/751 [03:13<00:58,  2.55it/s, Materializing param=model.layers.37.self_attn.kv_b_proj.weight]Loading weights:  80%|█████████████████████████████████████████████████████████████████████████████████████████▎                      | 599/751 [03:13<00:59,  2.55it/s, Materializing param=model.layers.37.post_attention_layernorm.weight]Loading weights:  80%|████████████████████████████████████████████████████████████████████████████████████████████████▎                       | 603/751 [03:13<00:58,  2.55it/s, Materializing param=model.layers.37.self_attn.o_proj.weight]Loading weights:  80%|█████████████████████████████████████████████████████████████████████████████████████████▎                      | 599/751 [03:13<00:59,  2.55it/s, Materializing param=model.layers.37.post_attention_layernorm.weight]Loading weights:  80%|████████████████████████████████████████████████████████████████████████████████████████████████▎                       | 603/751 [03:13<00:58,  2.55it/s, Materializing param=model.layers.37.self_attn.o_proj.weight]Loading weights:  80%|██████████████████████████████████████████████████████████████████████████████████████████▉                      | 604/751 [03:13<00:57,  2.55it/s, Materializing param=model.layers.37.self_attn.q_a_layernorm.weight]Loading weights:  80%|█████████████████████████████████████████████████████████████████████████████████████████▍                      | 600/751 [03:13<00:59,  2.55it/s, Materializing param=model.layers.37.self_attn.kv_a_layernorm.weight]Loading weights:  80%|██████████████████████████████████████████████████████████████████████████████████████████▉                      | 604/751 [03:13<00:57,  2.55it/s, Materializing param=model.layers.37.self_attn.q_a_layernorm.weight]Loading weights:  80%|█████████████████████████████████████████████████████████████████████████████████████████▍                      | 600/751 [03:13<00:59,  2.55it/s, Materializing param=model.layers.37.self_attn.kv_a_layernorm.weight]Loading weights:  81%|███████████████████████████████████████████████████████████████████████████████████████████████                       | 605/751 [03:13<00:57,  2.55it/s, Materializing param=model.layers.37.self_attn.q_a_proj.weight]Loading weights:  80%|██████████████████████████████████████████████████████████████████████████████████████▍                     | 601/751 [03:13<00:58,  2.55it/s, Materializing param=model.layers.37.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  81%|███████████████████████████████████████████████████████████████████████████████████████████████                       | 605/751 [03:13<00:57,  2.55it/s, Materializing param=model.layers.37.self_attn.q_a_proj.weight]Loading weights:  80%|██████████████████████████████████████████████████████████████████████████████████████▍                     | 601/751 [03:13<00:58,  2.55it/s, Materializing param=model.layers.37.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  81%|███████████████████████████████████████████████████████████████████████████████████████████████▏                      | 606/751 [03:13<00:56,  2.55it/s, Materializing param=model.layers.37.self_attn.q_b_proj.weight]Loading weights:  80%|█████████████████████████████████████████████████████████████████████████████████████████████▊                       | 602/751 [03:13<00:58,  2.55it/s, Materializing param=model.layers.37.self_attn.kv_b_proj.weight]Loading weights:  81%|███████████████████████████████████████████████████████████████████████████████████████████████▏                      | 606/751 [03:13<00:56,  2.55it/s, Materializing param=model.layers.37.self_attn.q_b_proj.weight]Loading weights:  80%|█████████████████████████████████████████████████████████████████████████████████████████████▊                       | 602/751 [03:13<00:58,  2.55it/s, Materializing param=model.layers.37.self_attn.kv_b_proj.weight]Loading weights:  81%|█████████████████████████████████████████████████████████████████████████████████████████████████▊                       | 607/751 [03:13<00:56,  2.55it/s, Materializing param=model.layers.38.input_layernorm.weight]Loading weights:  80%|████████████████████████████████████████████████████████████████████████████████████████████████▎                       | 603/751 [03:13<00:58,  2.55it/s, Materializing param=model.layers.37.self_attn.o_proj.weight]Loading weights:  81%|█████████████████████████████████████████████████████████████████████████████████████████████████▊                       | 607/751 [03:13<00:56,  2.55it/s, Materializing param=model.layers.38.input_layernorm.weight]Loading weights:  80%|████████████████████████████████████████████████████████████████████████████████████████████████▎                       | 603/751 [03:13<00:58,  2.55it/s, Materializing param=model.layers.37.self_attn.o_proj.weight]Loading weights:  81%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                       | 608/751 [03:13<00:56,  2.55it/s, Materializing param=model.layers.38.mlp.experts.down_proj]Loading weights:  80%|██████████████████████████████████████████████████████████████████████████████████████████▉                      | 604/751 [03:13<00:57,  2.55it/s, Materializing param=model.layers.37.self_attn.q_a_layernorm.weight]Loading weights:  81%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                       | 608/751 [03:13<00:56,  2.55it/s, Materializing param=model.layers.38.mlp.experts.down_proj]Loading weights:  80%|██████████████████████████████████████████████████████████████████████████████████████████▉                      | 604/751 [03:13<00:57,  2.55it/s, Materializing param=model.layers.37.self_attn.q_a_layernorm.weight]Loading weights:  81%|███████████████████████████████████████████████████████████████████████████████████████████████                       | 605/751 [03:13<00:57,  2.55it/s, Materializing param=model.layers.37.self_attn.q_a_proj.weight]Loading weights:  81%|███████████████████████████████████████████████████████████████████████████████████████████████                       | 605/751 [03:13<00:57,  2.55it/s, Materializing param=model.layers.37.self_attn.q_a_proj.weight]Loading weights:  81%|███████████████████████████████████████████████████████████████████████████████████████████████▏                      | 606/751 [03:13<00:56,  2.55it/s, Materializing param=model.layers.37.self_attn.q_b_proj.weight]Loading weights:  81%|███████████████████████████████████████████████████████████████████████████████████████████████▏                      | 606/751 [03:13<00:56,  2.55it/s, Materializing param=model.layers.37.self_attn.q_b_proj.weight]Loading weights:  81%|█████████████████████████████████████████████████████████████████████████████████████████████████▊                       | 607/751 [03:13<00:56,  2.55it/s, Materializing param=model.layers.38.input_layernorm.weight]Loading weights:  81%|█████████████████████████████████████████████████████████████████████████████████████████████████▊                       | 607/751 [03:13<00:56,  2.55it/s, Materializing param=model.layers.38.input_layernorm.weight]Loading weights:  81%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                       | 608/751 [03:13<00:56,  2.55it/s, Materializing param=model.layers.38.mlp.experts.down_proj]Loading weights:  81%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                       | 608/751 [03:13<00:56,  2.55it/s, Materializing param=model.layers.38.mlp.experts.down_proj]Loading weights:  81%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 609/751 [03:15<00:36,  3.92it/s, Materializing param=model.layers.38.mlp.experts.down_proj]Loading weights:  81%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 609/751 [03:15<00:36,  3.92it/s, Materializing param=model.layers.38.mlp.experts.down_proj]Loading weights:  81%|████████████████████████████████████████████████████████████████████████████████████████████████▍                      | 609/751 [03:15<00:36,  3.92it/s, Materializing param=model.layers.38.mlp.experts.gate_up_proj]Loading weights:  81%|████████████████████████████████████████████████████████████████████████████████████████████████▍                      | 609/751 [03:15<00:36,  3.92it/s, Materializing param=model.layers.38.mlp.experts.gate_up_proj]Loading weights:  81%|████████████████████████████████████████████████████████████████████████████████████████████████▍                      | 609/751 [03:15<00:36,  3.92it/s, Materializing param=model.layers.38.mlp.experts.gate_up_proj]Loading weights:  81%|████████████████████████████████████████████████████████████████████████████████████████████████▍                      | 609/751 [03:15<00:36,  3.92it/s, Materializing param=model.layers.38.mlp.experts.gate_up_proj]Loading weights:  81%|████████████████████████████████████████████████████████████████████████████████████████████████▋                      | 610/751 [03:18<00:55,  2.53it/s, Materializing param=model.layers.38.mlp.experts.gate_up_proj]Loading weights:  81%|██████████████████████████████████████████████████████████████████████████████████████████▏                    | 610/751 [03:18<00:55,  2.53it/s, Materializing param=model.layers.38.mlp.gate.e_score_correction_bias]Loading weights:  81%|██████████████████████████████████████████████████████████████████████████████████████████▏                    | 610/751 [03:18<00:55,  2.53it/s, Materializing param=model.layers.38.mlp.gate.e_score_correction_bias]Loading weights:  81%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                       | 611/751 [03:18<00:55,  2.53it/s, Materializing param=model.layers.38.mlp.gate.weight]Loading weights:  81%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                       | 611/751 [03:18<00:55,  2.53it/s, Materializing param=model.layers.38.mlp.gate.weight]Loading weights:  81%|████████████████████████████████████████████████████████████████████████████████████████                    | 612/751 [03:18<00:54,  2.53it/s, Materializing param=model.layers.38.mlp.shared_experts.down_proj.weight]Loading weights:  81%|████████████████████████████████████████████████████████████████████████████████████████                    | 612/751 [03:18<00:54,  2.53it/s, Materializing param=model.layers.38.mlp.shared_experts.down_proj.weight]Loading weights:  82%|████████████████████████████████████████████████████████████████████████████████████████▏                   | 613/751 [03:18<00:54,  2.53it/s, Materializing param=model.layers.38.mlp.shared_experts.gate_proj.weight]Loading weights:  82%|████████████████████████████████████████████████████████████████████████████████████████▏                   | 613/751 [03:18<00:54,  2.53it/s, Materializing param=model.layers.38.mlp.shared_experts.gate_proj.weight]Loading weights:  82%|█████████████████████████████████████████████████████████████████████████████████████████▉                    | 614/751 [03:18<00:54,  2.53it/s, Materializing param=model.layers.38.mlp.shared_experts.up_proj.weight]Loading weights:  82%|█████████████████████████████████████████████████████████████████████████████████████████▉                    | 614/751 [03:18<00:54,  2.53it/s, Materializing param=model.layers.38.mlp.shared_experts.up_proj.weight]Loading weights:  82%|███████████████████████████████████████████████████████████████████████████████████████████▋                    | 615/751 [03:18<00:53,  2.53it/s, Materializing param=model.layers.38.post_attention_layernorm.weight]Loading weights:  82%|███████████████████████████████████████████████████████████████████████████████████████████▋                    | 615/751 [03:18<00:53,  2.53it/s, Materializing param=model.layers.38.post_attention_layernorm.weight]Loading weights:  82%|███████████████████████████████████████████████████████████████████████████████████████████▊                    | 616/751 [03:18<00:53,  2.53it/s, Materializing param=model.layers.38.self_attn.kv_a_layernorm.weight]Loading weights:  82%|███████████████████████████████████████████████████████████████████████████████████████████▊                    | 616/751 [03:18<00:53,  2.53it/s, Materializing param=model.layers.38.self_attn.kv_a_layernorm.weight]Loading weights:  82%|████████████████████████████████████████████████████████████████████████████████████████▋                   | 617/751 [03:18<00:52,  2.53it/s, Materializing param=model.layers.38.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  82%|████████████████████████████████████████████████████████████████████████████████████████▋                   | 617/751 [03:18<00:52,  2.53it/s, Materializing param=model.layers.38.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  82%|████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 618/751 [03:18<00:52,  2.53it/s, Materializing param=model.layers.38.self_attn.kv_b_proj.weight]Loading weights:  82%|████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 618/751 [03:18<00:52,  2.53it/s, Materializing param=model.layers.38.self_attn.kv_b_proj.weight]Loading weights:  82%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                     | 619/751 [03:18<00:52,  2.53it/s, Materializing param=model.layers.38.self_attn.o_proj.weight]Loading weights:  82%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                     | 619/751 [03:18<00:52,  2.53it/s, Materializing param=model.layers.38.self_attn.o_proj.weight]Loading weights:  83%|█████████████████████████████████████████████████████████████████████████████████████████████▎                   | 620/751 [03:18<00:51,  2.53it/s, Materializing param=model.layers.38.self_attn.q_a_layernorm.weight]Loading weights:  83%|█████████████████████████████████████████████████████████████████████████████████████████████▎                   | 620/751 [03:18<00:51,  2.53it/s, Materializing param=model.layers.38.self_attn.q_a_layernorm.weight]Loading weights:  83%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 621/751 [03:18<00:51,  2.53it/s, Materializing param=model.layers.38.self_attn.q_a_proj.weight]Loading weights:  83%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 621/751 [03:18<00:51,  2.53it/s, Materializing param=model.layers.38.self_attn.q_a_proj.weight]Loading weights:  83%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                    | 622/751 [03:18<00:51,  2.53it/s, Materializing param=model.layers.38.self_attn.q_b_proj.weight]Loading weights:  83%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                    | 622/751 [03:18<00:51,  2.53it/s, Materializing param=model.layers.38.self_attn.q_b_proj.weight]Loading weights:  83%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                    | 623/751 [03:18<00:50,  2.53it/s, Materializing param=model.layers.39.input_layernorm.weight]Loading weights:  83%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                    | 623/751 [03:18<00:50,  2.53it/s, Materializing param=model.layers.39.input_layernorm.weight]Loading weights:  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 624/751 [03:18<00:50,  2.53it/s, Materializing param=model.layers.39.mlp.experts.down_proj]Loading weights:  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 624/751 [03:18<00:50,  2.53it/s, Materializing param=model.layers.39.mlp.experts.down_proj]Loading weights:  81%|████████████████████████████████████████████████████████████████████████████████████████████████▋                      | 610/751 [03:18<00:55,  2.53it/s, Materializing param=model.layers.38.mlp.experts.gate_up_proj]Loading weights:  81%|██████████████████████████████████████████████████████████████████████████████████████████▏                    | 610/751 [03:18<00:55,  2.53it/s, Materializing param=model.layers.38.mlp.gate.e_score_correction_bias]Loading weights:  81%|██████████████████████████████████████████████████████████████████████████████████████████▏                    | 610/751 [03:18<00:55,  2.53it/s, Materializing param=model.layers.38.mlp.gate.e_score_correction_bias]Loading weights:  81%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                       | 611/751 [03:18<00:55,  2.53it/s, Materializing param=model.layers.38.mlp.gate.weight]Loading weights:  81%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                       | 611/751 [03:18<00:55,  2.53it/s, Materializing param=model.layers.38.mlp.gate.weight]Loading weights:  81%|████████████████████████████████████████████████████████████████████████████████████████                    | 612/751 [03:18<00:54,  2.53it/s, Materializing param=model.layers.38.mlp.shared_experts.down_proj.weight]Loading weights:  81%|████████████████████████████████████████████████████████████████████████████████████████                    | 612/751 [03:18<00:54,  2.53it/s, Materializing param=model.layers.38.mlp.shared_experts.down_proj.weight]Loading weights:  82%|████████████████████████████████████████████████████████████████████████████████████████▏                   | 613/751 [03:18<00:54,  2.53it/s, Materializing param=model.layers.38.mlp.shared_experts.gate_proj.weight]Loading weights:  82%|████████████████████████████████████████████████████████████████████████████████████████▏                   | 613/751 [03:18<00:54,  2.53it/s, Materializing param=model.layers.38.mlp.shared_experts.gate_proj.weight]Loading weights:  82%|█████████████████████████████████████████████████████████████████████████████████████████▉                    | 614/751 [03:18<00:54,  2.53it/s, Materializing param=model.layers.38.mlp.shared_experts.up_proj.weight]Loading weights:  82%|█████████████████████████████████████████████████████████████████████████████████████████▉                    | 614/751 [03:18<00:54,  2.53it/s, Materializing param=model.layers.38.mlp.shared_experts.up_proj.weight]Loading weights:  82%|███████████████████████████████████████████████████████████████████████████████████████████▋                    | 615/751 [03:18<00:53,  2.53it/s, Materializing param=model.layers.38.post_attention_layernorm.weight]Loading weights:  82%|███████████████████████████████████████████████████████████████████████████████████████████▋                    | 615/751 [03:18<00:53,  2.53it/s, Materializing param=model.layers.38.post_attention_layernorm.weight]Loading weights:  82%|███████████████████████████████████████████████████████████████████████████████████████████▊                    | 616/751 [03:18<00:53,  2.53it/s, Materializing param=model.layers.38.self_attn.kv_a_layernorm.weight]Loading weights:  82%|███████████████████████████████████████████████████████████████████████████████████████████▊                    | 616/751 [03:18<00:53,  2.53it/s, Materializing param=model.layers.38.self_attn.kv_a_layernorm.weight]Loading weights:  82%|████████████████████████████████████████████████████████████████████████████████████████▋                   | 617/751 [03:18<00:53,  2.53it/s, Materializing param=model.layers.38.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  82%|████████████████████████████████████████████████████████████████████████████████████████▋                   | 617/751 [03:18<00:53,  2.53it/s, Materializing param=model.layers.38.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  82%|████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 618/751 [03:18<00:52,  2.53it/s, Materializing param=model.layers.38.self_attn.kv_b_proj.weight]Loading weights:  82%|████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 618/751 [03:18<00:52,  2.53it/s, Materializing param=model.layers.38.self_attn.kv_b_proj.weight]Loading weights:  82%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                     | 619/751 [03:18<00:52,  2.53it/s, Materializing param=model.layers.38.self_attn.o_proj.weight]Loading weights:  82%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                     | 619/751 [03:18<00:52,  2.53it/s, Materializing param=model.layers.38.self_attn.o_proj.weight]Loading weights:  83%|█████████████████████████████████████████████████████████████████████████████████████████████▎                   | 620/751 [03:18<00:51,  2.53it/s, Materializing param=model.layers.38.self_attn.q_a_layernorm.weight]Loading weights:  83%|█████████████████████████████████████████████████████████████████████████████████████████████▎                   | 620/751 [03:18<00:51,  2.53it/s, Materializing param=model.layers.38.self_attn.q_a_layernorm.weight]Loading weights:  83%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 621/751 [03:18<00:51,  2.53it/s, Materializing param=model.layers.38.self_attn.q_a_proj.weight]Loading weights:  83%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 621/751 [03:18<00:51,  2.53it/s, Materializing param=model.layers.38.self_attn.q_a_proj.weight]Loading weights:  83%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                    | 622/751 [03:18<00:51,  2.53it/s, Materializing param=model.layers.38.self_attn.q_b_proj.weight]Loading weights:  83%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                    | 622/751 [03:18<00:51,  2.53it/s, Materializing param=model.layers.38.self_attn.q_b_proj.weight]Loading weights:  83%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                    | 623/751 [03:18<00:50,  2.53it/s, Materializing param=model.layers.39.input_layernorm.weight]Loading weights:  83%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                    | 623/751 [03:18<00:50,  2.53it/s, Materializing param=model.layers.39.input_layernorm.weight]Loading weights:  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 624/751 [03:18<00:50,  2.53it/s, Materializing param=model.layers.39.mlp.experts.down_proj]Loading weights:  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 624/751 [03:18<00:50,  2.53it/s, Materializing param=model.layers.39.mlp.experts.down_proj]Loading weights:  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 625/751 [03:20<00:31,  3.95it/s, Materializing param=model.layers.39.mlp.experts.down_proj]Loading weights:  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 625/751 [03:20<00:31,  3.95it/s, Materializing param=model.layers.39.mlp.experts.down_proj]Loading weights:  83%|███████████████████████████████████████████████████████████████████████████████████████████████████                    | 625/751 [03:20<00:31,  3.95it/s, Materializing param=model.layers.39.mlp.experts.gate_up_proj]Loading weights:  83%|███████████████████████████████████████████████████████████████████████████████████████████████████                    | 625/751 [03:20<00:31,  3.95it/s, Materializing param=model.layers.39.mlp.experts.gate_up_proj]Loading weights:  83%|███████████████████████████████████████████████████████████████████████████████████████████████████                    | 625/751 [03:20<00:31,  3.95it/s, Materializing param=model.layers.39.mlp.experts.gate_up_proj]Loading weights:  83%|███████████████████████████████████████████████████████████████████████████████████████████████████                    | 625/751 [03:20<00:31,  3.95it/s, Materializing param=model.layers.39.mlp.experts.gate_up_proj]Loading weights:  83%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 626/751 [03:23<00:49,  2.52it/s, Materializing param=model.layers.39.mlp.experts.gate_up_proj]Loading weights:  83%|████████████████████████████████████████████████████████████████████████████████████████████▌                  | 626/751 [03:23<00:49,  2.52it/s, Materializing param=model.layers.39.mlp.gate.e_score_correction_bias]Loading weights:  83%|████████████████████████████████████████████████████████████████████████████████████████████▌                  | 626/751 [03:23<00:49,  2.52it/s, Materializing param=model.layers.39.mlp.gate.e_score_correction_bias]Loading weights:  83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 627/751 [03:23<00:49,  2.52it/s, Materializing param=model.layers.39.mlp.gate.weight]Loading weights:  83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 627/751 [03:23<00:49,  2.52it/s, Materializing param=model.layers.39.mlp.gate.weight]Loading weights:  84%|██████████████████████████████████████████████████████████████████████████████████████████▎                 | 628/751 [03:23<00:48,  2.52it/s, Materializing param=model.layers.39.mlp.shared_experts.down_proj.weight]Loading weights:  84%|██████████████████████████████████████████████████████████████████████████████████████████▎                 | 628/751 [03:23<00:48,  2.52it/s, Materializing param=model.layers.39.mlp.shared_experts.down_proj.weight]Loading weights:  84%|██████████████████████████████████████████████████████████████████████████████████████████▍                 | 629/751 [03:23<00:48,  2.52it/s, Materializing param=model.layers.39.mlp.shared_experts.gate_proj.weight]Loading weights:  84%|██████████████████████████████████████████████████████████████████████████████████████████▍                 | 629/751 [03:23<00:48,  2.52it/s, Materializing param=model.layers.39.mlp.shared_experts.gate_proj.weight]Loading weights:  84%|████████████████████████████████████████████████████████████████████████████████████████████▎                 | 630/751 [03:23<00:47,  2.52it/s, Materializing param=model.layers.39.mlp.shared_experts.up_proj.weight]Loading weights:  84%|████████████████████████████████████████████████████████████████████████████████████████████▎                 | 630/751 [03:23<00:47,  2.52it/s, Materializing param=model.layers.39.mlp.shared_experts.up_proj.weight]Loading weights:  84%|██████████████████████████████████████████████████████████████████████████████████████████████                  | 631/751 [03:23<00:47,  2.52it/s, Materializing param=model.layers.39.post_attention_layernorm.weight]Loading weights:  84%|██████████████████████████████████████████████████████████████████████████████████████████████                  | 631/751 [03:23<00:47,  2.52it/s, Materializing param=model.layers.39.post_attention_layernorm.weight]Loading weights:  84%|██████████████████████████████████████████████████████████████████████████████████████████████▎                 | 632/751 [03:23<00:47,  2.52it/s, Materializing param=model.layers.39.self_attn.kv_a_layernorm.weight]Loading weights:  84%|██████████████████████████████████████████████████████████████████████████████████████████████▎                 | 632/751 [03:23<00:47,  2.52it/s, Materializing param=model.layers.39.self_attn.kv_a_layernorm.weight]Loading weights:  84%|███████████████████████████████████████████████████████████████████████████████████████████                 | 633/751 [03:23<00:46,  2.52it/s, Materializing param=model.layers.39.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  84%|███████████████████████████████████████████████████████████████████████████████████████████                 | 633/751 [03:23<00:46,  2.52it/s, Materializing param=model.layers.39.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                  | 634/751 [03:23<00:46,  2.52it/s, Materializing param=model.layers.39.self_attn.kv_b_proj.weight]Loading weights:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                  | 634/751 [03:23<00:46,  2.52it/s, Materializing param=model.layers.39.self_attn.kv_b_proj.weight]Loading weights:  85%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                  | 635/751 [03:23<00:45,  2.52it/s, Materializing param=model.layers.39.self_attn.o_proj.weight]Loading weights:  85%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                  | 635/751 [03:23<00:45,  2.52it/s, Materializing param=model.layers.39.self_attn.o_proj.weight]Loading weights:  85%|███████████████████████████████████████████████████████████████████████████████████████████████▋                 | 636/751 [03:23<00:45,  2.52it/s, Materializing param=model.layers.39.self_attn.q_a_layernorm.weight]Loading weights:  85%|███████████████████████████████████████████████████████████████████████████████████████████████▋                 | 636/751 [03:23<00:45,  2.52it/s, Materializing param=model.layers.39.self_attn.q_a_layernorm.weight]Loading weights:  85%|████████████████████████████████████████████████████████████████████████████████████████████████████                  | 637/751 [03:23<00:45,  2.52it/s, Materializing param=model.layers.39.self_attn.q_a_proj.weight]Loading weights:  85%|████████████████████████████████████████████████████████████████████████████████████████████████████                  | 637/751 [03:23<00:45,  2.52it/s, Materializing param=model.layers.39.self_attn.q_a_proj.weight]Loading weights:  85%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 638/751 [03:23<00:44,  2.52it/s, Materializing param=model.layers.39.self_attn.q_b_proj.weight]Loading weights:  85%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 638/751 [03:23<00:44,  2.52it/s, Materializing param=model.layers.39.self_attn.q_b_proj.weight]Loading weights:  85%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 639/751 [03:23<00:44,  2.52it/s, Materializing param=model.layers.40.input_layernorm.weight]Loading weights:  85%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 639/751 [03:23<00:44,  2.52it/s, Materializing param=model.layers.40.input_layernorm.weight]Loading weights:  85%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 640/751 [03:23<00:43,  2.52it/s, Materializing param=model.layers.40.mlp.experts.down_proj]Loading weights:  85%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 640/751 [03:23<00:43,  2.52it/s, Materializing param=model.layers.40.mlp.experts.down_proj]Loading weights:  83%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 626/751 [03:23<00:49,  2.52it/s, Materializing param=model.layers.39.mlp.experts.gate_up_proj]Loading weights:  83%|████████████████████████████████████████████████████████████████████████████████████████████▌                  | 626/751 [03:23<00:49,  2.52it/s, Materializing param=model.layers.39.mlp.gate.e_score_correction_bias]Loading weights:  83%|████████████████████████████████████████████████████████████████████████████████████████████▌                  | 626/751 [03:23<00:49,  2.52it/s, Materializing param=model.layers.39.mlp.gate.e_score_correction_bias]Loading weights:  83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 627/751 [03:23<00:49,  2.52it/s, Materializing param=model.layers.39.mlp.gate.weight]Loading weights:  83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 627/751 [03:23<00:49,  2.52it/s, Materializing param=model.layers.39.mlp.gate.weight]Loading weights:  84%|██████████████████████████████████████████████████████████████████████████████████████████▎                 | 628/751 [03:23<00:48,  2.52it/s, Materializing param=model.layers.39.mlp.shared_experts.down_proj.weight]Loading weights:  84%|██████████████████████████████████████████████████████████████████████████████████████████▎                 | 628/751 [03:23<00:48,  2.52it/s, Materializing param=model.layers.39.mlp.shared_experts.down_proj.weight]Loading weights:  84%|██████████████████████████████████████████████████████████████████████████████████████████▍                 | 629/751 [03:23<00:48,  2.52it/s, Materializing param=model.layers.39.mlp.shared_experts.gate_proj.weight]Loading weights:  84%|██████████████████████████████████████████████████████████████████████████████████████████▍                 | 629/751 [03:23<00:48,  2.52it/s, Materializing param=model.layers.39.mlp.shared_experts.gate_proj.weight]Loading weights:  84%|████████████████████████████████████████████████████████████████████████████████████████████▎                 | 630/751 [03:23<00:47,  2.52it/s, Materializing param=model.layers.39.mlp.shared_experts.up_proj.weight]Loading weights:  84%|████████████████████████████████████████████████████████████████████████████████████████████▎                 | 630/751 [03:23<00:47,  2.52it/s, Materializing param=model.layers.39.mlp.shared_experts.up_proj.weight]Loading weights:  84%|██████████████████████████████████████████████████████████████████████████████████████████████                  | 631/751 [03:23<00:47,  2.52it/s, Materializing param=model.layers.39.post_attention_layernorm.weight]Loading weights:  84%|██████████████████████████████████████████████████████████████████████████████████████████████                  | 631/751 [03:23<00:47,  2.52it/s, Materializing param=model.layers.39.post_attention_layernorm.weight]Loading weights:  84%|██████████████████████████████████████████████████████████████████████████████████████████████▎                 | 632/751 [03:23<00:47,  2.52it/s, Materializing param=model.layers.39.self_attn.kv_a_layernorm.weight]Loading weights:  84%|██████████████████████████████████████████████████████████████████████████████████████████████▎                 | 632/751 [03:23<00:47,  2.52it/s, Materializing param=model.layers.39.self_attn.kv_a_layernorm.weight]Loading weights:  84%|███████████████████████████████████████████████████████████████████████████████████████████                 | 633/751 [03:23<00:46,  2.52it/s, Materializing param=model.layers.39.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  84%|███████████████████████████████████████████████████████████████████████████████████████████                 | 633/751 [03:23<00:46,  2.52it/s, Materializing param=model.layers.39.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                  | 634/751 [03:23<00:46,  2.52it/s, Materializing param=model.layers.39.self_attn.kv_b_proj.weight]Loading weights:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                  | 634/751 [03:23<00:46,  2.52it/s, Materializing param=model.layers.39.self_attn.kv_b_proj.weight]Loading weights:  85%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                  | 635/751 [03:23<00:45,  2.52it/s, Materializing param=model.layers.39.self_attn.o_proj.weight]Loading weights:  85%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                  | 635/751 [03:23<00:45,  2.52it/s, Materializing param=model.layers.39.self_attn.o_proj.weight]Loading weights:  85%|███████████████████████████████████████████████████████████████████████████████████████████████▋                 | 636/751 [03:23<00:45,  2.52it/s, Materializing param=model.layers.39.self_attn.q_a_layernorm.weight]Loading weights:  85%|███████████████████████████████████████████████████████████████████████████████████████████████▋                 | 636/751 [03:23<00:45,  2.52it/s, Materializing param=model.layers.39.self_attn.q_a_layernorm.weight]Loading weights:  85%|████████████████████████████████████████████████████████████████████████████████████████████████████                  | 637/751 [03:23<00:45,  2.52it/s, Materializing param=model.layers.39.self_attn.q_a_proj.weight]Loading weights:  85%|████████████████████████████████████████████████████████████████████████████████████████████████████                  | 637/751 [03:23<00:45,  2.52it/s, Materializing param=model.layers.39.self_attn.q_a_proj.weight]Loading weights:  85%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 638/751 [03:23<00:44,  2.52it/s, Materializing param=model.layers.39.self_attn.q_b_proj.weight]Loading weights:  85%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 638/751 [03:23<00:44,  2.52it/s, Materializing param=model.layers.39.self_attn.q_b_proj.weight]Loading weights:  85%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 639/751 [03:23<00:44,  2.52it/s, Materializing param=model.layers.40.input_layernorm.weight]Loading weights:  85%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 639/751 [03:23<00:44,  2.52it/s, Materializing param=model.layers.40.input_layernorm.weight]Loading weights:  85%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 640/751 [03:23<00:44,  2.52it/s, Materializing param=model.layers.40.mlp.experts.down_proj]Loading weights:  85%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 640/751 [03:23<00:44,  2.52it/s, Materializing param=model.layers.40.mlp.experts.down_proj]Loading weights:  85%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 641/751 [03:25<00:27,  3.97it/s, Materializing param=model.layers.40.mlp.experts.down_proj]Loading weights:  85%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 641/751 [03:25<00:27,  3.97it/s, Materializing param=model.layers.40.mlp.experts.down_proj]Loading weights:  85%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 641/751 [03:25<00:27,  3.97it/s, Materializing param=model.layers.40.mlp.experts.gate_up_proj]Loading weights:  85%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 641/751 [03:25<00:27,  3.97it/s, Materializing param=model.layers.40.mlp.experts.gate_up_proj]Loading weights:  85%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 641/751 [03:25<00:27,  3.97it/s, Materializing param=model.layers.40.mlp.experts.gate_up_proj]Loading weights:  85%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 641/751 [03:25<00:27,  3.97it/s, Materializing param=model.layers.40.mlp.experts.gate_up_proj]Loading weights:  85%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 642/751 [03:28<00:42,  2.56it/s, Materializing param=model.layers.40.mlp.experts.gate_up_proj]Loading weights:  85%|██████████████████████████████████████████████████████████████████████████████████████████████▉                | 642/751 [03:28<00:42,  2.56it/s, Materializing param=model.layers.40.mlp.gate.e_score_correction_bias]Loading weights:  85%|██████████████████████████████████████████████████████████████████████████████████████████████▉                | 642/751 [03:28<00:42,  2.56it/s, Materializing param=model.layers.40.mlp.gate.e_score_correction_bias]Loading weights:  86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 643/751 [03:28<00:42,  2.56it/s, Materializing param=model.layers.40.mlp.gate.weight]Loading weights:  86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 643/751 [03:28<00:42,  2.56it/s, Materializing param=model.layers.40.mlp.gate.weight]Loading weights:  86%|████████████████████████████████████████████████████████████████████████████████████████████▌               | 644/751 [03:28<00:41,  2.56it/s, Materializing param=model.layers.40.mlp.shared_experts.down_proj.weight]Loading weights:  86%|████████████████████████████████████████████████████████████████████████████████████████████▌               | 644/751 [03:28<00:41,  2.56it/s, Materializing param=model.layers.40.mlp.shared_experts.down_proj.weight]Loading weights:  86%|████████████████████████████████████████████████████████████████████████████████████████████▊               | 645/751 [03:28<00:41,  2.56it/s, Materializing param=model.layers.40.mlp.shared_experts.gate_proj.weight]Loading weights:  86%|████████████████████████████████████████████████████████████████████████████████████████████▊               | 645/751 [03:28<00:41,  2.56it/s, Materializing param=model.layers.40.mlp.shared_experts.gate_proj.weight]Loading weights:  86%|██████████████████████████████████████████████████████████████████████████████████████████████▌               | 646/751 [03:28<00:41,  2.56it/s, Materializing param=model.layers.40.mlp.shared_experts.up_proj.weight]Loading weights:  86%|██████████████████████████████████████████████████████████████████████████████████████████████▌               | 646/751 [03:28<00:41,  2.56it/s, Materializing param=model.layers.40.mlp.shared_experts.up_proj.weight]Loading weights:  86%|████████████████████████████████████████████████████████████████████████████████████████████████▍               | 647/751 [03:28<00:40,  2.56it/s, Materializing param=model.layers.40.post_attention_layernorm.weight]Loading weights:  86%|████████████████████████████████████████████████████████████████████████████████████████████████▍               | 647/751 [03:28<00:40,  2.56it/s, Materializing param=model.layers.40.post_attention_layernorm.weight]Loading weights:  86%|████████████████████████████████████████████████████████████████████████████████████████████████▋               | 648/751 [03:28<00:40,  2.56it/s, Materializing param=model.layers.40.self_attn.kv_a_layernorm.weight]Loading weights:  86%|████████████████████████████████████████████████████████████████████████████████████████████████▋               | 648/751 [03:28<00:40,  2.56it/s, Materializing param=model.layers.40.self_attn.kv_a_layernorm.weight]Loading weights:  86%|█████████████████████████████████████████████████████████████████████████████████████████████▎              | 649/751 [03:28<00:39,  2.56it/s, Materializing param=model.layers.40.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  86%|█████████████████████████████████████████████████████████████████████████████████████████████▎              | 649/751 [03:28<00:39,  2.56it/s, Materializing param=model.layers.40.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  87%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 650/751 [03:28<00:39,  2.56it/s, Materializing param=model.layers.40.self_attn.kv_b_proj.weight]Loading weights:  87%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 650/751 [03:28<00:39,  2.56it/s, Materializing param=model.layers.40.self_attn.kv_b_proj.weight]Loading weights:  87%|████████████████████████████████████████████████████████████████████████████████████████████████████████                | 651/751 [03:28<00:39,  2.56it/s, Materializing param=model.layers.40.self_attn.o_proj.weight]Loading weights:  87%|████████████████████████████████████████████████████████████████████████████████████████████████████████                | 651/751 [03:28<00:39,  2.56it/s, Materializing param=model.layers.40.self_attn.o_proj.weight]Loading weights:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████               | 652/751 [03:28<00:38,  2.56it/s, Materializing param=model.layers.40.self_attn.q_a_layernorm.weight]Loading weights:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████               | 652/751 [03:28<00:38,  2.56it/s, Materializing param=model.layers.40.self_attn.q_a_layernorm.weight]Loading weights:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 653/751 [03:28<00:38,  2.56it/s, Materializing param=model.layers.40.self_attn.q_a_proj.weight]Loading weights:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 653/751 [03:28<00:38,  2.56it/s, Materializing param=model.layers.40.self_attn.q_a_proj.weight]Loading weights:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊               | 654/751 [03:28<00:37,  2.56it/s, Materializing param=model.layers.40.self_attn.q_b_proj.weight]Loading weights:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊               | 654/751 [03:28<00:37,  2.56it/s, Materializing param=model.layers.40.self_attn.q_b_proj.weight]Loading weights:  87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 655/751 [03:28<00:37,  2.56it/s, Materializing param=model.layers.41.input_layernorm.weight]Loading weights:  87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 655/751 [03:28<00:37,  2.56it/s, Materializing param=model.layers.41.input_layernorm.weight]Loading weights:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 656/751 [03:28<00:37,  2.56it/s, Materializing param=model.layers.41.mlp.experts.down_proj]Loading weights:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 656/751 [03:28<00:37,  2.56it/s, Materializing param=model.layers.41.mlp.experts.down_proj]Loading weights:  85%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 642/751 [03:28<00:42,  2.56it/s, Materializing param=model.layers.40.mlp.experts.gate_up_proj]Loading weights:  85%|██████████████████████████████████████████████████████████████████████████████████████████████▉                | 642/751 [03:28<00:42,  2.56it/s, Materializing param=model.layers.40.mlp.gate.e_score_correction_bias]Loading weights:  85%|██████████████████████████████████████████████████████████████████████████████████████████████▉                | 642/751 [03:28<00:42,  2.56it/s, Materializing param=model.layers.40.mlp.gate.e_score_correction_bias]Loading weights:  86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 643/751 [03:28<00:42,  2.56it/s, Materializing param=model.layers.40.mlp.gate.weight]Loading weights:  86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 643/751 [03:28<00:42,  2.56it/s, Materializing param=model.layers.40.mlp.gate.weight]Loading weights:  86%|████████████████████████████████████████████████████████████████████████████████████████████▌               | 644/751 [03:28<00:41,  2.56it/s, Materializing param=model.layers.40.mlp.shared_experts.down_proj.weight]Loading weights:  86%|████████████████████████████████████████████████████████████████████████████████████████████▌               | 644/751 [03:28<00:41,  2.56it/s, Materializing param=model.layers.40.mlp.shared_experts.down_proj.weight]Loading weights:  86%|████████████████████████████████████████████████████████████████████████████████████████████▊               | 645/751 [03:28<00:41,  2.56it/s, Materializing param=model.layers.40.mlp.shared_experts.gate_proj.weight]Loading weights:  86%|████████████████████████████████████████████████████████████████████████████████████████████▊               | 645/751 [03:28<00:41,  2.56it/s, Materializing param=model.layers.40.mlp.shared_experts.gate_proj.weight]Loading weights:  86%|██████████████████████████████████████████████████████████████████████████████████████████████▌               | 646/751 [03:28<00:41,  2.56it/s, Materializing param=model.layers.40.mlp.shared_experts.up_proj.weight]Loading weights:  86%|██████████████████████████████████████████████████████████████████████████████████████████████▌               | 646/751 [03:28<00:41,  2.56it/s, Materializing param=model.layers.40.mlp.shared_experts.up_proj.weight]Loading weights:  86%|████████████████████████████████████████████████████████████████████████████████████████████████▍               | 647/751 [03:28<00:40,  2.56it/s, Materializing param=model.layers.40.post_attention_layernorm.weight]Loading weights:  86%|████████████████████████████████████████████████████████████████████████████████████████████████▍               | 647/751 [03:28<00:40,  2.56it/s, Materializing param=model.layers.40.post_attention_layernorm.weight]Loading weights:  86%|████████████████████████████████████████████████████████████████████████████████████████████████▋               | 648/751 [03:28<00:40,  2.56it/s, Materializing param=model.layers.40.self_attn.kv_a_layernorm.weight]Loading weights:  86%|████████████████████████████████████████████████████████████████████████████████████████████████▋               | 648/751 [03:28<00:40,  2.56it/s, Materializing param=model.layers.40.self_attn.kv_a_layernorm.weight]Loading weights:  86%|█████████████████████████████████████████████████████████████████████████████████████████████▎              | 649/751 [03:28<00:39,  2.56it/s, Materializing param=model.layers.40.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  86%|█████████████████████████████████████████████████████████████████████████████████████████████▎              | 649/751 [03:28<00:39,  2.56it/s, Materializing param=model.layers.40.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  87%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 650/751 [03:28<00:39,  2.56it/s, Materializing param=model.layers.40.self_attn.kv_b_proj.weight]Loading weights:  87%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 650/751 [03:28<00:39,  2.56it/s, Materializing param=model.layers.40.self_attn.kv_b_proj.weight]Loading weights:  87%|████████████████████████████████████████████████████████████████████████████████████████████████████████                | 651/751 [03:28<00:39,  2.56it/s, Materializing param=model.layers.40.self_attn.o_proj.weight]Loading weights:  87%|████████████████████████████████████████████████████████████████████████████████████████████████████████                | 651/751 [03:28<00:39,  2.56it/s, Materializing param=model.layers.40.self_attn.o_proj.weight]Loading weights:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████               | 652/751 [03:28<00:38,  2.56it/s, Materializing param=model.layers.40.self_attn.q_a_layernorm.weight]Loading weights:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████               | 652/751 [03:28<00:38,  2.56it/s, Materializing param=model.layers.40.self_attn.q_a_layernorm.weight]Loading weights:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 653/751 [03:28<00:38,  2.56it/s, Materializing param=model.layers.40.self_attn.q_a_proj.weight]Loading weights:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 653/751 [03:28<00:38,  2.56it/s, Materializing param=model.layers.40.self_attn.q_a_proj.weight]Loading weights:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊               | 654/751 [03:28<00:37,  2.56it/s, Materializing param=model.layers.40.self_attn.q_b_proj.weight]Loading weights:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊               | 654/751 [03:28<00:37,  2.56it/s, Materializing param=model.layers.40.self_attn.q_b_proj.weight]Loading weights:  87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 655/751 [03:28<00:37,  2.56it/s, Materializing param=model.layers.41.input_layernorm.weight]Loading weights:  87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 655/751 [03:28<00:37,  2.56it/s, Materializing param=model.layers.41.input_layernorm.weight]Loading weights:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 656/751 [03:28<00:37,  2.56it/s, Materializing param=model.layers.41.mlp.experts.down_proj]Loading weights:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 656/751 [03:28<00:37,  2.56it/s, Materializing param=model.layers.41.mlp.experts.down_proj]Loading weights:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 657/751 [03:30<00:23,  3.93it/s, Materializing param=model.layers.41.mlp.experts.down_proj]Loading weights:  87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 657/751 [03:30<00:23,  3.94it/s, Materializing param=model.layers.41.mlp.experts.down_proj]Loading weights:  87%|████████████████████████████████████████████████████████████████████████████████████████████████████████               | 657/751 [03:30<00:23,  3.93it/s, Materializing param=model.layers.41.mlp.experts.gate_up_proj]Loading weights:  87%|████████████████████████████████████████████████████████████████████████████████████████████████████████               | 657/751 [03:30<00:23,  3.94it/s, Materializing param=model.layers.41.mlp.experts.gate_up_proj]Loading weights:  87%|████████████████████████████████████████████████████████████████████████████████████████████████████████               | 657/751 [03:30<00:23,  3.93it/s, Materializing param=model.layers.41.mlp.experts.gate_up_proj]Loading weights:  87%|████████████████████████████████████████████████████████████████████████████████████████████████████████               | 657/751 [03:30<00:23,  3.94it/s, Materializing param=model.layers.41.mlp.experts.gate_up_proj]Loading weights:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 658/751 [03:33<00:36,  2.55it/s, Materializing param=model.layers.41.mlp.experts.gate_up_proj]Loading weights:  88%|█████████████████████████████████████████████████████████████████████████████████████████████████▎             | 658/751 [03:33<00:36,  2.55it/s, Materializing param=model.layers.41.mlp.gate.e_score_correction_bias]Loading weights:  88%|█████████████████████████████████████████████████████████████████████████████████████████████████▎             | 658/751 [03:33<00:36,  2.55it/s, Materializing param=model.layers.41.mlp.gate.e_score_correction_bias]Loading weights:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 659/751 [03:33<00:36,  2.55it/s, Materializing param=model.layers.41.mlp.gate.weight]Loading weights:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 659/751 [03:33<00:36,  2.55it/s, Materializing param=model.layers.41.mlp.gate.weight]Loading weights:  88%|██████████████████████████████████████████████████████████████████████████████████████████████▉             | 660/751 [03:33<00:35,  2.55it/s, Materializing param=model.layers.41.mlp.shared_experts.down_proj.weight]Loading weights:  88%|██████████████████████████████████████████████████████████████████████████████████████████████▉             | 660/751 [03:33<00:35,  2.55it/s, Materializing param=model.layers.41.mlp.shared_experts.down_proj.weight]Loading weights:  88%|███████████████████████████████████████████████████████████████████████████████████████████████             | 661/751 [03:33<00:35,  2.55it/s, Materializing param=model.layers.41.mlp.shared_experts.gate_proj.weight]Loading weights:  88%|███████████████████████████████████████████████████████████████████████████████████████████████             | 661/751 [03:33<00:35,  2.55it/s, Materializing param=model.layers.41.mlp.shared_experts.gate_proj.weight]Loading weights:  88%|████████████████████████████████████████████████████████████████████████████████████████████████▉             | 662/751 [03:33<00:34,  2.55it/s, Materializing param=model.layers.41.mlp.shared_experts.up_proj.weight]Loading weights:  88%|████████████████████████████████████████████████████████████████████████████████████████████████▉             | 662/751 [03:33<00:34,  2.55it/s, Materializing param=model.layers.41.mlp.shared_experts.up_proj.weight]Loading weights:  88%|██████████████████████████████████████████████████████████████████████████████████████████████████▉             | 663/751 [03:33<00:34,  2.55it/s, Materializing param=model.layers.41.post_attention_layernorm.weight]Loading weights:  88%|██████████████████████████████████████████████████████████████████████████████████████████████████▉             | 663/751 [03:33<00:34,  2.55it/s, Materializing param=model.layers.41.post_attention_layernorm.weight]Loading weights:  88%|███████████████████████████████████████████████████████████████████████████████████████████████████             | 664/751 [03:33<00:34,  2.55it/s, Materializing param=model.layers.41.self_attn.kv_a_layernorm.weight]Loading weights:  88%|███████████████████████████████████████████████████████████████████████████████████████████████████             | 664/751 [03:33<00:34,  2.55it/s, Materializing param=model.layers.41.self_attn.kv_a_layernorm.weight]Loading weights:  89%|███████████████████████████████████████████████████████████████████████████████████████████████▋            | 665/751 [03:33<00:33,  2.55it/s, Materializing param=model.layers.41.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  89%|███████████████████████████████████████████████████████████████████████████████████████████████▋            | 665/751 [03:33<00:33,  2.55it/s, Materializing param=model.layers.41.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  89%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 666/751 [03:33<00:33,  2.55it/s, Materializing param=model.layers.41.self_attn.kv_b_proj.weight]Loading weights:  89%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 666/751 [03:33<00:33,  2.55it/s, Materializing param=model.layers.41.self_attn.kv_b_proj.weight]Loading weights:  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 667/751 [03:33<00:32,  2.55it/s, Materializing param=model.layers.41.self_attn.o_proj.weight]Loading weights:  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 667/751 [03:33<00:32,  2.55it/s, Materializing param=model.layers.41.self_attn.o_proj.weight]Loading weights:  89%|████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 668/751 [03:33<00:32,  2.55it/s, Materializing param=model.layers.41.self_attn.q_a_layernorm.weight]Loading weights:  89%|████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 668/751 [03:33<00:32,  2.55it/s, Materializing param=model.layers.41.self_attn.q_a_layernorm.weight]Loading weights:  89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████             | 669/751 [03:33<00:32,  2.55it/s, Materializing param=model.layers.41.self_attn.q_a_proj.weight]Loading weights:  89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████             | 669/751 [03:33<00:32,  2.55it/s, Materializing param=model.layers.41.self_attn.q_a_proj.weight]Loading weights:  89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 670/751 [03:33<00:31,  2.55it/s, Materializing param=model.layers.41.self_attn.q_b_proj.weight]Loading weights:  89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 670/751 [03:33<00:31,  2.55it/s, Materializing param=model.layers.41.self_attn.q_b_proj.weight]Loading weights:  89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 671/751 [03:33<00:31,  2.55it/s, Materializing param=model.layers.42.input_layernorm.weight]Loading weights:  89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 671/751 [03:33<00:31,  2.55it/s, Materializing param=model.layers.42.input_layernorm.weight]Loading weights:  89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 672/751 [03:33<00:30,  2.55it/s, Materializing param=model.layers.42.mlp.experts.down_proj]Loading weights:  89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 672/751 [03:33<00:30,  2.55it/s, Materializing param=model.layers.42.mlp.experts.down_proj]Loading weights:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 658/751 [03:33<00:36,  2.55it/s, Materializing param=model.layers.41.mlp.experts.gate_up_proj]Loading weights:  88%|█████████████████████████████████████████████████████████████████████████████████████████████████▎             | 658/751 [03:33<00:36,  2.55it/s, Materializing param=model.layers.41.mlp.gate.e_score_correction_bias]Loading weights:  88%|█████████████████████████████████████████████████████████████████████████████████████████████████▎             | 658/751 [03:33<00:36,  2.55it/s, Materializing param=model.layers.41.mlp.gate.e_score_correction_bias]Loading weights:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 659/751 [03:33<00:36,  2.55it/s, Materializing param=model.layers.41.mlp.gate.weight]Loading weights:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 659/751 [03:33<00:36,  2.55it/s, Materializing param=model.layers.41.mlp.gate.weight]Loading weights:  88%|██████████████████████████████████████████████████████████████████████████████████████████████▉             | 660/751 [03:33<00:35,  2.55it/s, Materializing param=model.layers.41.mlp.shared_experts.down_proj.weight]Loading weights:  88%|██████████████████████████████████████████████████████████████████████████████████████████████▉             | 660/751 [03:33<00:35,  2.55it/s, Materializing param=model.layers.41.mlp.shared_experts.down_proj.weight]Loading weights:  88%|███████████████████████████████████████████████████████████████████████████████████████████████             | 661/751 [03:33<00:35,  2.55it/s, Materializing param=model.layers.41.mlp.shared_experts.gate_proj.weight]Loading weights:  88%|███████████████████████████████████████████████████████████████████████████████████████████████             | 661/751 [03:33<00:35,  2.55it/s, Materializing param=model.layers.41.mlp.shared_experts.gate_proj.weight]Loading weights:  88%|████████████████████████████████████████████████████████████████████████████████████████████████▉             | 662/751 [03:33<00:34,  2.55it/s, Materializing param=model.layers.41.mlp.shared_experts.up_proj.weight]Loading weights:  88%|████████████████████████████████████████████████████████████████████████████████████████████████▉             | 662/751 [03:33<00:34,  2.55it/s, Materializing param=model.layers.41.mlp.shared_experts.up_proj.weight]Loading weights:  88%|██████████████████████████████████████████████████████████████████████████████████████████████████▉             | 663/751 [03:33<00:34,  2.55it/s, Materializing param=model.layers.41.post_attention_layernorm.weight]Loading weights:  88%|██████████████████████████████████████████████████████████████████████████████████████████████████▉             | 663/751 [03:33<00:34,  2.55it/s, Materializing param=model.layers.41.post_attention_layernorm.weight]Loading weights:  88%|███████████████████████████████████████████████████████████████████████████████████████████████████             | 664/751 [03:33<00:34,  2.55it/s, Materializing param=model.layers.41.self_attn.kv_a_layernorm.weight]Loading weights:  88%|███████████████████████████████████████████████████████████████████████████████████████████████████             | 664/751 [03:33<00:34,  2.55it/s, Materializing param=model.layers.41.self_attn.kv_a_layernorm.weight]Loading weights:  89%|███████████████████████████████████████████████████████████████████████████████████████████████▋            | 665/751 [03:33<00:33,  2.55it/s, Materializing param=model.layers.41.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  89%|███████████████████████████████████████████████████████████████████████████████████████████████▋            | 665/751 [03:33<00:33,  2.55it/s, Materializing param=model.layers.41.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  89%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 666/751 [03:33<00:33,  2.55it/s, Materializing param=model.layers.41.self_attn.kv_b_proj.weight]Loading weights:  89%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 666/751 [03:33<00:33,  2.55it/s, Materializing param=model.layers.41.self_attn.kv_b_proj.weight]Loading weights:  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 667/751 [03:33<00:32,  2.55it/s, Materializing param=model.layers.41.self_attn.o_proj.weight]Loading weights:  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 667/751 [03:33<00:32,  2.55it/s, Materializing param=model.layers.41.self_attn.o_proj.weight]Loading weights:  89%|████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 668/751 [03:33<00:32,  2.55it/s, Materializing param=model.layers.41.self_attn.q_a_layernorm.weight]Loading weights:  89%|████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 668/751 [03:33<00:32,  2.55it/s, Materializing param=model.layers.41.self_attn.q_a_layernorm.weight]Loading weights:  89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████             | 669/751 [03:33<00:32,  2.55it/s, Materializing param=model.layers.41.self_attn.q_a_proj.weight]Loading weights:  89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████             | 669/751 [03:33<00:32,  2.55it/s, Materializing param=model.layers.41.self_attn.q_a_proj.weight]Loading weights:  89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 670/751 [03:33<00:31,  2.55it/s, Materializing param=model.layers.41.self_attn.q_b_proj.weight]Loading weights:  89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 670/751 [03:33<00:31,  2.55it/s, Materializing param=model.layers.41.self_attn.q_b_proj.weight]Loading weights:  89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 671/751 [03:33<00:31,  2.55it/s, Materializing param=model.layers.42.input_layernorm.weight]Loading weights:  89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 671/751 [03:33<00:31,  2.55it/s, Materializing param=model.layers.42.input_layernorm.weight]Loading weights:  89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 672/751 [03:33<00:30,  2.55it/s, Materializing param=model.layers.42.mlp.experts.down_proj]Loading weights:  89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 672/751 [03:33<00:30,  2.55it/s, Materializing param=model.layers.42.mlp.experts.down_proj]Loading weights:  90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 673/751 [03:35<00:19,  3.95it/s, Materializing param=model.layers.42.mlp.experts.down_proj]Loading weights:  90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 673/751 [03:35<00:19,  3.95it/s, Materializing param=model.layers.42.mlp.experts.down_proj]Loading weights:  90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 673/751 [03:35<00:19,  3.95it/s, Materializing param=model.layers.42.mlp.experts.gate_up_proj]Loading weights:  90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 673/751 [03:35<00:19,  3.95it/s, Materializing param=model.layers.42.mlp.experts.gate_up_proj]Loading weights:  90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 673/751 [03:35<00:19,  3.95it/s, Materializing param=model.layers.42.mlp.experts.gate_up_proj]Loading weights:  90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 673/751 [03:35<00:19,  3.95it/s, Materializing param=model.layers.42.mlp.experts.gate_up_proj]Loading weights:  90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 674/751 [03:38<00:30,  2.54it/s, Materializing param=model.layers.42.mlp.experts.gate_up_proj]Loading weights:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████▌           | 674/751 [03:38<00:30,  2.54it/s, Materializing param=model.layers.42.mlp.gate.e_score_correction_bias]Loading weights:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████▌           | 674/751 [03:38<00:30,  2.54it/s, Materializing param=model.layers.42.mlp.gate.e_score_correction_bias]Loading weights:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 675/751 [03:38<00:29,  2.54it/s, Materializing param=model.layers.42.mlp.gate.weight]Loading weights:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 675/751 [03:38<00:29,  2.54it/s, Materializing param=model.layers.42.mlp.gate.weight]Loading weights:  90%|█████████████████████████████████████████████████████████████████████████████████████████████████▏          | 676/751 [03:38<00:29,  2.54it/s, Materializing param=model.layers.42.mlp.shared_experts.down_proj.weight]Loading weights:  90%|█████████████████████████████████████████████████████████████████████████████████████████████████▏          | 676/751 [03:38<00:29,  2.54it/s, Materializing param=model.layers.42.mlp.shared_experts.down_proj.weight]Loading weights:  90%|█████████████████████████████████████████████████████████████████████████████████████████████████▎          | 677/751 [03:38<00:29,  2.54it/s, Materializing param=model.layers.42.mlp.shared_experts.gate_proj.weight]Loading weights:  90%|█████████████████████████████████████████████████████████████████████████████████████████████████▎          | 677/751 [03:38<00:29,  2.54it/s, Materializing param=model.layers.42.mlp.shared_experts.gate_proj.weight]Loading weights:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎          | 678/751 [03:38<00:28,  2.54it/s, Materializing param=model.layers.42.mlp.shared_experts.up_proj.weight]Loading weights:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎          | 678/751 [03:38<00:28,  2.54it/s, Materializing param=model.layers.42.mlp.shared_experts.up_proj.weight]Loading weights:  90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 679/751 [03:38<00:28,  2.54it/s, Materializing param=model.layers.42.post_attention_layernorm.weight]Loading weights:  90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 679/751 [03:38<00:28,  2.54it/s, Materializing param=model.layers.42.post_attention_layernorm.weight]Loading weights:  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 680/751 [03:38<00:27,  2.54it/s, Materializing param=model.layers.42.self_attn.kv_a_layernorm.weight]Loading weights:  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 680/751 [03:38<00:27,  2.54it/s, Materializing param=model.layers.42.self_attn.kv_a_layernorm.weight]Loading weights:  91%|█████████████████████████████████████████████████████████████████████████████████████████████████▉          | 681/751 [03:38<00:27,  2.54it/s, Materializing param=model.layers.42.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  91%|█████████████████████████████████████████████████████████████████████████████████████████████████▉          | 681/751 [03:38<00:27,  2.54it/s, Materializing param=model.layers.42.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 682/751 [03:38<00:27,  2.54it/s, Materializing param=model.layers.42.self_attn.kv_b_proj.weight]Loading weights:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 682/751 [03:38<00:27,  2.54it/s, Materializing param=model.layers.42.self_attn.kv_b_proj.weight]Loading weights:  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 683/751 [03:38<00:26,  2.54it/s, Materializing param=model.layers.42.self_attn.o_proj.weight]Loading weights:  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 683/751 [03:38<00:26,  2.54it/s, Materializing param=model.layers.42.self_attn.o_proj.weight]Loading weights:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 684/751 [03:38<00:26,  2.54it/s, Materializing param=model.layers.42.self_attn.q_a_layernorm.weight]Loading weights:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 684/751 [03:38<00:26,  2.54it/s, Materializing param=model.layers.42.self_attn.q_a_layernorm.weight]Loading weights:  91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 685/751 [03:38<00:26,  2.54it/s, Materializing param=model.layers.42.self_attn.q_a_proj.weight]Loading weights:  91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 685/751 [03:38<00:26,  2.54it/s, Materializing param=model.layers.42.self_attn.q_a_proj.weight]Loading weights:  91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 686/751 [03:38<00:25,  2.54it/s, Materializing param=model.layers.42.self_attn.q_b_proj.weight]Loading weights:  91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 686/751 [03:38<00:25,  2.54it/s, Materializing param=model.layers.42.self_attn.q_b_proj.weight]Loading weights:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 687/751 [03:38<00:25,  2.54it/s, Materializing param=model.layers.43.input_layernorm.weight]Loading weights:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 687/751 [03:38<00:25,  2.54it/s, Materializing param=model.layers.43.input_layernorm.weight]Loading weights:  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 688/751 [03:38<00:24,  2.54it/s, Materializing param=model.layers.43.mlp.experts.down_proj]Loading weights:  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 688/751 [03:38<00:24,  2.54it/s, Materializing param=model.layers.43.mlp.experts.down_proj]Loading weights:  90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 674/751 [03:38<00:30,  2.54it/s, Materializing param=model.layers.42.mlp.experts.gate_up_proj]Loading weights:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████▌           | 674/751 [03:38<00:30,  2.54it/s, Materializing param=model.layers.42.mlp.gate.e_score_correction_bias]Loading weights:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████▌           | 674/751 [03:38<00:30,  2.54it/s, Materializing param=model.layers.42.mlp.gate.e_score_correction_bias]Loading weights:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 675/751 [03:38<00:29,  2.54it/s, Materializing param=model.layers.42.mlp.gate.weight]Loading weights:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 675/751 [03:38<00:29,  2.54it/s, Materializing param=model.layers.42.mlp.gate.weight]Loading weights:  90%|█████████████████████████████████████████████████████████████████████████████████████████████████▏          | 676/751 [03:38<00:29,  2.54it/s, Materializing param=model.layers.42.mlp.shared_experts.down_proj.weight]Loading weights:  90%|█████████████████████████████████████████████████████████████████████████████████████████████████▏          | 676/751 [03:38<00:29,  2.54it/s, Materializing param=model.layers.42.mlp.shared_experts.down_proj.weight]Loading weights:  90%|█████████████████████████████████████████████████████████████████████████████████████████████████▎          | 677/751 [03:38<00:29,  2.54it/s, Materializing param=model.layers.42.mlp.shared_experts.gate_proj.weight]Loading weights:  90%|█████████████████████████████████████████████████████████████████████████████████████████████████▎          | 677/751 [03:38<00:29,  2.54it/s, Materializing param=model.layers.42.mlp.shared_experts.gate_proj.weight]Loading weights:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎          | 678/751 [03:38<00:28,  2.54it/s, Materializing param=model.layers.42.mlp.shared_experts.up_proj.weight]Loading weights:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎          | 678/751 [03:38<00:28,  2.54it/s, Materializing param=model.layers.42.mlp.shared_experts.up_proj.weight]Loading weights:  90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 679/751 [03:38<00:28,  2.54it/s, Materializing param=model.layers.42.post_attention_layernorm.weight]Loading weights:  90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 679/751 [03:38<00:28,  2.54it/s, Materializing param=model.layers.42.post_attention_layernorm.weight]Loading weights:  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 680/751 [03:38<00:27,  2.54it/s, Materializing param=model.layers.42.self_attn.kv_a_layernorm.weight]Loading weights:  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 680/751 [03:38<00:27,  2.54it/s, Materializing param=model.layers.42.self_attn.kv_a_layernorm.weight]Loading weights:  91%|█████████████████████████████████████████████████████████████████████████████████████████████████▉          | 681/751 [03:38<00:27,  2.54it/s, Materializing param=model.layers.42.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  91%|█████████████████████████████████████████████████████████████████████████████████████████████████▉          | 681/751 [03:38<00:27,  2.54it/s, Materializing param=model.layers.42.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 682/751 [03:38<00:27,  2.54it/s, Materializing param=model.layers.42.self_attn.kv_b_proj.weight]Loading weights:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 682/751 [03:38<00:27,  2.54it/s, Materializing param=model.layers.42.self_attn.kv_b_proj.weight]Loading weights:  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 683/751 [03:38<00:26,  2.54it/s, Materializing param=model.layers.42.self_attn.o_proj.weight]Loading weights:  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 683/751 [03:38<00:26,  2.54it/s, Materializing param=model.layers.42.self_attn.o_proj.weight]Loading weights:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 684/751 [03:38<00:26,  2.54it/s, Materializing param=model.layers.42.self_attn.q_a_layernorm.weight]Loading weights:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 684/751 [03:38<00:26,  2.54it/s, Materializing param=model.layers.42.self_attn.q_a_layernorm.weight]Loading weights:  91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 685/751 [03:38<00:26,  2.54it/s, Materializing param=model.layers.42.self_attn.q_a_proj.weight]Loading weights:  91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 685/751 [03:38<00:26,  2.54it/s, Materializing param=model.layers.42.self_attn.q_a_proj.weight]Loading weights:  91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 686/751 [03:38<00:25,  2.54it/s, Materializing param=model.layers.42.self_attn.q_b_proj.weight]Loading weights:  91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 686/751 [03:38<00:25,  2.54it/s, Materializing param=model.layers.42.self_attn.q_b_proj.weight]Loading weights:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 687/751 [03:38<00:25,  2.54it/s, Materializing param=model.layers.43.input_layernorm.weight]Loading weights:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 687/751 [03:38<00:25,  2.54it/s, Materializing param=model.layers.43.input_layernorm.weight]Loading weights:  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 688/751 [03:38<00:24,  2.54it/s, Materializing param=model.layers.43.mlp.experts.down_proj]Loading weights:  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 688/751 [03:38<00:24,  2.54it/s, Materializing param=model.layers.43.mlp.experts.down_proj]Loading weights:  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 689/751 [03:40<00:15,  3.98it/s, Materializing param=model.layers.43.mlp.experts.down_proj]Loading weights:  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 689/751 [03:40<00:15,  3.98it/s, Materializing param=model.layers.43.mlp.experts.down_proj]Loading weights:  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 689/751 [03:40<00:15,  3.98it/s, Materializing param=model.layers.43.mlp.experts.gate_up_proj]Loading weights:  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 689/751 [03:40<00:15,  3.98it/s, Materializing param=model.layers.43.mlp.experts.gate_up_proj]Loading weights:  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 689/751 [03:40<00:15,  3.98it/s, Materializing param=model.layers.43.mlp.experts.gate_up_proj]Loading weights:  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 689/751 [03:40<00:15,  3.98it/s, Materializing param=model.layers.43.mlp.experts.gate_up_proj]Loading weights:  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 690/751 [03:43<00:23,  2.57it/s, Materializing param=model.layers.43.mlp.experts.gate_up_proj]Loading weights:  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 690/751 [03:43<00:23,  2.57it/s, Materializing param=model.layers.43.mlp.gate.e_score_correction_bias]Loading weights:  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 690/751 [03:43<00:23,  2.57it/s, Materializing param=model.layers.43.mlp.gate.e_score_correction_bias]Loading weights:  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 690/751 [03:43<00:23,  2.57it/s, Materializing param=model.layers.43.mlp.experts.gate_up_proj]Loading weights:  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 690/751 [03:43<00:23,  2.57it/s, Materializing param=model.layers.43.mlp.gate.e_score_correction_bias]Loading weights:  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 691/751 [03:43<00:23,  2.57it/s, Materializing param=model.layers.43.mlp.gate.weight]Loading weights:  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 690/751 [03:43<00:23,  2.57it/s, Materializing param=model.layers.43.mlp.gate.e_score_correction_bias]Loading weights:  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 691/751 [03:43<00:23,  2.57it/s, Materializing param=model.layers.43.mlp.gate.weight]Loading weights:  92%|███████████████████████████████████████████████████████████████████████████████████████████████████▌        | 692/751 [03:43<00:22,  2.57it/s, Materializing param=model.layers.43.mlp.shared_experts.down_proj.weight]Loading weights:  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 691/751 [03:43<00:23,  2.57it/s, Materializing param=model.layers.43.mlp.gate.weight]Loading weights:  92%|███████████████████████████████████████████████████████████████████████████████████████████████████▌        | 692/751 [03:43<00:22,  2.57it/s, Materializing param=model.layers.43.mlp.shared_experts.down_proj.weight]Loading weights:  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 691/751 [03:43<00:23,  2.57it/s, Materializing param=model.layers.43.mlp.gate.weight]Loading weights:  92%|███████████████████████████████████████████████████████████████████████████████████████████████████▌        | 692/751 [03:43<00:22,  2.57it/s, Materializing param=model.layers.43.mlp.shared_experts.down_proj.weight]Loading weights:  92%|███████████████████████████████████████████████████████████████████████████████████████████████████▋        | 693/751 [03:43<00:22,  2.57it/s, Materializing param=model.layers.43.mlp.shared_experts.gate_proj.weight]Loading weights:  92%|███████████████████████████████████████████████████████████████████████████████████████████████████▌        | 692/751 [03:43<00:22,  2.57it/s, Materializing param=model.layers.43.mlp.shared_experts.down_proj.weight]Loading weights:  92%|███████████████████████████████████████████████████████████████████████████████████████████████████▋        | 693/751 [03:43<00:22,  2.57it/s, Materializing param=model.layers.43.mlp.shared_experts.gate_proj.weight]Loading weights:  92%|███████████████████████████████████████████████████████████████████████████████████████████████████▋        | 693/751 [03:43<00:22,  2.57it/s, Materializing param=model.layers.43.mlp.shared_experts.gate_proj.weight]Loading weights:  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 694/751 [03:43<00:22,  2.57it/s, Materializing param=model.layers.43.mlp.shared_experts.up_proj.weight]Loading weights:  92%|███████████████████████████████████████████████████████████████████████████████████████████████████▋        | 693/751 [03:43<00:22,  2.57it/s, Materializing param=model.layers.43.mlp.shared_experts.gate_proj.weight]Loading weights:  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 694/751 [03:43<00:22,  2.57it/s, Materializing param=model.layers.43.mlp.shared_experts.up_proj.weight]Loading weights:  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 694/751 [03:43<00:22,  2.57it/s, Materializing param=model.layers.43.mlp.shared_experts.up_proj.weight]Loading weights:  93%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 695/751 [03:43<00:21,  2.57it/s, Materializing param=model.layers.43.post_attention_layernorm.weight]Loading weights:  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 694/751 [03:43<00:22,  2.57it/s, Materializing param=model.layers.43.mlp.shared_experts.up_proj.weight]Loading weights:  93%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 695/751 [03:43<00:21,  2.57it/s, Materializing param=model.layers.43.post_attention_layernorm.weight]Loading weights:  93%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 695/751 [03:43<00:21,  2.57it/s, Materializing param=model.layers.43.post_attention_layernorm.weight]Loading weights:  93%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 695/751 [03:43<00:21,  2.57it/s, Materializing param=model.layers.43.post_attention_layernorm.weight]Loading weights:  93%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 696/751 [03:43<00:21,  2.57it/s, Materializing param=model.layers.43.self_attn.kv_a_layernorm.weight]Loading weights:  93%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 696/751 [03:43<00:21,  2.57it/s, Materializing param=model.layers.43.self_attn.kv_a_layernorm.weight]Loading weights:  93%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 696/751 [03:43<00:21,  2.57it/s, Materializing param=model.layers.43.self_attn.kv_a_layernorm.weight]Loading weights:  93%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 696/751 [03:43<00:21,  2.57it/s, Materializing param=model.layers.43.self_attn.kv_a_layernorm.weight]Loading weights:  93%|████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 697/751 [03:43<00:21,  2.57it/s, Materializing param=model.layers.43.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  93%|████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 697/751 [03:43<00:21,  2.57it/s, Materializing param=model.layers.43.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  93%|████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 697/751 [03:43<00:21,  2.57it/s, Materializing param=model.layers.43.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  93%|████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 697/751 [03:43<00:21,  2.57it/s, Materializing param=model.layers.43.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 698/751 [03:43<00:20,  2.57it/s, Materializing param=model.layers.43.self_attn.kv_b_proj.weight]Loading weights:  93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 698/751 [03:43<00:20,  2.57it/s, Materializing param=model.layers.43.self_attn.kv_b_proj.weight]Loading weights:  93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 698/751 [03:43<00:20,  2.57it/s, Materializing param=model.layers.43.self_attn.kv_b_proj.weight]Loading weights:  93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 698/751 [03:43<00:20,  2.57it/s, Materializing param=model.layers.43.self_attn.kv_b_proj.weight]Loading weights:  93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 699/751 [03:43<00:20,  2.57it/s, Materializing param=model.layers.43.self_attn.o_proj.weight]Loading weights:  93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 699/751 [03:43<00:20,  2.57it/s, Materializing param=model.layers.43.self_attn.o_proj.weight]Loading weights:  93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 699/751 [03:43<00:20,  2.57it/s, Materializing param=model.layers.43.self_attn.o_proj.weight]Loading weights:  93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 699/751 [03:43<00:20,  2.57it/s, Materializing param=model.layers.43.self_attn.o_proj.weight]Loading weights:  93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 700/751 [03:43<00:19,  2.57it/s, Materializing param=model.layers.43.self_attn.q_a_layernorm.weight]Loading weights:  93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 700/751 [03:43<00:19,  2.57it/s, Materializing param=model.layers.43.self_attn.q_a_layernorm.weight]Loading weights:  93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 700/751 [03:43<00:19,  2.57it/s, Materializing param=model.layers.43.self_attn.q_a_layernorm.weight]Loading weights:  93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 700/751 [03:43<00:19,  2.57it/s, Materializing param=model.layers.43.self_attn.q_a_layernorm.weight]Loading weights:  93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 701/751 [03:43<00:19,  2.57it/s, Materializing param=model.layers.43.self_attn.q_a_proj.weight]Loading weights:  93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 701/751 [03:43<00:19,  2.57it/s, Materializing param=model.layers.43.self_attn.q_a_proj.weight]Loading weights:  93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 701/751 [03:43<00:19,  2.57it/s, Materializing param=model.layers.43.self_attn.q_a_proj.weight]Loading weights:  93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 701/751 [03:43<00:19,  2.57it/s, Materializing param=model.layers.43.self_attn.q_a_proj.weight]Loading weights:  93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 702/751 [03:43<00:19,  2.57it/s, Materializing param=model.layers.43.self_attn.q_b_proj.weight]Loading weights:  93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 702/751 [03:43<00:19,  2.57it/s, Materializing param=model.layers.43.self_attn.q_b_proj.weight]Loading weights:  93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 702/751 [03:43<00:19,  2.57it/s, Materializing param=model.layers.43.self_attn.q_b_proj.weight]Loading weights:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 703/751 [03:43<00:18,  2.57it/s, Materializing param=model.layers.44.input_layernorm.weight]Loading weights:  93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 702/751 [03:43<00:19,  2.57it/s, Materializing param=model.layers.43.self_attn.q_b_proj.weight]Loading weights:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 703/751 [03:43<00:18,  2.57it/s, Materializing param=model.layers.44.input_layernorm.weight]Loading weights:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 703/751 [03:43<00:18,  2.57it/s, Materializing param=model.layers.44.input_layernorm.weight]Loading weights:  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 704/751 [03:43<00:18,  2.57it/s, Materializing param=model.layers.44.mlp.experts.down_proj]Loading weights:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 703/751 [03:43<00:18,  2.57it/s, Materializing param=model.layers.44.input_layernorm.weight]Loading weights:  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 704/751 [03:43<00:18,  2.57it/s, Materializing param=model.layers.44.mlp.experts.down_proj]Loading weights:  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 704/751 [03:43<00:18,  2.57it/s, Materializing param=model.layers.44.mlp.experts.down_proj]Loading weights:  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 704/751 [03:43<00:18,  2.57it/s, Materializing param=model.layers.44.mlp.experts.down_proj]Loading weights:  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 705/751 [03:45<00:11,  3.93it/s, Materializing param=model.layers.44.mlp.experts.down_proj]Loading weights:  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 705/751 [03:45<00:11,  3.93it/s, Materializing param=model.layers.44.mlp.experts.down_proj]Loading weights:  94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 705/751 [03:45<00:11,  3.93it/s, Materializing param=model.layers.44.mlp.experts.gate_up_proj]Loading weights:  94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 705/751 [03:45<00:11,  3.93it/s, Materializing param=model.layers.44.mlp.experts.gate_up_proj]Loading weights:  94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 705/751 [03:45<00:11,  3.93it/s, Materializing param=model.layers.44.mlp.experts.gate_up_proj]Loading weights:  94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 705/751 [03:45<00:11,  3.93it/s, Materializing param=model.layers.44.mlp.experts.gate_up_proj]Loading weights:  94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 706/751 [03:48<00:17,  2.52it/s, Materializing param=model.layers.44.mlp.experts.gate_up_proj]Loading weights:  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 706/751 [03:48<00:17,  2.52it/s, Materializing param=model.layers.44.mlp.gate.e_score_correction_bias]Loading weights:  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 706/751 [03:48<00:17,  2.52it/s, Materializing param=model.layers.44.mlp.gate.e_score_correction_bias]Loading weights:  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 707/751 [03:48<00:17,  2.52it/s, Materializing param=model.layers.44.mlp.gate.weight]Loading weights:  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 707/751 [03:48<00:17,  2.52it/s, Materializing param=model.layers.44.mlp.gate.weight]Loading weights:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 708/751 [03:48<00:17,  2.52it/s, Materializing param=model.layers.44.mlp.shared_experts.down_proj.weight]Loading weights:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 708/751 [03:48<00:17,  2.52it/s, Materializing param=model.layers.44.mlp.shared_experts.down_proj.weight]Loading weights:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉      | 709/751 [03:48<00:16,  2.52it/s, Materializing param=model.layers.44.mlp.shared_experts.gate_proj.weight]Loading weights:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉      | 709/751 [03:48<00:16,  2.52it/s, Materializing param=model.layers.44.mlp.shared_experts.gate_proj.weight]Loading weights:  95%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉      | 710/751 [03:48<00:16,  2.52it/s, Materializing param=model.layers.44.mlp.shared_experts.up_proj.weight]Loading weights:  95%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉      | 710/751 [03:48<00:16,  2.52it/s, Materializing param=model.layers.44.mlp.shared_experts.up_proj.weight]Loading weights:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████      | 711/751 [03:48<00:15,  2.52it/s, Materializing param=model.layers.44.post_attention_layernorm.weight]Loading weights:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████      | 711/751 [03:48<00:15,  2.52it/s, Materializing param=model.layers.44.post_attention_layernorm.weight]Loading weights:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 712/751 [03:48<00:15,  2.52it/s, Materializing param=model.layers.44.self_attn.kv_a_layernorm.weight]Loading weights:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 712/751 [03:48<00:15,  2.52it/s, Materializing param=model.layers.44.self_attn.kv_a_layernorm.weight]Loading weights:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 713/751 [03:48<00:15,  2.52it/s, Materializing param=model.layers.44.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 713/751 [03:48<00:15,  2.52it/s, Materializing param=model.layers.44.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 714/751 [03:48<00:14,  2.52it/s, Materializing param=model.layers.44.self_attn.kv_b_proj.weight]Loading weights:  95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 714/751 [03:48<00:14,  2.52it/s, Materializing param=model.layers.44.self_attn.kv_b_proj.weight]Loading weights:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 715/751 [03:48<00:14,  2.52it/s, Materializing param=model.layers.44.self_attn.o_proj.weight]Loading weights:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 715/751 [03:48<00:14,  2.52it/s, Materializing param=model.layers.44.self_attn.o_proj.weight]Loading weights:  95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 716/751 [03:48<00:13,  2.52it/s, Materializing param=model.layers.44.self_attn.q_a_layernorm.weight]Loading weights:  95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 716/751 [03:48<00:13,  2.52it/s, Materializing param=model.layers.44.self_attn.q_a_layernorm.weight]Loading weights:  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 717/751 [03:48<00:13,  2.52it/s, Materializing param=model.layers.44.self_attn.q_a_proj.weight]Loading weights:  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 717/751 [03:48<00:13,  2.52it/s, Materializing param=model.layers.44.self_attn.q_a_proj.weight]Loading weights:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 718/751 [03:48<00:13,  2.52it/s, Materializing param=model.layers.44.self_attn.q_b_proj.weight]Loading weights:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 718/751 [03:48<00:13,  2.52it/s, Materializing param=model.layers.44.self_attn.q_b_proj.weight]Loading weights:  96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 719/751 [03:48<00:12,  2.52it/s, Materializing param=model.layers.45.input_layernorm.weight]Loading weights:  96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 719/751 [03:48<00:12,  2.52it/s, Materializing param=model.layers.45.input_layernorm.weight]Loading weights:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 720/751 [03:48<00:12,  2.52it/s, Materializing param=model.layers.45.mlp.experts.down_proj]Loading weights:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 720/751 [03:48<00:12,  2.52it/s, Materializing param=model.layers.45.mlp.experts.down_proj]Loading weights:  94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 706/751 [03:48<00:17,  2.52it/s, Materializing param=model.layers.44.mlp.experts.gate_up_proj]Loading weights:  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 706/751 [03:48<00:17,  2.52it/s, Materializing param=model.layers.44.mlp.gate.e_score_correction_bias]Loading weights:  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 706/751 [03:48<00:17,  2.52it/s, Materializing param=model.layers.44.mlp.gate.e_score_correction_bias]Loading weights:  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 707/751 [03:48<00:17,  2.52it/s, Materializing param=model.layers.44.mlp.gate.weight]Loading weights:  94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 707/751 [03:48<00:17,  2.52it/s, Materializing param=model.layers.44.mlp.gate.weight]Loading weights:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 708/751 [03:48<00:17,  2.52it/s, Materializing param=model.layers.44.mlp.shared_experts.down_proj.weight]Loading weights:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 708/751 [03:48<00:17,  2.52it/s, Materializing param=model.layers.44.mlp.shared_experts.down_proj.weight]Loading weights:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉      | 709/751 [03:48<00:16,  2.52it/s, Materializing param=model.layers.44.mlp.shared_experts.gate_proj.weight]Loading weights:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉      | 709/751 [03:48<00:16,  2.52it/s, Materializing param=model.layers.44.mlp.shared_experts.gate_proj.weight]Loading weights:  95%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉      | 710/751 [03:48<00:16,  2.52it/s, Materializing param=model.layers.44.mlp.shared_experts.up_proj.weight]Loading weights:  95%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉      | 710/751 [03:48<00:16,  2.52it/s, Materializing param=model.layers.44.mlp.shared_experts.up_proj.weight]Loading weights:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████      | 711/751 [03:48<00:15,  2.52it/s, Materializing param=model.layers.44.post_attention_layernorm.weight]Loading weights:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████      | 711/751 [03:48<00:15,  2.52it/s, Materializing param=model.layers.44.post_attention_layernorm.weight]Loading weights:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 712/751 [03:48<00:15,  2.52it/s, Materializing param=model.layers.44.self_attn.kv_a_layernorm.weight]Loading weights:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 712/751 [03:48<00:15,  2.52it/s, Materializing param=model.layers.44.self_attn.kv_a_layernorm.weight]Loading weights:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 713/751 [03:48<00:15,  2.52it/s, Materializing param=model.layers.44.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 713/751 [03:48<00:15,  2.52it/s, Materializing param=model.layers.44.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 714/751 [03:48<00:14,  2.52it/s, Materializing param=model.layers.44.self_attn.kv_b_proj.weight]Loading weights:  95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 714/751 [03:48<00:14,  2.52it/s, Materializing param=model.layers.44.self_attn.kv_b_proj.weight]Loading weights:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 715/751 [03:48<00:14,  2.52it/s, Materializing param=model.layers.44.self_attn.o_proj.weight]Loading weights:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 715/751 [03:48<00:14,  2.52it/s, Materializing param=model.layers.44.self_attn.o_proj.weight]Loading weights:  95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 716/751 [03:48<00:13,  2.52it/s, Materializing param=model.layers.44.self_attn.q_a_layernorm.weight]Loading weights:  95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 716/751 [03:48<00:13,  2.52it/s, Materializing param=model.layers.44.self_attn.q_a_layernorm.weight]Loading weights:  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 717/751 [03:48<00:13,  2.52it/s, Materializing param=model.layers.44.self_attn.q_a_proj.weight]Loading weights:  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 717/751 [03:48<00:13,  2.52it/s, Materializing param=model.layers.44.self_attn.q_a_proj.weight]Loading weights:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 718/751 [03:48<00:13,  2.52it/s, Materializing param=model.layers.44.self_attn.q_b_proj.weight]Loading weights:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 718/751 [03:48<00:13,  2.52it/s, Materializing param=model.layers.44.self_attn.q_b_proj.weight]Loading weights:  96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 719/751 [03:48<00:12,  2.52it/s, Materializing param=model.layers.45.input_layernorm.weight]Loading weights:  96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 719/751 [03:48<00:12,  2.52it/s, Materializing param=model.layers.45.input_layernorm.weight]Loading weights:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 720/751 [03:48<00:12,  2.52it/s, Materializing param=model.layers.45.mlp.experts.down_proj]Loading weights:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 720/751 [03:48<00:12,  2.52it/s, Materializing param=model.layers.45.mlp.experts.down_proj]Loading weights:  96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 721/751 [03:50<00:07,  3.89it/s, Materializing param=model.layers.45.mlp.experts.down_proj]Loading weights:  96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 721/751 [03:50<00:07,  3.89it/s, Materializing param=model.layers.45.mlp.experts.down_proj]Loading weights:  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 721/751 [03:50<00:07,  3.89it/s, Materializing param=model.layers.45.mlp.experts.gate_up_proj]Loading weights:  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 721/751 [03:50<00:07,  3.89it/s, Materializing param=model.layers.45.mlp.experts.gate_up_proj]Loading weights:  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 721/751 [03:50<00:07,  3.89it/s, Materializing param=model.layers.45.mlp.experts.gate_up_proj]Loading weights:  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 721/751 [03:50<00:07,  3.89it/s, Materializing param=model.layers.45.mlp.experts.gate_up_proj]Loading weights:  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍    | 722/751 [03:53<00:11,  2.50it/s, Materializing param=model.layers.45.mlp.experts.gate_up_proj]Loading weights:  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 722/751 [03:53<00:11,  2.50it/s, Materializing param=model.layers.45.mlp.gate.e_score_correction_bias]Loading weights:  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 722/751 [03:53<00:11,  2.50it/s, Materializing param=model.layers.45.mlp.gate.e_score_correction_bias]Loading weights:  96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 723/751 [03:53<00:11,  2.50it/s, Materializing param=model.layers.45.mlp.gate.weight]Loading weights:  96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 723/751 [03:53<00:11,  2.50it/s, Materializing param=model.layers.45.mlp.gate.weight]Loading weights:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████    | 724/751 [03:53<00:10,  2.50it/s, Materializing param=model.layers.45.mlp.shared_experts.down_proj.weight]Loading weights:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████    | 724/751 [03:53<00:10,  2.50it/s, Materializing param=model.layers.45.mlp.shared_experts.down_proj.weight]Loading weights:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 725/751 [03:53<00:10,  2.50it/s, Materializing param=model.layers.45.mlp.shared_experts.gate_proj.weight]Loading weights:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 725/751 [03:53<00:10,  2.50it/s, Materializing param=model.layers.45.mlp.shared_experts.gate_proj.weight]Loading weights:  97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 726/751 [03:53<00:09,  2.50it/s, Materializing param=model.layers.45.mlp.shared_experts.up_proj.weight]Loading weights:  97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 726/751 [03:53<00:09,  2.50it/s, Materializing param=model.layers.45.mlp.shared_experts.up_proj.weight]Loading weights:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 727/751 [03:53<00:09,  2.50it/s, Materializing param=model.layers.45.post_attention_layernorm.weight]Loading weights:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 727/751 [03:53<00:09,  2.50it/s, Materializing param=model.layers.45.post_attention_layernorm.weight]Loading weights:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 728/751 [03:53<00:09,  2.50it/s, Materializing param=model.layers.45.self_attn.kv_a_layernorm.weight]Loading weights:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 728/751 [03:53<00:09,  2.50it/s, Materializing param=model.layers.45.self_attn.kv_a_layernorm.weight]Loading weights:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 729/751 [03:53<00:08,  2.50it/s, Materializing param=model.layers.45.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 729/751 [03:53<00:08,  2.50it/s, Materializing param=model.layers.45.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 730/751 [03:53<00:08,  2.50it/s, Materializing param=model.layers.45.self_attn.kv_b_proj.weight]Loading weights:  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 730/751 [03:53<00:08,  2.50it/s, Materializing param=model.layers.45.self_attn.kv_b_proj.weight]Loading weights:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 731/751 [03:53<00:07,  2.50it/s, Materializing param=model.layers.45.self_attn.o_proj.weight]Loading weights:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 731/751 [03:53<00:07,  2.50it/s, Materializing param=model.layers.45.self_attn.o_proj.weight]Loading weights:  97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 732/751 [03:53<00:07,  2.50it/s, Materializing param=model.layers.45.self_attn.q_a_layernorm.weight]Loading weights:  97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 732/751 [03:53<00:07,  2.50it/s, Materializing param=model.layers.45.self_attn.q_a_layernorm.weight]Loading weights:  98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 733/751 [03:53<00:07,  2.50it/s, Materializing param=model.layers.45.self_attn.q_a_proj.weight]Loading weights:  98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 733/751 [03:53<00:07,  2.50it/s, Materializing param=model.layers.45.self_attn.q_a_proj.weight]Loading weights:  98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 734/751 [03:53<00:06,  2.50it/s, Materializing param=model.layers.45.self_attn.q_b_proj.weight]Loading weights:  98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 734/751 [03:53<00:06,  2.50it/s, Materializing param=model.layers.45.self_attn.q_b_proj.weight]Loading weights:  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 735/751 [03:53<00:06,  2.50it/s, Materializing param=model.layers.46.input_layernorm.weight]Loading weights:  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 735/751 [03:53<00:06,  2.50it/s, Materializing param=model.layers.46.input_layernorm.weight]Loading weights:  98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 736/751 [03:53<00:05,  2.50it/s, Materializing param=model.layers.46.mlp.experts.down_proj]Loading weights:  98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 736/751 [03:53<00:05,  2.50it/s, Materializing param=model.layers.46.mlp.experts.down_proj]Loading weights:  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍    | 722/751 [03:54<00:12,  2.31it/s, Materializing param=model.layers.45.mlp.experts.gate_up_proj]Loading weights:  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 722/751 [03:54<00:12,  2.31it/s, Materializing param=model.layers.45.mlp.gate.e_score_correction_bias]Loading weights:  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 722/751 [03:54<00:12,  2.31it/s, Materializing param=model.layers.45.mlp.gate.e_score_correction_bias]Loading weights:  96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 723/751 [03:54<00:12,  2.31it/s, Materializing param=model.layers.45.mlp.gate.weight]Loading weights:  96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 723/751 [03:54<00:12,  2.31it/s, Materializing param=model.layers.45.mlp.gate.weight]Loading weights:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████    | 724/751 [03:54<00:11,  2.31it/s, Materializing param=model.layers.45.mlp.shared_experts.down_proj.weight]Loading weights:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████    | 724/751 [03:54<00:11,  2.31it/s, Materializing param=model.layers.45.mlp.shared_experts.down_proj.weight]Loading weights:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 725/751 [03:54<00:11,  2.31it/s, Materializing param=model.layers.45.mlp.shared_experts.gate_proj.weight]Loading weights:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 725/751 [03:54<00:11,  2.31it/s, Materializing param=model.layers.45.mlp.shared_experts.gate_proj.weight]Loading weights:  97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 726/751 [03:54<00:10,  2.31it/s, Materializing param=model.layers.45.mlp.shared_experts.up_proj.weight]Loading weights:  97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 726/751 [03:54<00:10,  2.31it/s, Materializing param=model.layers.45.mlp.shared_experts.up_proj.weight]Loading weights:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 727/751 [03:54<00:10,  2.31it/s, Materializing param=model.layers.45.post_attention_layernorm.weight]Loading weights:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 727/751 [03:54<00:10,  2.31it/s, Materializing param=model.layers.45.post_attention_layernorm.weight]Loading weights:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 728/751 [03:54<00:09,  2.31it/s, Materializing param=model.layers.45.self_attn.kv_a_layernorm.weight]Loading weights:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 728/751 [03:54<00:09,  2.31it/s, Materializing param=model.layers.45.self_attn.kv_a_layernorm.weight]Loading weights:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 729/751 [03:54<00:09,  2.31it/s, Materializing param=model.layers.45.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 729/751 [03:54<00:09,  2.31it/s, Materializing param=model.layers.45.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 730/751 [03:54<00:09,  2.31it/s, Materializing param=model.layers.45.self_attn.kv_b_proj.weight]Loading weights:  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 730/751 [03:54<00:09,  2.31it/s, Materializing param=model.layers.45.self_attn.kv_b_proj.weight]Loading weights:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 731/751 [03:54<00:08,  2.31it/s, Materializing param=model.layers.45.self_attn.o_proj.weight]Loading weights:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 731/751 [03:54<00:08,  2.31it/s, Materializing param=model.layers.45.self_attn.o_proj.weight]Loading weights:  97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 732/751 [03:54<00:08,  2.31it/s, Materializing param=model.layers.45.self_attn.q_a_layernorm.weight]Loading weights:  97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 732/751 [03:54<00:08,  2.31it/s, Materializing param=model.layers.45.self_attn.q_a_layernorm.weight]Loading weights:  98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 733/751 [03:54<00:07,  2.31it/s, Materializing param=model.layers.45.self_attn.q_a_proj.weight]Loading weights:  98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 733/751 [03:54<00:07,  2.31it/s, Materializing param=model.layers.45.self_attn.q_a_proj.weight]Loading weights:  98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 734/751 [03:54<00:07,  2.31it/s, Materializing param=model.layers.45.self_attn.q_b_proj.weight]Loading weights:  98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 734/751 [03:54<00:07,  2.31it/s, Materializing param=model.layers.45.self_attn.q_b_proj.weight]Loading weights:  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 735/751 [03:54<00:06,  2.31it/s, Materializing param=model.layers.46.input_layernorm.weight]Loading weights:  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 735/751 [03:54<00:06,  2.31it/s, Materializing param=model.layers.46.input_layernorm.weight]Loading weights:  98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 736/751 [03:54<00:06,  2.31it/s, Materializing param=model.layers.46.mlp.experts.down_proj]Loading weights:  98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 736/751 [03:54<00:06,  2.31it/s, Materializing param=model.layers.46.mlp.experts.down_proj]Loading weights:  98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 737/751 [03:55<00:03,  3.94it/s, Materializing param=model.layers.46.mlp.experts.down_proj]Loading weights:  98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 737/751 [03:55<00:03,  4.06it/s, Materializing param=model.layers.46.mlp.experts.down_proj]Loading weights:  98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 737/751 [03:55<00:03,  3.94it/s, Materializing param=model.layers.46.mlp.experts.gate_up_proj]Loading weights:  98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 737/751 [03:55<00:03,  4.06it/s, Materializing param=model.layers.46.mlp.experts.gate_up_proj]Loading weights:  98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 737/751 [03:55<00:03,  3.94it/s, Materializing param=model.layers.46.mlp.experts.gate_up_proj]Loading weights:  98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 737/751 [03:55<00:03,  4.06it/s, Materializing param=model.layers.46.mlp.experts.gate_up_proj]Loading weights:  98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 738/751 [03:58<00:05,  2.57it/s, Materializing param=model.layers.46.mlp.experts.gate_up_proj]Loading weights:  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 738/751 [03:58<00:05,  2.57it/s, Materializing param=model.layers.46.mlp.gate.e_score_correction_bias]Loading weights:  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 738/751 [03:58<00:05,  2.57it/s, Materializing param=model.layers.46.mlp.gate.e_score_correction_bias]Loading weights:  98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 738/751 [03:58<00:04,  2.62it/s, Materializing param=model.layers.46.mlp.experts.gate_up_proj]Loading weights:  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 739/751 [03:58<00:04,  2.57it/s, Materializing param=model.layers.46.mlp.gate.weight]Loading weights:  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 738/751 [03:58<00:04,  2.62it/s, Materializing param=model.layers.46.mlp.gate.e_score_correction_bias]Loading weights:  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 739/751 [03:58<00:04,  2.57it/s, Materializing param=model.layers.46.mlp.gate.weight]Loading weights:  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 738/751 [03:58<00:04,  2.62it/s, Materializing param=model.layers.46.mlp.gate.e_score_correction_bias]Loading weights:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 740/751 [03:58<00:04,  2.57it/s, Materializing param=model.layers.46.mlp.shared_experts.down_proj.weight]Loading weights:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 740/751 [03:58<00:04,  2.57it/s, Materializing param=model.layers.46.mlp.shared_experts.down_proj.weight]Loading weights:  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 739/751 [03:58<00:04,  2.62it/s, Materializing param=model.layers.46.mlp.gate.weight]Loading weights:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 741/751 [03:58<00:03,  2.57it/s, Materializing param=model.layers.46.mlp.shared_experts.gate_proj.weight]Loading weights:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 741/751 [03:58<00:03,  2.57it/s, Materializing param=model.layers.46.mlp.shared_experts.gate_proj.weight]Loading weights:  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 739/751 [03:58<00:04,  2.62it/s, Materializing param=model.layers.46.mlp.gate.weight]Loading weights:  99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 742/751 [03:58<00:03,  2.57it/s, Materializing param=model.layers.46.mlp.shared_experts.up_proj.weight]Loading weights:  99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 742/751 [03:58<00:03,  2.57it/s, Materializing param=model.layers.46.mlp.shared_experts.up_proj.weight]Loading weights:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 740/751 [03:58<00:04,  2.62it/s, Materializing param=model.layers.46.mlp.shared_experts.down_proj.weight]Loading weights:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 743/751 [03:58<00:03,  2.57it/s, Materializing param=model.layers.46.post_attention_layernorm.weight]Loading weights:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 743/751 [03:58<00:03,  2.57it/s, Materializing param=model.layers.46.post_attention_layernorm.weight]Loading weights:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 740/751 [03:58<00:04,  2.62it/s, Materializing param=model.layers.46.mlp.shared_experts.down_proj.weight]Loading weights:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 744/751 [03:58<00:02,  2.57it/s, Materializing param=model.layers.46.self_attn.kv_a_layernorm.weight]Loading weights:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 744/751 [03:58<00:02,  2.57it/s, Materializing param=model.layers.46.self_attn.kv_a_layernorm.weight]Loading weights:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 741/751 [03:58<00:03,  2.62it/s, Materializing param=model.layers.46.mlp.shared_experts.gate_proj.weight]Loading weights:  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 745/751 [03:58<00:02,  2.57it/s, Materializing param=model.layers.46.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 741/751 [03:58<00:03,  2.62it/s, Materializing param=model.layers.46.mlp.shared_experts.gate_proj.weight]Loading weights:  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 745/751 [03:58<00:02,  2.57it/s, Materializing param=model.layers.46.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 746/751 [03:58<00:01,  2.57it/s, Materializing param=model.layers.46.self_attn.kv_b_proj.weight]Loading weights:  99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 746/751 [03:58<00:01,  2.57it/s, Materializing param=model.layers.46.self_attn.kv_b_proj.weight]Loading weights:  99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 742/751 [03:58<00:03,  2.62it/s, Materializing param=model.layers.46.mlp.shared_experts.up_proj.weight]Loading weights:  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 747/751 [03:58<00:01,  2.57it/s, Materializing param=model.layers.46.self_attn.o_proj.weight]Loading weights:  99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 742/751 [03:58<00:03,  2.62it/s, Materializing param=model.layers.46.mlp.shared_experts.up_proj.weight]Loading weights:  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 747/751 [03:58<00:01,  2.57it/s, Materializing param=model.layers.46.self_attn.o_proj.weight]Loading weights: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 748/751 [03:58<00:01,  2.57it/s, Materializing param=model.layers.46.self_attn.q_a_layernorm.weight]Loading weights:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 743/751 [03:58<00:03,  2.62it/s, Materializing param=model.layers.46.post_attention_layernorm.weight]Loading weights: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 748/751 [03:58<00:01,  2.57it/s, Materializing param=model.layers.46.self_attn.q_a_layernorm.weight]Loading weights:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 743/751 [03:58<00:03,  2.62it/s, Materializing param=model.layers.46.post_attention_layernorm.weight]Loading weights: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 749/751 [03:58<00:00,  2.57it/s, Materializing param=model.layers.46.self_attn.q_a_proj.weight]Loading weights: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 749/751 [03:58<00:00,  2.57it/s, Materializing param=model.layers.46.self_attn.q_a_proj.weight]Loading weights:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 744/751 [03:58<00:02,  2.62it/s, Materializing param=model.layers.46.self_attn.kv_a_layernorm.weight]Loading weights: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊| 750/751 [03:58<00:00,  2.57it/s, Materializing param=model.layers.46.self_attn.q_b_proj.weight]Loading weights: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊| 750/751 [03:58<00:00,  2.57it/s, Materializing param=model.layers.46.self_attn.q_b_proj.weight]Loading weights:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 744/751 [03:58<00:02,  2.62it/s, Materializing param=model.layers.46.self_attn.kv_a_layernorm.weight]Loading weights: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 751/751 [03:58<00:00,  2.57it/s, Materializing param=model.norm.weight]Loading weights: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 751/751 [03:58<00:00,  2.57it/s, Materializing param=model.norm.weight]Loading weights:  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 745/751 [03:58<00:02,  2.62it/s, Materializing param=model.layers.46.self_attn.kv_a_proj_with_mqa.weight]Loading weights:  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 745/751 [03:58<00:02,  2.62it/s, Materializing param=model.layers.46.self_attn.kv_a_proj_with_mqa.weight]Loading weights: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 751/751 [03:58<00:00,  3.15it/s, Materializing param=model.norm.weight]Loading weights:  99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 746/751 [03:58<00:01,  2.62it/s, Materializing param=model.layers.46.self_attn.kv_b_proj.weight]Loading weights:  99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 746/751 [03:58<00:01,  2.62it/s, Materializing param=model.layers.46.self_attn.kv_b_proj.weight]Loading weights:  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 747/751 [03:58<00:01,  2.62it/s, Materializing param=model.layers.46.self_attn.o_proj.weight]Loading weights:  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 747/751 [03:58<00:01,  2.62it/s, Materializing param=model.layers.46.self_attn.o_proj.weight]Loading weights: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 748/751 [03:58<00:01,  2.62it/s, Materializing param=model.layers.46.self_attn.q_a_layernorm.weight]Loading weights: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 748/751 [03:58<00:01,  2.62it/s, Materializing param=model.layers.46.self_attn.q_a_layernorm.weight]Loading weights: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 749/751 [03:58<00:00,  2.62it/s, Materializing param=model.layers.46.self_attn.q_a_proj.weight]Loading weights: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 749/751 [03:58<00:00,  2.62it/s, Materializing param=model.layers.46.self_attn.q_a_proj.weight]Loading weights: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊| 750/751 [03:58<00:00,  2.62it/s, Materializing param=model.layers.46.self_attn.q_b_proj.weight]Loading weights: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊| 750/751 [03:58<00:00,  2.62it/s, Materializing param=model.layers.46.self_attn.q_b_proj.weight]Loading weights: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 751/751 [03:58<00:00,  2.62it/s, Materializing param=model.norm.weight]Loading weights: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 751/751 [03:58<00:00,  2.62it/s, Materializing param=model.norm.weight]Loading weights: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 751/751 [03:58<00:00,  3.15it/s, Materializing param=model.norm.weight]
[2026-01-25 16:50:11,035] [INFO] [axolotl.loaders.model._configure_embedding_dtypes:347] [PID:796] Converting modules to torch.bfloat16
[2026-01-25 16:50:11,039] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:796] Memory usage after model load 0.000GB ()
trainable params: 20,840,448 || all params: 29,964,231,424 || trainable%: 0.0696
[2026-01-25 16:50:11,625] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:796] after adapters 0.000GB ()

[2026-01-25 16:50:15,545] [WARNING] [accelerate.utils.dataclasses.__post_init__:1962] [PID:797] sharding_strategy is deprecated in favor of reshard_after_forward. This will be removed in a future version of Accelerate.
[2026-01-25 16:50:15,545] [WARNING] [accelerate.utils.dataclasses.__post_init__:1962] [PID:796] sharding_strategy is deprecated in favor of reshard_after_forward. This will be removed in a future version of Accelerate.
[2026-01-25 16:50:16,151] [INFO] [axolotl.train.save_initial_configs:413] [PID:796] Pre-saving adapter config to ./outputs/qlora-out...
[2026-01-25 16:50:16,151] [INFO] [axolotl.train.save_initial_configs:417] [PID:796] Pre-saving tokenizer to ./outputs/qlora-out...
[2026-01-25 16:50:16,310] [INFO] [axolotl.train.save_initial_configs:422] [PID:796] Pre-saving model config to ./outputs/qlora-out...
[2026-01-25 16:50:16,322] [INFO] [axolotl.train.execute_training:212] [PID:796] Starting trainer...
  0%|                                                                                                                                                                                                                | 0/496 [00:00<?, ?it/s][2026-01-25 16:50:53,332] [WARNING] [datasets.iterable_dataset._iter_pytorch:2405] [PID:949] Too many dataloader workers: 2 (max is dataset.num_shards=1). Stopping 1 dataloader workers.
[2026-01-25 16:50:53,337] [WARNING] [datasets.iterable_dataset._iter_pytorch:2405] [PID:950] Too many dataloader workers: 2 (max is dataset.num_shards=1). Stopping 1 dataloader workers.
[2026-01-25 16:50:53,590] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:949] Loading dataset: Guilherme34/Dataset-for-updating-llm-to-be-aware-of-the-situation with base_type: pretrain and prompt_style: None
[2026-01-25 16:50:53,591] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:950] Loading dataset: Guilherme34/Dataset-for-updating-llm-to-be-aware-of-the-situation with base_type: pretrain and prompt_style: None

Tokenizing Prompts (num_proc=54):   0%|                                                                                                                                                                       | 0/949 [00:00<?, ? examples/s][ATokenizing Prompts (num_proc=54):   0%|                                                                                                                                                                       | 0/949 [00:00<?, ? examples/s]
Tokenizing Prompts (num_proc=54):   2%|██▉                                                                                                                                                           | 18/949 [00:39<34:23,  2.22s/ examples][A
Tokenizing Prompts (num_proc=54):   4%|█████▉                                                                                                                                                        | 36/949 [00:40<13:57,  1.09 examples/s][A
Tokenizing Prompts (num_proc=54):   6%|████████▉                                                                                                                                                     | 54/949 [00:40<07:30,  1.99 examples/s][A
Tokenizing Prompts (num_proc=54):   8%|███████████▉                                                                                                                                                  | 72/949 [00:40<04:30,  3.25 examples/s][A
Tokenizing Prompts (num_proc=54):   9%|██████████████▉                                                                                                                                               | 90/949 [00:40<02:52,  4.99 examples/s][A
Tokenizing Prompts (num_proc=54):  11%|█████████████████▊                                                                                                                                           | 108/949 [00:40<01:54,  7.37 examples/s][A
Tokenizing Prompts (num_proc=54):  13%|████████████████████▊                                                                                                                                        | 126/949 [00:40<01:16, 10.73 examples/s][ATokenizing Prompts (num_proc=54):   2%|██▉                                                                                                                                                           | 18/949 [00:40<35:13,  2.27s/ examples]Tokenizing Prompts (num_proc=54):   4%|█████▉                                                                                                                                                        | 36/949 [00:41<14:18,  1.06 examples/s]
Tokenizing Prompts (num_proc=54):  15%|███████████████████████▊                                                                                                                                     | 144/949 [00:41<00:54, 14.69 examples/s][ATokenizing Prompts (num_proc=54):   6%|████████▉                                                                                                                                                     | 54/949 [00:41<07:40,  1.94 examples/s]Tokenizing Prompts (num_proc=54):   8%|███████████▉                                                                                                                                                  | 72/949 [00:41<04:36,  3.17 examples/s]Tokenizing Prompts (num_proc=54):   9%|██████████████▉                                                                                                                                               | 90/949 [00:41<02:55,  4.89 examples/s]
Tokenizing Prompts (num_proc=54):  17%|██████████████████████████▊                                                                                                                                  | 162/949 [00:41<00:43, 17.92 examples/s][ATokenizing Prompts (num_proc=54):  11%|█████████████████▊                                                                                                                                           | 108/949 [00:41<01:56,  7.22 examples/s]
Tokenizing Prompts (num_proc=54):  19%|█████████████████████████████▊                                                                                                                               | 180/949 [00:41<00:31, 24.28 examples/s][ATokenizing Prompts (num_proc=54):  13%|████████████████████▊                                                                                                                                        | 126/949 [00:41<01:19, 10.33 examples/s]
Tokenizing Prompts (num_proc=54):  23%|███████████████████████████████████▋                                                                                                                         | 216/949 [00:41<00:17, 41.50 examples/s][ATokenizing Prompts (num_proc=54):  15%|███████████████████████▊                                                                                                                                     | 144/949 [00:42<00:55, 14.58 examples/s]
Tokenizing Prompts (num_proc=54):  25%|██████████████████████████████████████▋                                                                                                                      | 234/949 [00:42<00:14, 48.76 examples/s][ATokenizing Prompts (num_proc=54):  17%|██████████████████████████▊                                                                                                                                  | 162/949 [00:42<00:39, 19.87 examples/s]
Tokenizing Prompts (num_proc=54):  27%|█████████████████████████████████████████▋                                                                                                                   | 252/949 [00:42<00:12, 55.89 examples/s][ATokenizing Prompts (num_proc=54):  19%|█████████████████████████████▊                                                                                                                               | 180/949 [00:42<00:29, 26.44 examples/s]
Tokenizing Prompts (num_proc=54):  28%|████████████████████████████████████████████▋                                                                                                                | 270/949 [00:42<00:10, 64.46 examples/s][ATokenizing Prompts (num_proc=54):  21%|████████████████████████████████▊                                                                                                                            | 198/949 [00:42<00:21, 34.26 examples/s]
Tokenizing Prompts (num_proc=54):  30%|███████████████████████████████████████████████▋                                                                                                             | 288/949 [00:42<00:09, 72.92 examples/s][ATokenizing Prompts (num_proc=54):  23%|███████████████████████████████████▋                                                                                                                         | 216/949 [00:42<00:17, 42.98 examples/s]
Tokenizing Prompts (num_proc=54):  32%|██████████████████████████████████████████████████▌                                                                                                          | 306/949 [00:42<00:08, 79.99 examples/s][ATokenizing Prompts (num_proc=54):  25%|██████████████████████████████████████▋                                                                                                                      | 234/949 [00:42<00:13, 52.55 examples/s]
Tokenizing Prompts (num_proc=54):  34%|█████████████████████████████████████████████████████▌                                                                                                       | 324/949 [00:42<00:07, 86.34 examples/s][ATokenizing Prompts (num_proc=54):  27%|█████████████████████████████████████████▋                                                                                                                   | 252/949 [00:43<00:11, 62.08 examples/s]
Tokenizing Prompts (num_proc=54):  36%|████████████████████████████████████████████████████████▌                                                                                                    | 342/949 [00:43<00:06, 88.12 examples/s][ATokenizing Prompts (num_proc=54):  28%|████████████████████████████████████████████▋                                                                                                                | 270/949 [00:43<00:09, 71.31 examples/s]
Tokenizing Prompts (num_proc=54):  38%|███████████████████████████████████████████████████████████▌                                                                                                 | 360/949 [00:43<00:06, 95.33 examples/s][ATokenizing Prompts (num_proc=54):  30%|███████████████████████████████████████████████▋                                                                                                             | 288/949 [00:43<00:08, 81.05 examples/s]
Tokenizing Prompts (num_proc=54):  40%|██████████████████████████████████████████████████████████████▌                                                                                              | 378/949 [00:43<00:05, 99.67 examples/s][ATokenizing Prompts (num_proc=54):  32%|██████████████████████████████████████████████████▌                                                                                                          | 306/949 [00:43<00:07, 89.34 examples/s]
Tokenizing Prompts (num_proc=54):  42%|█████████████████████████████████████████████████████████████████                                                                                           | 396/949 [00:43<00:05, 103.01 examples/s][ATokenizing Prompts (num_proc=54):  34%|█████████████████████████████████████████████████████▌                                                                                                       | 324/949 [00:43<00:06, 93.29 examples/s]
Tokenizing Prompts (num_proc=54):  44%|████████████████████████████████████████████████████████████████████                                                                                        | 414/949 [00:43<00:04, 107.38 examples/s][ATokenizing Prompts (num_proc=54):  36%|████████████████████████████████████████████████████████▌                                                                                                    | 342/949 [00:43<00:06, 93.57 examples/s]
Tokenizing Prompts (num_proc=54):  46%|███████████████████████████████████████████████████████████████████████                                                                                     | 432/949 [00:43<00:04, 106.98 examples/s][ATokenizing Prompts (num_proc=54):  38%|███████████████████████████████████████████████████████████▌                                                                                                 | 360/949 [00:44<00:06, 96.57 examples/s]
Tokenizing Prompts (num_proc=54):  47%|█████████████████████████████████████████████████████████████████████████▉                                                                                  | 450/949 [00:44<00:04, 105.38 examples/s][ATokenizing Prompts (num_proc=54):  40%|██████████████████████████████████████████████████████████████▏                                                                                             | 378/949 [00:44<00:05, 103.01 examples/s]
Tokenizing Prompts (num_proc=54):  49%|████████████████████████████████████████████████████████████████████████████▉                                                                               | 468/949 [00:44<00:04, 107.30 examples/s][ATokenizing Prompts (num_proc=54):  42%|█████████████████████████████████████████████████████████████████                                                                                           | 396/949 [00:44<00:05, 102.40 examples/s]
Tokenizing Prompts (num_proc=54):  51%|███████████████████████████████████████████████████████████████████████████████▉                                                                            | 486/949 [00:44<00:04, 109.20 examples/s][ATokenizing Prompts (num_proc=54):  44%|████████████████████████████████████████████████████████████████████                                                                                        | 414/949 [00:44<00:05, 103.13 examples/s]
Tokenizing Prompts (num_proc=54):  53%|██████████████████████████████████████████████████████████████████████████████████▊                                                                         | 504/949 [00:44<00:04, 107.77 examples/s][ATokenizing Prompts (num_proc=54):  46%|███████████████████████████████████████████████████████████████████████                                                                                     | 432/949 [00:44<00:05, 102.83 examples/s]
Tokenizing Prompts (num_proc=54):  55%|█████████████████████████████████████████████████████████████████████████████████████▊                                                                      | 522/949 [00:44<00:04, 106.33 examples/s][ATokenizing Prompts (num_proc=54):  47%|█████████████████████████████████████████████████████████████████████████▉                                                                                  | 450/949 [00:44<00:04, 102.10 examples/s]
Tokenizing Prompts (num_proc=54):  57%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 540/949 [00:44<00:03, 104.19 examples/s][ATokenizing Prompts (num_proc=54):  49%|████████████████████████████████████████████████████████████████████████████▉                                                                               | 468/949 [00:45<00:04, 106.61 examples/s]
Tokenizing Prompts (num_proc=54):  59%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                                | 558/949 [00:45<00:03, 105.07 examples/s][ATokenizing Prompts (num_proc=54):  51%|███████████████████████████████████████████████████████████████████████████████▉                                                                            | 486/949 [00:45<00:04, 105.92 examples/s]
Tokenizing Prompts (num_proc=54):  61%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                             | 575/949 [00:45<00:03, 107.88 examples/s][ATokenizing Prompts (num_proc=54):  53%|██████████████████████████████████████████████████████████████████████████████████▊                                                                         | 504/949 [00:45<00:04, 109.91 examples/s]
Tokenizing Prompts (num_proc=54):  62%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 592/949 [00:45<00:03, 104.34 examples/s][ATokenizing Prompts (num_proc=54):  55%|█████████████████████████████████████████████████████████████████████████████████████▊                                                                      | 522/949 [00:45<00:04, 104.02 examples/s]
Tokenizing Prompts (num_proc=54):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 609/949 [00:45<00:03, 106.12 examples/s][ATokenizing Prompts (num_proc=54):  57%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 540/949 [00:45<00:03, 105.10 examples/s]
Tokenizing Prompts (num_proc=54):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 626/949 [00:45<00:02, 108.72 examples/s][ATokenizing Prompts (num_proc=54):  59%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                                | 558/949 [00:45<00:03, 106.33 examples/s]
Tokenizing Prompts (num_proc=54):  68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 643/949 [00:45<00:02, 105.60 examples/s][A
Tokenizing Prompts (num_proc=54):  70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 660/949 [00:46<00:02, 104.17 examples/s][ATokenizing Prompts (num_proc=54):  61%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                             | 575/949 [00:46<00:03, 101.75 examples/s]
Tokenizing Prompts (num_proc=54):  71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 677/949 [00:46<00:02, 102.06 examples/s][ATokenizing Prompts (num_proc=54):  62%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 592/949 [00:46<00:03, 100.53 examples/s]
Tokenizing Prompts (num_proc=54):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                          | 694/949 [00:46<00:02, 100.54 examples/s][ATokenizing Prompts (num_proc=54):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                        | 609/949 [00:46<00:03, 97.40 examples/s]
Tokenizing Prompts (num_proc=54):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                       | 711/949 [00:46<00:03, 75.88 examples/s][ATokenizing Prompts (num_proc=54):  66%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                     | 626/949 [00:46<00:04, 71.54 examples/s]
Tokenizing Prompts (num_proc=54):  77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 728/949 [00:47<00:02, 80.62 examples/s][ATokenizing Prompts (num_proc=54):  68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                  | 643/949 [00:47<00:03, 78.58 examples/s]
Tokenizing Prompts (num_proc=54):  79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                 | 745/949 [00:47<00:02, 84.95 examples/s][ATokenizing Prompts (num_proc=54):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                               | 660/949 [00:47<00:03, 82.92 examples/s]
Tokenizing Prompts (num_proc=54):  80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 762/949 [00:47<00:02, 91.62 examples/s][ATokenizing Prompts (num_proc=54):  71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                             | 677/949 [00:47<00:03, 85.60 examples/s]
Tokenizing Prompts (num_proc=54):  82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                            | 779/949 [00:47<00:01, 88.45 examples/s][ATokenizing Prompts (num_proc=54):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 694/949 [00:47<00:02, 85.78 examples/s]
Tokenizing Prompts (num_proc=54):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                         | 796/949 [00:47<00:01, 93.00 examples/s][ATokenizing Prompts (num_proc=54):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                       | 711/949 [00:47<00:02, 86.37 examples/s]
Tokenizing Prompts (num_proc=54):  87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 830/949 [00:48<00:01, 96.06 examples/s][ATokenizing Prompts (num_proc=54):  79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                 | 745/949 [00:48<00:02, 92.15 examples/s]
Tokenizing Prompts (num_proc=54):  89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 847/949 [00:48<00:01, 93.13 examples/s][ATokenizing Prompts (num_proc=54):  80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 762/949 [00:48<00:02, 91.41 examples/s]
Tokenizing Prompts (num_proc=54):  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉              | 864/949 [00:48<00:00, 96.65 examples/s][ATokenizing Prompts (num_proc=54):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                         | 796/949 [00:48<00:02, 70.85 examples/s]
Tokenizing Prompts (num_proc=54):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 898/949 [00:49<00:01, 50.60 examples/s][ATokenizing Prompts (num_proc=54):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                      | 813/949 [00:49<00:02, 52.24 examples/s]
Tokenizing Prompts (num_proc=54):  96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 915/949 [00:49<00:00, 54.10 examples/s][ATokenizing Prompts (num_proc=54):  89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 847/949 [00:49<00:01, 72.09 examples/s]Tokenizing Prompts (num_proc=54):  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉              | 864/949 [00:49<00:01, 78.92 examples/s]
Tokenizing Prompts (num_proc=54):  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 932/949 [00:49<00:00, 56.64 examples/s][ATokenizing Prompts (num_proc=54):  95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 898/949 [00:50<00:00, 101.54 examples/s]
Tokenizing Prompts (num_proc=54): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:50<00:00, 62.97 examples/s][ATokenizing Prompts (num_proc=54):  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 915/949 [00:50<00:00, 110.51 examples/s]Tokenizing Prompts (num_proc=54):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 932/949 [00:50<00:00, 107.11 examples/s]Tokenizing Prompts (num_proc=54): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:50<00:00, 116.19 examples/s]Tokenizing Prompts (num_proc=54): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:53<00:00, 17.75 examples/s]

Dropping Long Sequences:   0%|                                                                                                                                                                                | 0/949 [00:00<?, ? examples/s][ATokenizing Prompts (num_proc=54): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:53<00:00, 17.63 examples/s]
Dropping Long Sequences:   0%|                                                                                                                                                                                | 0/949 [00:00<?, ? examples/s]
Dropping Long Sequences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:00<00:00, 1211.99 examples/s][ADropping Long Sequences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:00<00:00, 1158.28 examples/s]Dropping Long Sequences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:00<00:00, 1183.69 examples/s]Dropping Long Sequences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:00<00:00, 1132.34 examples/s]

Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                    | 0/936 [00:00<?, ? examples/s][A
Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                    | 0/936 [00:00<?, ? examples/s]
Add position_id column (Pretraining Sample Packing): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 936/936 [00:00<00:00, 1314.18 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 936/936 [00:00<00:00, 1250.56 examples/s]
[2026-01-25 16:51:49,519] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:950] Using single process for pack_parallel, running sequentially.
Add position_id column (Pretraining Sample Packing): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 936/936 [00:00<00:00, 1433.49 examples/s]Add position_id column (Pretraining Sample Packing): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 936/936 [00:00<00:00, 1359.90 examples/s][2026-01-25 16:51:50,641] [WARNING] [py.warnings._showwarnmsg:110] [PID:950] /apool/venvi/lib/python3.13/site-packages/datasets/formatting/torch_formatter.py:222: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.detach().clone() or sourceTensor.detach().clone().requires_grad_(True), rather than torch.tensor(sourceTensor).
  return torch.tensor(value, **{**default_dtype, **self.torch_tensor_kwargs})


[2026-01-25 16:51:50,695] [WARNING] [py.warnings._showwarnmsg:110] [PID:949] /apool/venvi/lib/python3.13/site-packages/datasets/formatting/torch_formatter.py:222: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.detach().clone() or sourceTensor.detach().clone().requires_grad_(True), rather than torch.tensor(sourceTensor).
  return torch.tensor(value, **{**default_dtype, **self.torch_tensor_kwargs})

  0%|▍                                                                                                                                                                                                   | 1/496 [02:39<21:55:41, 159.48s/it]                                                                                                                                                                                                                                             {'loss': '2.857', 'grad_norm': '14.23', 'learning_rate': '0.0002', 'ppl': '17.42', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '20.25', 'tokens/total': 2048, 'tokens/trainable': 2039, 'epoch': '0.002016'}
  0%|▍                                                                                                                                                                                                   | 1/496 [02:39<21:55:41, 159.48s/it]  0%|▊                                                                                                                                                                                                     | 2/496 [02:47<9:38:21, 70.25s/it]                                                                                                                                                                                                                                             {'loss': '2.867', 'grad_norm': '0.4179', 'learning_rate': '0.0002', 'ppl': '17.58', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262.4', 'tokens/total': 4096, 'tokens/trainable': 4078, 'epoch': '0.004032'}
  0%|▊                                                                                                                                                                                                     | 2/496 [02:47<9:38:21, 70.25s/it]  1%|█▏                                                                                                                                                                                                    | 3/496 [02:55<5:43:00, 41.74s/it]                                                                                                                                                                                                                                             {'loss': '2.862', 'grad_norm': '0.4247', 'learning_rate': '0.0002', 'ppl': '17.51', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '261.7', 'tokens/total': 6144, 'tokens/trainable': 6123, 'epoch': '0.006048'}
  1%|█▏                                                                                                                                                                                                    | 3/496 [02:55<5:43:00, 41.74s/it]  1%|█▌                                                                                                                                                                                                    | 4/496 [03:02<3:52:07, 28.31s/it]                                                                                                                                                                                                                                             {'loss': '2.708', 'grad_norm': '10.05', 'learning_rate': '0.0002', 'ppl': '15', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264.3', 'tokens/total': 8192, 'tokens/trainable': 8161, 'epoch': '0.008065'}
  1%|█▌                                                                                                                                                                                                    | 4/496 [03:02<3:52:07, 28.31s/it]  1%|█▉                                                                                                                                                                                                    | 5/496 [03:10<2:51:24, 20.95s/it]                                                                                                                                                                                                                                             {'loss': '2.522', 'grad_norm': '0.4268', 'learning_rate': '0.0002', 'ppl': '12.46', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '257.9', 'tokens/total': 10240, 'tokens/trainable': 10195, 'epoch': '0.01008'}
  1%|█▉                                                                                                                                                                                                    | 5/496 [03:10<2:51:24, 20.95s/it]  1%|██▍                                                                                                                                                                                                   | 6/496 [03:18<2:15:15, 16.56s/it]                                                                                                                                                                                                                                             {'loss': '3.239', 'grad_norm': '0.5525', 'learning_rate': '0.0001999', 'ppl': '25.5', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '252.9', 'tokens/total': 12288, 'tokens/trainable': 12232, 'epoch': '0.0121'}
  1%|██▍                                                                                                                                                                                                   | 6/496 [03:18<2:15:15, 16.56s/it]  1%|██▊                                                                                                                                                                                                   | 7/496 [03:26<1:51:27, 13.68s/it]                                                                                                                                                                                                                                             {'loss': '2.719', 'grad_norm': '0.5256', 'learning_rate': '0.0001999', 'ppl': '15.16', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '263.3', 'tokens/total': 14336, 'tokens/trainable': 14266, 'epoch': '0.01411'}
  1%|██▊                                                                                                                                                                                                   | 7/496 [03:26<1:51:27, 13.68s/it]  2%|███▏                                                                                                                                                                                                  | 8/496 [03:34<1:36:30, 11.87s/it]                                                                                                                                                                                                                                             {'loss': '2.323', 'grad_norm': '0.5143', 'learning_rate': '0.0001999', 'ppl': '10.2', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '256.3', 'tokens/total': 16384, 'tokens/trainable': 16312, 'epoch': '0.01613'}
  2%|███▏                                                                                                                                                                                                  | 8/496 [03:34<1:36:30, 11.87s/it]  2%|███▌                                                                                                                                                                                                  | 9/496 [03:42<1:27:18, 10.76s/it]                                                                                                                                                                                                                                             {'loss': '2.809', 'grad_norm': '0.627', 'learning_rate': '0.0001999', 'ppl': '16.59', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '244.9', 'tokens/total': 18432, 'tokens/trainable': 18348, 'epoch': '0.01815'}
  2%|███▌                                                                                                                                                                                                  | 9/496 [03:42<1:27:18, 10.76s/it]  2%|███▉                                                                                                                                                                                                 | 10/496 [03:50<1:20:12,  9.90s/it]                                                                                                                                                                                                                                             {'loss': '2.189', 'grad_norm': '0.5775', 'learning_rate': '0.0001998', 'ppl': '8.931', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '255.5', 'tokens/total': 20480, 'tokens/trainable': 20385, 'epoch': '0.02016'}
  2%|███▉                                                                                                                                                                                                 | 10/496 [03:50<1:20:12,  9.90s/it]  2%|████▎                                                                                                                                                                                                | 11/496 [03:58<1:14:46,  9.25s/it]                                                                                                                                                                                                                                             {'loss': '2.689', 'grad_norm': '0.7627', 'learning_rate': '0.0001998', 'ppl': '14.71', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262.8', 'tokens/total': 22528, 'tokens/trainable': 22428, 'epoch': '0.02218'}
  2%|████▎                                                                                                                                                                                                | 11/496 [03:58<1:14:46,  9.25s/it]  2%|████▊                                                                                                                                                                                                | 12/496 [04:06<1:11:13,  8.83s/it]                                                                                                                                                                                                                                             {'loss': '3.052', 'grad_norm': '0.7487', 'learning_rate': '0.0001998', 'ppl': '21.17', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '258.2', 'tokens/total': 24576, 'tokens/trainable': 24458, 'epoch': '0.02419'}
  2%|████▊                                                                                                                                                                                                | 12/496 [04:06<1:11:13,  8.83s/it]  3%|█████▏                                                                                                                                                                                               | 13/496 [04:14<1:08:37,  8.52s/it]                                                                                                                                                                                                                                             {'loss': '2.723', 'grad_norm': '0.7834', 'learning_rate': '0.0001997', 'ppl': '15.23', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '260.8', 'tokens/total': 26624, 'tokens/trainable': 26498, 'epoch': '0.02621'}
  3%|█████▏                                                                                                                                                                                               | 13/496 [04:14<1:08:37,  8.52s/it]  3%|█████▌                                                                                                                                                                                               | 14/496 [04:22<1:07:04,  8.35s/it]                                                                                                                                                                                                                                             {'loss': '2.563', 'grad_norm': '0.8359', 'learning_rate': '0.0001997', 'ppl': '12.98', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '257.3', 'tokens/total': 28672, 'tokens/trainable': 28538, 'epoch': '0.02823'}
  3%|█████▌                                                                                                                                                                                               | 14/496 [04:22<1:07:04,  8.35s/it]  3%|█████▉                                                                                                                                                                                               | 15/496 [04:30<1:06:42,  8.32s/it]                                                                                                                                                                                                                                             {'loss': '2.629', 'grad_norm': '0.6596', 'learning_rate': '0.0001996', 'ppl': '13.86', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '247.8', 'tokens/total': 30720, 'tokens/trainable': 30584, 'epoch': '0.03024'}
  3%|█████▉                                                                                                                                                                                               | 15/496 [04:30<1:06:42,  8.32s/it]  3%|██████▎                                                                                                                                                                                              | 16/496 [04:38<1:05:27,  8.18s/it]                                                                                                                                                                                                                                             {'loss': '2.473', 'grad_norm': '0.6115', 'learning_rate': '0.0001995', 'ppl': '11.86', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '259.5', 'tokens/total': 32768, 'tokens/trainable': 32623, 'epoch': '0.03226'}
  3%|██████▎                                                                                                                                                                                              | 16/496 [04:38<1:05:27,  8.18s/it]  3%|██████▊                                                                                                                                                                                              | 17/496 [04:46<1:04:39,  8.10s/it]                                                                                                                                                                                                                                             {'loss': '2.3', 'grad_norm': '0.5893', 'learning_rate': '0.0001995', 'ppl': '9.974', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '256.8', 'tokens/total': 34816, 'tokens/trainable': 34652, 'epoch': '0.03427'}
  3%|██████▊                                                                                                                                                                                              | 17/496 [04:46<1:04:39,  8.10s/it]  4%|███████▏                                                                                                                                                                                             | 18/496 [04:54<1:04:39,  8.12s/it]                                                                                                                                                                                                                                             {'loss': '2.517', 'grad_norm': '0.6046', 'learning_rate': '0.0001994', 'ppl': '12.39', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '250.1', 'tokens/total': 36864, 'tokens/trainable': 36691, 'epoch': '0.03629'}
  4%|███████▏                                                                                                                                                                                             | 18/496 [04:54<1:04:39,  8.12s/it]  4%|███████▌                                                                                                                                                                                             | 19/496 [05:02<1:04:37,  8.13s/it]                                                                                                                                                                                                                                             {'loss': '2.576', 'grad_norm': '0.6317', 'learning_rate': '0.0001994', 'ppl': '13.14', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '249.9', 'tokens/total': 38912, 'tokens/trainable': 38729, 'epoch': '0.03831'}
  4%|███████▌                                                                                                                                                                                             | 19/496 [05:02<1:04:37,  8.13s/it]  4%|███████▉                                                                                                                                                                                             | 20/496 [05:10<1:04:40,  8.15s/it]                                                                                                                                                                                                                                             {'loss': '2.09', 'grad_norm': '0.6076', 'learning_rate': '0.0001993', 'ppl': '8.086', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '249.2', 'tokens/total': 40960, 'tokens/trainable': 40773, 'epoch': '0.04032'}
  4%|███████▉                                                                                                                                                                                             | 20/496 [05:10<1:04:40,  8.15s/it]  4%|████████▎                                                                                                                                                                                            | 21/496 [05:18<1:04:05,  8.10s/it]                                                                                                                                                                                                                                             {'loss': '2.648', 'grad_norm': '0.6188', 'learning_rate': '0.0001992', 'ppl': '14.13', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '255.2', 'tokens/total': 43008, 'tokens/trainable': 42805, 'epoch': '0.04234'}
  4%|████████▎                                                                                                                                                                                            | 21/496 [05:18<1:04:05,  8.10s/it]  4%|████████▋                                                                                                                                                                                            | 22/496 [05:26<1:03:25,  8.03s/it]                                                                                                                                                                                                                                             {'loss': '1.998', 'grad_norm': '0.604', 'learning_rate': '0.0001991', 'ppl': '7.371', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '259.8', 'tokens/total': 45056, 'tokens/trainable': 44849, 'epoch': '0.04435'}
  4%|████████▋                                                                                                                                                                                            | 22/496 [05:26<1:03:25,  8.03s/it]  5%|█████████▏                                                                                                                                                                                           | 23/496 [05:34<1:02:39,  7.95s/it]                                                                                                                                                                                                                                             {'loss': '2.347', 'grad_norm': '0.5968', 'learning_rate': '0.000199', 'ppl': '10.45', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '261.5', 'tokens/total': 47104, 'tokens/trainable': 46878, 'epoch': '0.04637'}
  5%|█████████▏                                                                                                                                                                                           | 23/496 [05:34<1:02:39,  7.95s/it]  5%|█████████▌                                                                                                                                                                                           | 24/496 [05:42<1:02:10,  7.90s/it]                                                                                                                                                                                                                                             {'loss': '2.123', 'grad_norm': '0.5981', 'learning_rate': '0.0001989', 'ppl': '8.359', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '261.9', 'tokens/total': 49152, 'tokens/trainable': 48920, 'epoch': '0.04839'}
  5%|█████████▌                                                                                                                                                                                           | 24/496 [05:42<1:02:10,  7.90s/it]  5%|█████████▉                                                                                                                                                                                           | 25/496 [05:50<1:02:17,  7.93s/it]                                                                                                                                                                                                                                             {'loss': '2.196', 'grad_norm': '0.6122', 'learning_rate': '0.0001988', 'ppl': '8.989', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '254.8', 'tokens/total': 51200, 'tokens/trainable': 50960, 'epoch': '0.0504'}
  5%|█████████▉                                                                                                                                                                                           | 25/496 [05:50<1:02:17,  7.93s/it]  5%|██████████▎                                                                                                                                                                                          | 26/496 [05:58<1:03:01,  8.05s/it]                                                                                                                                                                                                                                             {'loss': '2.668', 'grad_norm': '0.668', 'learning_rate': '0.0001987', 'ppl': '14.4', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '245.2', 'tokens/total': 53248, 'tokens/trainable': 52995, 'epoch': '0.05242'}
  5%|██████████▎                                                                                                                                                                                          | 26/496 [05:58<1:03:01,  8.05s/it]  5%|██████████▋                                                                                                                                                                                          | 27/496 [06:06<1:02:33,  8.00s/it]                                                                                                                                                                                                                                             {'loss': '1.98', 'grad_norm': '0.6862', 'learning_rate': '0.0001986', 'ppl': '7.245', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '258', 'tokens/total': 55296, 'tokens/trainable': 55034, 'epoch': '0.05444'}
  5%|██████████▋                                                                                                                                                                                          | 27/496 [06:06<1:02:33,  8.00s/it]  6%|███████████                                                                                                                                                                                          | 28/496 [06:14<1:01:56,  7.94s/it]                                                                                                                                                                                                                                             {'loss': '1.962', 'grad_norm': '0.5645', 'learning_rate': '0.0001985', 'ppl': '7.113', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '258.8', 'tokens/total': 57344, 'tokens/trainable': 57050, 'epoch': '0.05645'}
  6%|███████████                                                                                                                                                                                          | 28/496 [06:14<1:01:56,  7.94s/it]  6%|███████████▌                                                                                                                                                                                         | 29/496 [06:21<1:01:22,  7.89s/it]                                                                                                                                                                                                                                             {'loss': '2.779', 'grad_norm': '0.6147', 'learning_rate': '0.0001984', 'ppl': '16.1', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262.3', 'tokens/total': 59392, 'tokens/trainable': 59084, 'epoch': '0.05847'}
  6%|███████████▌                                                                                                                                                                                         | 29/496 [06:21<1:01:22,  7.89s/it]  6%|███████████▉                                                                                                                                                                                         | 30/496 [06:29<1:00:58,  7.85s/it]                                                                                                                                                                                                                                             {'loss': '1.865', 'grad_norm': '0.5863', 'learning_rate': '0.0001983', 'ppl': '6.455', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262.2', 'tokens/total': 61440, 'tokens/trainable': 61121, 'epoch': '0.06048'}
  6%|███████████▉                                                                                                                                                                                         | 30/496 [06:29<1:00:58,  7.85s/it]  6%|████████████▎                                                                                                                                                                                        | 31/496 [06:37<1:00:34,  7.82s/it]                                                                                                                                                                                                                                             {'loss': '2.477', 'grad_norm': '0.6342', 'learning_rate': '0.0001982', 'ppl': '11.91', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264.6', 'tokens/total': 63488, 'tokens/trainable': 63166, 'epoch': '0.0625'}
  6%|████████████▎                                                                                                                                                                                        | 31/496 [06:37<1:00:34,  7.82s/it]  6%|████████████▋                                                                                                                                                                                        | 32/496 [06:45<1:01:16,  7.92s/it]                                                                                                                                                                                                                                             {'loss': '2.254', 'grad_norm': '0.5973', 'learning_rate': '0.0001981', 'ppl': '9.523', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '249.2', 'tokens/total': 65536, 'tokens/trainable': 65203, 'epoch': '0.06452'}
  6%|████████████▋                                                                                                                                                                                        | 32/496 [06:45<1:01:16,  7.92s/it]  7%|█████████████                                                                                                                                                                                        | 33/496 [06:53<1:01:00,  7.91s/it]                                                                                                                                                                                                                                             {'loss': '2.242', 'grad_norm': '0.5756', 'learning_rate': '0.000198', 'ppl': '9.413', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '257.5', 'tokens/total': 67584, 'tokens/trainable': 67227, 'epoch': '0.06653'}
  7%|█████████████                                                                                                                                                                                        | 33/496 [06:53<1:01:00,  7.91s/it]  7%|█████████████▌                                                                                                                                                                                       | 34/496 [07:01<1:00:52,  7.91s/it]                                                                                                                                                                                                                                             {'loss': '2.094', 'grad_norm': '0.6142', 'learning_rate': '0.0001978', 'ppl': '8.117', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '258.3', 'tokens/total': 69632, 'tokens/trainable': 69269, 'epoch': '0.06855'}
  7%|█████████████▌                                                                                                                                                                                       | 34/496 [07:01<1:00:52,  7.91s/it]  7%|█████████████▉                                                                                                                                                                                       | 35/496 [07:09<1:00:35,  7.89s/it]                                                                                                                                                                                                                                             {'loss': '2.357', 'grad_norm': '0.6227', 'learning_rate': '0.0001977', 'ppl': '10.56', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '260.8', 'tokens/total': 71680, 'tokens/trainable': 71312, 'epoch': '0.07056'}
  7%|█████████████▉                                                                                                                                                                                       | 35/496 [07:09<1:00:35,  7.89s/it]  7%|██████████████▎                                                                                                                                                                                      | 36/496 [07:17<1:00:20,  7.87s/it]                                                                                                                                                                                                                                             {'loss': '2.32', 'grad_norm': '0.5991', 'learning_rate': '0.0001976', 'ppl': '10.17', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '260', 'tokens/total': 73728, 'tokens/trainable': 73349, 'epoch': '0.07258'}
  7%|██████████████▎                                                                                                                                                                                      | 36/496 [07:17<1:00:20,  7.87s/it]  7%|██████████████▋                                                                                                                                                                                      | 37/496 [07:24<1:00:03,  7.85s/it]                                                                                                                                                                                                                                             {'loss': '1.806', 'grad_norm': '0.5689', 'learning_rate': '0.0001974', 'ppl': '6.086', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262.3', 'tokens/total': 75776, 'tokens/trainable': 75395, 'epoch': '0.0746'}
  7%|██████████████▋                                                                                                                                                                                      | 37/496 [07:24<1:00:03,  7.85s/it]  8%|███████████████                                                                                                                                                                                      | 38/496 [07:32<1:00:10,  7.88s/it]                                                                                                                                                                                                                                             {'loss': '2.224', 'grad_norm': '0.7162', 'learning_rate': '0.0001973', 'ppl': '9.246', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '255.5', 'tokens/total': 77824, 'tokens/trainable': 77427, 'epoch': '0.07661'}
  8%|███████████████                                                                                                                                                                                      | 38/496 [07:32<1:00:10,  7.88s/it]  8%|███████████████▍                                                                                                                                                                                     | 39/496 [07:40<1:00:16,  7.91s/it]                                                                                                                                                                                                                                             {'loss': '2.306', 'grad_norm': '0.6673', 'learning_rate': '0.0001971', 'ppl': '10.04', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '254.5', 'tokens/total': 79872, 'tokens/trainable': 79459, 'epoch': '0.07863'}
  8%|███████████████▍                                                                                                                                                                                     | 39/496 [07:40<1:00:16,  7.91s/it]  8%|███████████████▉                                                                                                                                                                                     | 40/496 [07:48<1:00:19,  7.94s/it]                                                                                                                                                                                                                                             {'loss': '2.598', 'grad_norm': '0.6384', 'learning_rate': '0.000197', 'ppl': '13.43', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '256.2', 'tokens/total': 81920, 'tokens/trainable': 81506, 'epoch': '0.08065'}
  8%|███████████████▉                                                                                                                                                                                     | 40/496 [07:48<1:00:19,  7.94s/it]  8%|████████████████▎                                                                                                                                                                                    | 41/496 [07:57<1:01:10,  8.07s/it]                                                                                                                                                                                                                                             {'loss': '1.744', 'grad_norm': '0.7062', 'learning_rate': '0.0001968', 'ppl': '5.721', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '242.7', 'tokens/total': 83968, 'tokens/trainable': 83536, 'epoch': '0.08266'}
  8%|████████████████▎                                                                                                                                                                                    | 41/496 [07:57<1:01:10,  8.07s/it]  8%|████████████████▋                                                                                                                                                                                    | 42/496 [08:05<1:01:05,  8.07s/it]                                                                                                                                                                                                                                             {'loss': '2.95', 'grad_norm': '0.7069', 'learning_rate': '0.0001966', 'ppl': '19.1', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '252.8', 'tokens/total': 86016, 'tokens/trainable': 85581, 'epoch': '0.08468'}
  8%|████████████████▋                                                                                                                                                                                    | 42/496 [08:05<1:01:05,  8.07s/it]  9%|█████████████████                                                                                                                                                                                    | 43/496 [08:13<1:00:42,  8.04s/it]                                                                                                                                                                                                                                             {'loss': '2.285', 'grad_norm': '0.5967', 'learning_rate': '0.0001965', 'ppl': '9.821', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '256.4', 'tokens/total': 88064, 'tokens/trainable': 87621, 'epoch': '0.08669'}
  9%|█████████████████                                                                                                                                                                                    | 43/496 [08:13<1:00:42,  8.04s/it]  9%|█████████████████▍                                                                                                                                                                                   | 44/496 [08:20<1:00:02,  7.97s/it]                                                                                                                                                                                                                                             {'loss': '2.425', 'grad_norm': '0.6583', 'learning_rate': '0.0001963', 'ppl': '11.3', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262', 'tokens/total': 90112, 'tokens/trainable': 89666, 'epoch': '0.08871'}
  9%|█████████████████▍                                                                                                                                                                                   | 44/496 [08:20<1:00:02,  7.97s/it]  9%|██████████████████                                                                                                                                                                                     | 45/496 [08:28<59:55,  7.97s/it]                                                                                                                                                                                                                                             {'loss': '2.43', 'grad_norm': '0.6329', 'learning_rate': '0.0001961', 'ppl': '11.35', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '255.8', 'tokens/total': 92160, 'tokens/trainable': 91706, 'epoch': '0.09073'}
  9%|██████████████████                                                                                                                                                                                     | 45/496 [08:28<59:55,  7.97s/it][2026-01-25 16:59:20,963] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:822: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  prev_state_dict_settings = FullyShardedDataParallel.set_state_dict_type(

[2026-01-25 16:59:20,963] [WARNING] [py.warnings._showwarnmsg:110] [PID:797] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:822: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  prev_state_dict_settings = FullyShardedDataParallel.set_state_dict_type(

[2026-01-25 17:00:19,473] [WARNING] [py.warnings._showwarnmsg:110] [PID:797] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:829: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  FullyShardedDataParallel.set_state_dict_type(

[2026-01-25 17:00:20,975] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:829: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  FullyShardedDataParallel.set_state_dict_type(

[2026-01-25 17:00:20,986] [INFO] [axolotl.core.trainers.base._save:721] [PID:796] Saving model checkpoint to ./outputs/qlora-out/checkpoint-45
[2026-01-25 17:01:35,260] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/_optim_utils.py:1190: UserWarning: `_get_pg_default_device` will be deprecated, it only stays for backward-compatiblity reason. If you need to find a device for object collectives, please use `_get_object_coll_device`. If you need to query the device types supported by group, please use `_device_capability(group)`. 
  device = _get_pg_default_device(group)

[2026-01-25 17:01:35,260] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/_optim_utils.py:1190: UserWarning: Multiple backends are registered with this ProcessGroup. We cannot determine which one is the default. Returning cpu. Please consider using other APIs.
  device = _get_pg_default_device(group)

[2026-01-25 17:01:35,266] [WARNING] [py.warnings._showwarnmsg:110] [PID:797] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/_optim_utils.py:1190: UserWarning: `_get_pg_default_device` will be deprecated, it only stays for backward-compatiblity reason. If you need to find a device for object collectives, please use `_get_object_coll_device`. If you need to query the device types supported by group, please use `_device_capability(group)`. 
  device = _get_pg_default_device(group)

[2026-01-25 17:01:35,266] [WARNING] [py.warnings._showwarnmsg:110] [PID:797] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/_optim_utils.py:1190: UserWarning: Multiple backends are registered with this ProcessGroup. We cannot determine which one is the default. Returning cpu. Please consider using other APIs.
  device = _get_pg_default_device(group)

  9%|██████████████████▎                                                                                                                                                                                  | 46/496 [11:46<8:06:08, 64.82s/it]                                                                                                                                                                                                                                             {'loss': '2.295', 'grad_norm': '0.6766', 'learning_rate': '0.000196', 'ppl': '9.925', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '32.48', 'tokens/total': 94208, 'tokens/trainable': 93749, 'epoch': '0.09274'}
  9%|██████████████████▎                                                                                                                                                                                  | 46/496 [11:46<8:06:08, 64.82s/it]  9%|██████████████████▋                                                                                                                                                                                  | 47/496 [12:01<6:13:26, 49.90s/it]                                                                                                                                                                                                                                             {'loss': '1.953', 'grad_norm': '0.7959', 'learning_rate': '0.0001958', 'ppl': '7.051', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '134.2', 'tokens/total': 96256, 'tokens/trainable': 95772, 'epoch': '0.09476'}
  9%|██████████████████▋                                                                                                                                                                                  | 47/496 [12:01<6:13:26, 49.90s/it] 10%|███████████████████                                                                                                                                                                                  | 48/496 [12:16<4:54:45, 39.48s/it]                                                                                                                                                                                                                                             {'loss': '1.795', 'grad_norm': '0.5968', 'learning_rate': '0.0001956', 'ppl': '6.02', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '133.6', 'tokens/total': 98304, 'tokens/trainable': 97793, 'epoch': '0.09677'}
 10%|███████████████████                                                                                                                                                                                  | 48/496 [12:16<4:54:45, 39.48s/it] 10%|███████████████████▍                                                                                                                                                                                 | 49/496 [12:31<3:59:56, 32.21s/it]                                                                                                                                                                                                                                             {'loss': '2.242', 'grad_norm': '0.6623', 'learning_rate': '0.0001954', 'ppl': '9.412', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '133.6', 'tokens/total': 100352, 'tokens/trainable': 99828, 'epoch': '0.09879'}
 10%|███████████████████▍                                                                                                                                                                                 | 49/496 [12:31<3:59:56, 32.21s/it] 10%|███████████████████▊                                                                                                                                                                                 | 50/496 [12:46<3:20:44, 27.01s/it]                                                                                                                                                                                                                                             {'loss': '1.857', 'grad_norm': '0.6412', 'learning_rate': '0.0001952', 'ppl': '6.403', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '136.6', 'tokens/total': 102400, 'tokens/trainable': 101859, 'epoch': '0.1008'}
 10%|███████████████████▊                                                                                                                                                                                 | 50/496 [12:46<3:20:44, 27.01s/it] 10%|████████████████████▎                                                                                                                                                                                | 51/496 [13:01<2:54:03, 23.47s/it]                                                                                                                                                                                                                                             {'loss': '1.746', 'grad_norm': '0.6743', 'learning_rate': '0.000195', 'ppl': '5.734', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '134.5', 'tokens/total': 104448, 'tokens/trainable': 103902, 'epoch': '0.1028'}
 10%|████████████████████▎                                                                                                                                                                                | 51/496 [13:02<2:54:03, 23.47s/it] 10%|████████████████████▋                                                                                                                                                                                | 52/496 [13:17<2:35:00, 20.95s/it]                                                                                                                                                                                                                                             {'loss': '1.712', 'grad_norm': '0.5423', 'learning_rate': '0.0001948', 'ppl': '5.538', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '135.5', 'tokens/total': 106496, 'tokens/trainable': 105941, 'epoch': '0.1048'}
 10%|████████████████████▋                                                                                                                                                                                | 52/496 [13:17<2:35:00, 20.95s/it] 11%|█████████████████████                                                                                                                                                                                | 53/496 [13:31<2:21:09, 19.12s/it]                                                                                                                                                                                                                                             {'loss': '2.054', 'grad_norm': '0.596', 'learning_rate': '0.0001946', 'ppl': '7.8', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '136.2', 'tokens/total': 108544, 'tokens/trainable': 107963, 'epoch': '0.1069'}
 11%|█████████████████████                                                                                                                                                                                | 53/496 [13:31<2:21:09, 19.12s/it] 11%|█████████████████████▍                                                                                                                                                                               | 54/496 [13:46<2:11:04, 17.79s/it]                                                                                                                                                                                                                                             {'loss': '2.332', 'grad_norm': '0.7034', 'learning_rate': '0.0001944', 'ppl': '10.3', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '138.1', 'tokens/total': 110592, 'tokens/trainable': 109990, 'epoch': '0.1089'}
 11%|█████████████████████▍                                                                                                                                                                               | 54/496 [13:46<2:11:04, 17.79s/it] 11%|█████████████████████▊                                                                                                                                                                               | 55/496 [14:01<2:05:03, 17.02s/it]                                                                                                                                                                                                                                             {'loss': '2.25', 'grad_norm': '0.8628', 'learning_rate': '0.0001942', 'ppl': '9.491', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '133.7', 'tokens/total': 112640, 'tokens/trainable': 112020, 'epoch': '0.1109'}
 11%|█████████████████████▊                                                                                                                                                                               | 55/496 [14:01<2:05:03, 17.02s/it] 11%|██████████████████████▏                                                                                                                                                                              | 56/496 [14:17<2:00:55, 16.49s/it]                                                                                                                                                                                                                                             {'loss': '2.274', 'grad_norm': '0.6559', 'learning_rate': '0.000194', 'ppl': '9.723', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '134.3', 'tokens/total': 114688, 'tokens/trainable': 114066, 'epoch': '0.1129'}
 11%|██████████████████████▏                                                                                                                                                                              | 56/496 [14:17<2:00:55, 16.49s/it] 11%|██████████████████████▋                                                                                                                                                                              | 57/496 [14:32<1:57:41, 16.09s/it]                                                                                                                                                                                                                                             {'loss': '2.313', 'grad_norm': '0.6888', 'learning_rate': '0.0001938', 'ppl': '10.11', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '133.7', 'tokens/total': 116736, 'tokens/trainable': 116088, 'epoch': '0.1149'}
 11%|██████████████████████▋                                                                                                                                                                              | 57/496 [14:32<1:57:41, 16.09s/it] 12%|███████████████████████                                                                                                                                                                              | 58/496 [14:47<1:55:30, 15.82s/it]                                                                                                                                                                                                                                             {'loss': '2.245', 'grad_norm': '0.6894', 'learning_rate': '0.0001936', 'ppl': '9.442', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '133.2', 'tokens/total': 118784, 'tokens/trainable': 118109, 'epoch': '0.1169'}
 12%|███████████████████████                                                                                                                                                                              | 58/496 [14:47<1:55:30, 15.82s/it] 12%|███████████████████████▍                                                                                                                                                                             | 59/496 [15:02<1:53:32, 15.59s/it]                                                                                                                                                                                                                                             {'loss': '2.143', 'grad_norm': '0.7315', 'learning_rate': '0.0001933', 'ppl': '8.523', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '136', 'tokens/total': 120832, 'tokens/trainable': 120155, 'epoch': '0.119'}
 12%|███████████████████████▍                                                                                                                                                                             | 59/496 [15:02<1:53:32, 15.59s/it] 12%|███████████████████████▊                                                                                                                                                                             | 60/496 [15:17<1:52:05, 15.43s/it]                                                                                                                                                                                                                                             {'loss': '2.018', 'grad_norm': '0.6022', 'learning_rate': '0.0001931', 'ppl': '7.52', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '134.7', 'tokens/total': 122880, 'tokens/trainable': 122178, 'epoch': '0.121'}
 12%|███████████████████████▊                                                                                                                                                                             | 60/496 [15:17<1:52:05, 15.43s/it] 12%|████████████████████████▏                                                                                                                                                                            | 61/496 [15:32<1:51:19, 15.36s/it]                                                                                                                                                                                                                                             {'loss': '1.863', 'grad_norm': '0.6358', 'learning_rate': '0.0001929', 'ppl': '6.442', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '133.4', 'tokens/total': 124928, 'tokens/trainable': 124202, 'epoch': '0.123'}
 12%|████████████████████████▏                                                                                                                                                                            | 61/496 [15:32<1:51:19, 15.36s/it] 12%|████████████████████████▋                                                                                                                                                                            | 62/496 [15:48<1:51:12, 15.37s/it]                                                                                                                                                                                                                                             {'loss': '1.966', 'grad_norm': '0.6389', 'learning_rate': '0.0001926', 'ppl': '7.145', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '131', 'tokens/total': 126976, 'tokens/trainable': 126219, 'epoch': '0.125'}
 12%|████████████████████████▋                                                                                                                                                                            | 62/496 [15:48<1:51:12, 15.37s/it] 13%|█████████████████████████                                                                                                                                                                            | 63/496 [16:03<1:50:19, 15.29s/it]                                                                                                                                                                                                                                             {'loss': '2.073', 'grad_norm': '0.66', 'learning_rate': '0.0001924', 'ppl': '7.948', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '135.7', 'tokens/total': 129024, 'tokens/trainable': 128262, 'epoch': '0.127'}
 13%|█████████████████████████                                                                                                                                                                            | 63/496 [16:03<1:50:19, 15.29s/it] 13%|█████████████████████████▍                                                                                                                                                                           | 64/496 [16:18<1:49:14, 15.17s/it]                                                                                                                                                                                                                                             {'loss': '2.598', 'grad_norm': '0.7961', 'learning_rate': '0.0001921', 'ppl': '13.43', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '137', 'tokens/total': 131072, 'tokens/trainable': 130300, 'epoch': '0.129'}
 13%|█████████████████████████▍                                                                                                                                                                           | 64/496 [16:18<1:49:14, 15.17s/it] 13%|█████████████████████████▊                                                                                                                                                                           | 65/496 [16:32<1:48:16, 15.07s/it]                                                                                                                                                                                                                                             {'loss': '2.096', 'grad_norm': '0.6315', 'learning_rate': '0.0001919', 'ppl': '8.136', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '137.4', 'tokens/total': 133120, 'tokens/trainable': 132335, 'epoch': '0.131'}
 13%|█████████████████████████▊                                                                                                                                                                           | 65/496 [16:32<1:48:16, 15.07s/it] 13%|██████████████████████████▏                                                                                                                                                                          | 66/496 [16:47<1:47:00, 14.93s/it]                                                                                                                                                                                                                                             {'loss': '2.074', 'grad_norm': '0.6805', 'learning_rate': '0.0001916', 'ppl': '7.954', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '137.3', 'tokens/total': 135168, 'tokens/trainable': 134340, 'epoch': '0.1331'}
 13%|██████████████████████████▏                                                                                                                                                                          | 66/496 [16:47<1:47:00, 14.93s/it] 14%|██████████████████████████▌                                                                                                                                                                          | 67/496 [17:02<1:47:16, 15.00s/it]                                                                                                                                                                                                                                             {'loss': '2.014', 'grad_norm': '0.6351', 'learning_rate': '0.0001914', 'ppl': '7.495', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '133.7', 'tokens/total': 137216, 'tokens/trainable': 136365, 'epoch': '0.1351'}
 14%|██████████████████████████▌                                                                                                                                                                          | 67/496 [17:02<1:47:16, 15.00s/it] 14%|███████████████████████████                                                                                                                                                                          | 68/496 [17:17<1:46:48, 14.97s/it]                                                                                                                                                                                                                                             {'loss': '1.848', 'grad_norm': '0.6178', 'learning_rate': '0.0001911', 'ppl': '6.346', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '136.2', 'tokens/total': 139264, 'tokens/trainable': 138391, 'epoch': '0.1371'}
 14%|███████████████████████████                                                                                                                                                                          | 68/496 [17:17<1:46:48, 14.97s/it] 14%|███████████████████████████▍                                                                                                                                                                         | 69/496 [17:32<1:46:02, 14.90s/it]                                                                                                                                                                                                                                             {'loss': '2.061', 'grad_norm': '0.6538', 'learning_rate': '0.0001909', 'ppl': '7.852', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '139', 'tokens/total': 141312, 'tokens/trainable': 140435, 'epoch': '0.1391'}
 14%|███████████████████████████▍                                                                                                                                                                         | 69/496 [17:32<1:46:02, 14.90s/it] 14%|███████████████████████████▊                                                                                                                                                                         | 70/496 [17:47<1:45:26, 14.85s/it]                                                                                                                                                                                                                                             {'loss': '1.847', 'grad_norm': '0.6103', 'learning_rate': '0.0001906', 'ppl': '6.34', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '137.7', 'tokens/total': 143360, 'tokens/trainable': 142463, 'epoch': '0.1411'}
 14%|███████████████████████████▊                                                                                                                                                                         | 70/496 [17:47<1:45:26, 14.85s/it] 14%|████████████████████████████▏                                                                                                                                                                        | 71/496 [18:04<1:51:31, 15.74s/it]                                                                                                                                                                                                                                             {'loss': '2.088', 'grad_norm': '0.6988', 'learning_rate': '0.0001903', 'ppl': '8.068', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '120.7', 'tokens/total': 145408, 'tokens/trainable': 144290, 'epoch': '0.1431'}
 14%|████████████████████████████▏                                                                                                                                                                        | 71/496 [18:04<1:51:31, 15.74s/it][2026-01-25 17:08:57,050] [WARNING] [datasets.iterable_dataset._iter_pytorch:2405] [PID:1427] Too many dataloader workers: 2 (max is dataset.num_shards=1). Stopping 1 dataloader workers.
[2026-01-25 17:08:57,154] [WARNING] [datasets.iterable_dataset._iter_pytorch:2405] [PID:1432] Too many dataloader workers: 2 (max is dataset.num_shards=1). Stopping 1 dataloader workers.
[2026-01-25 17:08:57,305] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:1427] Loading dataset: Guilherme34/Dataset-for-updating-llm-to-be-aware-of-the-situation with base_type: pretrain and prompt_style: None
[2026-01-25 17:08:57,376] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:1432] Loading dataset: Guilherme34/Dataset-for-updating-llm-to-be-aware-of-the-situation with base_type: pretrain and prompt_style: None
Tokenizing Prompts (num_proc=54):   0%|                                                                                                                                                                       | 0/949 [00:00<?, ? examples/s]
Tokenizing Prompts (num_proc=54):   0%|                                                                                                                                                                       | 0/949 [00:00<?, ? examples/s][ATokenizing Prompts (num_proc=54):   2%|██▉                                                                                                                                                           | 18/949 [00:03<03:23,  4.58 examples/s]Tokenizing Prompts (num_proc=54):   4%|█████▉                                                                                                                                                        | 36/949 [00:04<01:26, 10.61 examples/s]Tokenizing Prompts (num_proc=54):   6%|████████▉                                                                                                                                                     | 54/949 [00:04<00:48, 18.45 examples/s]Tokenizing Prompts (num_proc=54):   8%|███████████▉                                                                                                                                                  | 72/949 [00:04<00:31, 28.21 examples/s]Tokenizing Prompts (num_proc=54):   9%|██████████████▉                                                                                                                                               | 90/949 [00:04<00:24, 35.78 examples/s]Tokenizing Prompts (num_proc=54):  11%|█████████████████▊                                                                                                                                           | 108/949 [00:04<00:17, 47.25 examples/s]Tokenizing Prompts (num_proc=54):  15%|███████████████████████▊                                                                                                                                     | 144/949 [00:04<00:10, 77.53 examples/s]Tokenizing Prompts (num_proc=54):  17%|██████████████████████████▊                                                                                                                                  | 162/949 [00:05<00:09, 83.17 examples/s]Tokenizing Prompts (num_proc=54):  19%|█████████████████████████████▊                                                                                                                               | 180/949 [00:05<00:08, 88.26 examples/s]Tokenizing Prompts (num_proc=54):  21%|████████████████████████████████▊                                                                                                                            | 198/949 [00:05<00:08, 91.88 examples/s]Tokenizing Prompts (num_proc=54):  23%|███████████████████████████████████▋                                                                                                                         | 216/949 [00:05<00:07, 99.44 examples/s]Tokenizing Prompts (num_proc=54):  25%|██████████████████████████████████████▍                                                                                                                     | 234/949 [00:05<00:06, 106.00 examples/s]Tokenizing Prompts (num_proc=54):  27%|█████████████████████████████████████████▍                                                                                                                  | 252/949 [00:05<00:06, 110.95 examples/s]Tokenizing Prompts (num_proc=54):  28%|████████████████████████████████████████████▍                                                                                                               | 270/949 [00:05<00:05, 117.87 examples/s]Tokenizing Prompts (num_proc=54):  30%|███████████████████████████████████████████████▎                                                                                                            | 288/949 [00:06<00:05, 119.93 examples/s]Tokenizing Prompts (num_proc=54):  32%|██████████████████████████████████████████████████▎                                                                                                         | 306/949 [00:06<00:05, 120.91 examples/s]Tokenizing Prompts (num_proc=54):  34%|█████████████████████████████████████████████████████▎                                                                                                      | 324/949 [00:06<00:05, 122.91 examples/s]Tokenizing Prompts (num_proc=54):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 342/949 [00:06<00:04, 123.88 examples/s]Tokenizing Prompts (num_proc=54):  38%|███████████████████████████████████████████████████████████▏                                                                                                | 360/949 [00:06<00:04, 119.54 examples/s]
Tokenizing Prompts (num_proc=54):   2%|██▉                                                                                                                                                           | 18/949 [00:06<05:43,  2.71 examples/s][ATokenizing Prompts (num_proc=54):  40%|██████████████████████████████████████████████████████████████▏                                                                                             | 378/949 [00:06<00:04, 116.88 examples/s]
Tokenizing Prompts (num_proc=54):   4%|█████▉                                                                                                                                                        | 36/949 [00:06<02:23,  6.38 examples/s][ATokenizing Prompts (num_proc=54):  42%|█████████████████████████████████████████████████████████████████                                                                                           | 396/949 [00:06<00:04, 115.96 examples/s]
Tokenizing Prompts (num_proc=54):   6%|████████▉                                                                                                                                                     | 54/949 [00:06<01:19, 11.23 examples/s][ATokenizing Prompts (num_proc=54):  44%|████████████████████████████████████████████████████████████████████                                                                                        | 414/949 [00:07<00:04, 113.93 examples/s]
Tokenizing Prompts (num_proc=54):   8%|███████████▉                                                                                                                                                  | 72/949 [00:07<00:51, 17.15 examples/s][ATokenizing Prompts (num_proc=54):  46%|███████████████████████████████████████████████████████████████████████                                                                                     | 432/949 [00:07<00:04, 106.74 examples/s]
Tokenizing Prompts (num_proc=54):   9%|██████████████▉                                                                                                                                               | 90/949 [00:07<00:34, 24.65 examples/s][ATokenizing Prompts (num_proc=54):  47%|█████████████████████████████████████████████████████████████████████████▉                                                                                  | 450/949 [00:07<00:04, 104.87 examples/s]
Tokenizing Prompts (num_proc=54):  11%|█████████████████▊                                                                                                                                           | 108/949 [00:07<00:24, 33.76 examples/s][ATokenizing Prompts (num_proc=54):  49%|████████████████████████████████████████████████████████████████████████████▉                                                                               | 468/949 [00:07<00:04, 108.80 examples/s]
Tokenizing Prompts (num_proc=54):  13%|████████████████████▊                                                                                                                                        | 126/949 [00:07<00:18, 43.91 examples/s][ATokenizing Prompts (num_proc=54):  51%|███████████████████████████████████████████████████████████████████████████████▉                                                                            | 486/949 [00:07<00:04, 109.39 examples/s]
Tokenizing Prompts (num_proc=54):  15%|███████████████████████▊                                                                                                                                     | 144/949 [00:07<00:14, 54.83 examples/s][A
Tokenizing Prompts (num_proc=54):  17%|██████████████████████████▊                                                                                                                                  | 162/949 [00:07<00:11, 66.08 examples/s][ATokenizing Prompts (num_proc=54):  53%|██████████████████████████████████████████████████████████████████████████████████▊                                                                         | 504/949 [00:08<00:04, 107.26 examples/s]
Tokenizing Prompts (num_proc=54):  19%|█████████████████████████████▊                                                                                                                               | 180/949 [00:08<00:10, 76.85 examples/s][ATokenizing Prompts (num_proc=54):  55%|█████████████████████████████████████████████████████████████████████████████████████▊                                                                      | 522/949 [00:08<00:03, 110.90 examples/s]
Tokenizing Prompts (num_proc=54):  21%|████████████████████████████████▊                                                                                                                            | 198/949 [00:08<00:08, 85.15 examples/s][ATokenizing Prompts (num_proc=54):  57%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 540/949 [00:08<00:03, 112.83 examples/s]Tokenizing Prompts (num_proc=54):  59%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                                | 558/949 [00:08<00:03, 113.39 examples/s]
Tokenizing Prompts (num_proc=54):  23%|███████████████████████████████████▋                                                                                                                         | 216/949 [00:08<00:08, 89.56 examples/s][ATokenizing Prompts (num_proc=54):  61%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                             | 575/949 [00:08<00:03, 114.30 examples/s]Tokenizing Prompts (num_proc=54):  62%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 592/949 [00:08<00:03, 113.23 examples/s]
Tokenizing Prompts (num_proc=54):  27%|█████████████████████████████████████████▍                                                                                                                  | 252/949 [00:08<00:06, 101.24 examples/s][ATokenizing Prompts (num_proc=54):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 609/949 [00:08<00:02, 113.87 examples/s]
Tokenizing Prompts (num_proc=54):  28%|████████████████████████████████████████████▍                                                                                                               | 270/949 [00:08<00:06, 106.00 examples/s][ATokenizing Prompts (num_proc=54):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 626/949 [00:09<00:02, 114.84 examples/s]
Tokenizing Prompts (num_proc=54):  30%|███████████████████████████████████████████████▎                                                                                                            | 288/949 [00:09<00:06, 108.46 examples/s][ATokenizing Prompts (num_proc=54):  68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 643/949 [00:09<00:02, 113.14 examples/s]
Tokenizing Prompts (num_proc=54):  32%|██████████████████████████████████████████████████▎                                                                                                         | 306/949 [00:09<00:05, 109.75 examples/s][ATokenizing Prompts (num_proc=54):  70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 660/949 [00:09<00:02, 112.52 examples/s]
Tokenizing Prompts (num_proc=54):  34%|█████████████████████████████████████████████████████▎                                                                                                      | 324/949 [00:09<00:05, 112.65 examples/s][ATokenizing Prompts (num_proc=54):  71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 677/949 [00:09<00:02, 114.00 examples/s]
Tokenizing Prompts (num_proc=54):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 342/949 [00:09<00:05, 115.63 examples/s][ATokenizing Prompts (num_proc=54):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                          | 694/949 [00:09<00:02, 116.37 examples/s]
Tokenizing Prompts (num_proc=54):  38%|███████████████████████████████████████████████████████████▏                                                                                                | 360/949 [00:09<00:05, 114.54 examples/s][ATokenizing Prompts (num_proc=54):  75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 711/949 [00:09<00:02, 116.06 examples/s]
Tokenizing Prompts (num_proc=54):  40%|██████████████████████████████████████████████████████████████▏                                                                                             | 378/949 [00:09<00:04, 116.46 examples/s][ATokenizing Prompts (num_proc=54):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 728/949 [00:09<00:01, 112.86 examples/s]
Tokenizing Prompts (num_proc=54):  42%|█████████████████████████████████████████████████████████████████                                                                                           | 396/949 [00:09<00:04, 116.43 examples/s][ATokenizing Prompts (num_proc=54):  79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 745/949 [00:10<00:01, 113.18 examples/s]
Tokenizing Prompts (num_proc=54):  44%|████████████████████████████████████████████████████████████████████                                                                                        | 414/949 [00:10<00:04, 119.62 examples/s][ATokenizing Prompts (num_proc=54):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 762/949 [00:10<00:01, 115.91 examples/s]
Tokenizing Prompts (num_proc=54):  46%|███████████████████████████████████████████████████████████████████████                                                                                     | 432/949 [00:10<00:04, 121.05 examples/s][ATokenizing Prompts (num_proc=54):  82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 779/949 [00:10<00:01, 114.55 examples/s]
Tokenizing Prompts (num_proc=54):  47%|█████████████████████████████████████████████████████████████████████████▉                                                                                  | 450/949 [00:10<00:04, 120.60 examples/s][ATokenizing Prompts (num_proc=54):  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 796/949 [00:10<00:01, 103.57 examples/s]
Tokenizing Prompts (num_proc=54):  49%|████████████████████████████████████████████████████████████████████████████▉                                                                               | 468/949 [00:10<00:04, 109.47 examples/s][ATokenizing Prompts (num_proc=54):  86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                      | 813/949 [00:10<00:01, 102.64 examples/s]
Tokenizing Prompts (num_proc=54):  51%|███████████████████████████████████████████████████████████████████████████████▉                                                                            | 486/949 [00:10<00:04, 111.95 examples/s][A
Tokenizing Prompts (num_proc=54):  53%|██████████████████████████████████████████████████████████████████████████████████▊                                                                         | 504/949 [00:10<00:03, 112.68 examples/s][ATokenizing Prompts (num_proc=54):  87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 830/949 [00:10<00:01, 100.87 examples/s]Tokenizing Prompts (num_proc=54):  89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 847/949 [00:11<00:00, 105.08 examples/s]
Tokenizing Prompts (num_proc=54):  55%|█████████████████████████████████████████████████████████████████████████████████████▊                                                                      | 522/949 [00:11<00:03, 109.01 examples/s][ATokenizing Prompts (num_proc=54):  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 864/949 [00:11<00:00, 104.62 examples/s]
Tokenizing Prompts (num_proc=54):  57%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 540/949 [00:11<00:03, 106.42 examples/s][ATokenizing Prompts (num_proc=54):  93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 881/949 [00:11<00:00, 103.57 examples/s]
Tokenizing Prompts (num_proc=54):  59%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                                | 558/949 [00:11<00:03, 106.31 examples/s][ATokenizing Prompts (num_proc=54):  95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 898/949 [00:11<00:00, 111.77 examples/s]
Tokenizing Prompts (num_proc=54):  61%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                             | 575/949 [00:11<00:03, 106.29 examples/s][ATokenizing Prompts (num_proc=54):  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 915/949 [00:11<00:00, 121.04 examples/s]
Tokenizing Prompts (num_proc=54):  62%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 592/949 [00:11<00:03, 106.97 examples/s][ATokenizing Prompts (num_proc=54):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 932/949 [00:11<00:00, 116.27 examples/s]
Tokenizing Prompts (num_proc=54):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 609/949 [00:11<00:03, 109.10 examples/s][ATokenizing Prompts (num_proc=54): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:11<00:00, 118.67 examples/s]
Tokenizing Prompts (num_proc=54):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 626/949 [00:12<00:03, 107.56 examples/s][A
Tokenizing Prompts (num_proc=54):  68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                  | 643/949 [00:12<00:03, 96.42 examples/s][A
Tokenizing Prompts (num_proc=54):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                               | 660/949 [00:12<00:03, 85.17 examples/s][ATokenizing Prompts (num_proc=54): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:12<00:00, 75.34 examples/s]
Dropping Long Sequences:   0%|                                                                                                                                                                                | 0/949 [00:00<?, ? examples/s]
Tokenizing Prompts (num_proc=54):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 694/949 [00:12<00:03, 78.69 examples/s][A
Tokenizing Prompts (num_proc=54):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                       | 711/949 [00:13<00:02, 82.10 examples/s][ADropping Long Sequences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:00<00:00, 1331.06 examples/s]Dropping Long Sequences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:00<00:00, 1282.46 examples/s]
Tokenizing Prompts (num_proc=54):  77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 728/949 [00:13<00:02, 86.60 examples/s][A
Tokenizing Prompts (num_proc=54):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 762/949 [00:13<00:01, 115.44 examples/s][A
Tokenizing Prompts (num_proc=54):  82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 779/949 [00:13<00:01, 110.71 examples/s][A
Tokenizing Prompts (num_proc=54):  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 796/949 [00:13<00:01, 112.12 examples/s][A
Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                    | 0/936 [00:00<?, ? examples/s]
Tokenizing Prompts (num_proc=54):  86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                      | 813/949 [00:13<00:01, 108.80 examples/s][A
Tokenizing Prompts (num_proc=54):  87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 830/949 [00:14<00:01, 106.79 examples/s][A
Tokenizing Prompts (num_proc=54):  89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 847/949 [00:14<00:00, 106.63 examples/s][A
Tokenizing Prompts (num_proc=54):  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 864/949 [00:14<00:00, 108.23 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 936/936 [00:00<00:00, 1404.78 examples/s]Add position_id column (Pretraining Sample Packing): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 936/936 [00:00<00:00, 1318.47 examples/s]
Tokenizing Prompts (num_proc=54):  93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 881/949 [00:14<00:00, 107.16 examples/s][A
Tokenizing Prompts (num_proc=54):  95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 898/949 [00:14<00:00, 114.80 examples/s][A
Tokenizing Prompts (num_proc=54):  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 915/949 [00:14<00:00, 119.40 examples/s][A
Tokenizing Prompts (num_proc=54):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 932/949 [00:14<00:00, 123.71 examples/s][A
Tokenizing Prompts (num_proc=54): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:15<00:00, 122.92 examples/s][ATokenizing Prompts (num_proc=54): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:15<00:00, 60.23 examples/s]

Dropping Long Sequences:   0%|                                                                                                                                                                                | 0/949 [00:00<?, ? examples/s][A
[2026-01-25 17:09:13,411] [WARNING] [py.warnings._showwarnmsg:110] [PID:1427] /apool/venvi/lib/python3.13/site-packages/datasets/formatting/torch_formatter.py:222: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.detach().clone() or sourceTensor.detach().clone().requires_grad_(True), rather than torch.tensor(sourceTensor).
  return torch.tensor(value, **{**default_dtype, **self.torch_tensor_kwargs})


Dropping Long Sequences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:00<00:00, 1486.40 examples/s][ADropping Long Sequences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:00<00:00, 1438.39 examples/s]

Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                    | 0/936 [00:00<?, ? examples/s][A
Add position_id column (Pretraining Sample Packing): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 936/936 [00:00<00:00, 1559.20 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 936/936 [00:00<00:00, 1495.04 examples/s]
[2026-01-25 17:09:15,127] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:1432] Using single process for pack_parallel, running sequentially.
[2026-01-25 17:09:16,397] [WARNING] [py.warnings._showwarnmsg:110] [PID:1432] /apool/venvi/lib/python3.13/site-packages/datasets/formatting/torch_formatter.py:222: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.detach().clone() or sourceTensor.detach().clone().requires_grad_(True), rather than torch.tensor(sourceTensor).
  return torch.tensor(value, **{**default_dtype, **self.torch_tensor_kwargs})

 15%|████████████████████████████▌                                                                                                                                                                        | 72/496 [18:39<2:31:16, 21.41s/it]                                                                                                                                                                                                                                             {'loss': '1.935', 'grad_norm': '0.5984', 'learning_rate': '0.0001901', 'ppl': '6.925', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '134.5', 'tokens/total': 147456, 'tokens/trainable': 146323, 'epoch': '1.002'}
 15%|████████████████████████████▌                                                                                                                                                                        | 72/496 [18:39<2:31:16, 21.41s/it] 15%|████████████████████████████▉                                                                                                                                                                        | 73/496 [18:54<2:16:50, 19.41s/it]                                                                                                                                                                                                                                             {'loss': '1.893', 'grad_norm': '0.6225', 'learning_rate': '0.0001898', 'ppl': '6.64', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '138.2', 'tokens/total': 149504, 'tokens/trainable': 148360, 'epoch': '1.004'}
 15%|████████████████████████████▉                                                                                                                                                                        | 73/496 [18:54<2:16:50, 19.41s/it] 15%|█████████████████████████████▍                                                                                                                                                                       | 74/496 [19:09<2:07:01, 18.06s/it]                                                                                                                                                                                                                                             {'loss': '1.95', 'grad_norm': '0.6838', 'learning_rate': '0.0001895', 'ppl': '7.026', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '137.2', 'tokens/total': 151552, 'tokens/trainable': 150403, 'epoch': '1.006'}
 15%|█████████████████████████████▍                                                                                                                                                                       | 74/496 [19:09<2:07:01, 18.06s/it] 15%|█████████████████████████████▊                                                                                                                                                                       | 75/496 [19:24<1:59:58, 17.10s/it]                                                                                                                                                                                                                                             {'loss': '1.892', 'grad_norm': '0.6233', 'learning_rate': '0.0001892', 'ppl': '6.631', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '137.4', 'tokens/total': 153600, 'tokens/trainable': 152441, 'epoch': '1.008'}
 15%|█████████████████████████████▊                                                                                                                                                                       | 75/496 [19:24<1:59:58, 17.10s/it] 15%|██████████████████████████████▏                                                                                                                                                                      | 76/496 [19:39<1:55:23, 16.48s/it]                                                                                                                                                                                                                                             {'loss': '1.786', 'grad_norm': '0.6648', 'learning_rate': '0.0001889', 'ppl': '5.965', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '136.2', 'tokens/total': 155648, 'tokens/trainable': 154488, 'epoch': '1.01'}
 15%|██████████████████████████████▏                                                                                                                                                                      | 76/496 [19:39<1:55:23, 16.48s/it] 16%|██████████████████████████████▌                                                                                                                                                                      | 77/496 [19:54<1:52:19, 16.08s/it]                                                                                                                                                                                                                                             {'loss': '1.843', 'grad_norm': '0.6601', 'learning_rate': '0.0001886', 'ppl': '6.317', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '133.6', 'tokens/total': 157696, 'tokens/trainable': 156510, 'epoch': '1.012'}
 16%|██████████████████████████████▌                                                                                                                                                                      | 77/496 [19:54<1:52:19, 16.08s/it] 16%|██████████████████████████████▉                                                                                                                                                                      | 78/496 [20:09<1:49:45, 15.76s/it]                                                                                                                                                                                                                                             {'loss': '2.135', 'grad_norm': '0.741', 'learning_rate': '0.0001883', 'ppl': '8.456', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '136.4', 'tokens/total': 159744, 'tokens/trainable': 158551, 'epoch': '1.014'}
 16%|██████████████████████████████▉                                                                                                                                                                      | 78/496 [20:09<1:49:45, 15.76s/it] 16%|███████████████████████████████▍                                                                                                                                                                     | 79/496 [20:24<1:48:20, 15.59s/it]                                                                                                                                                                                                                                             {'loss': '1.951', 'grad_norm': '0.6785', 'learning_rate': '0.000188', 'ppl': '7.035', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '133.8', 'tokens/total': 161792, 'tokens/trainable': 160585, 'epoch': '1.016'}
 16%|███████████████████████████████▍                                                                                                                                                                     | 79/496 [20:24<1:48:20, 15.59s/it] 16%|███████████████████████████████▊                                                                                                                                                                     | 80/496 [20:39<1:46:56, 15.42s/it]                                                                                                                                                                                                                                             {'loss': '2.292', 'grad_norm': '0.6995', 'learning_rate': '0.0001877', 'ppl': '9.893', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '135.7', 'tokens/total': 163840, 'tokens/trainable': 162622, 'epoch': '1.018'}
 16%|███████████████████████████████▊                                                                                                                                                                     | 80/496 [20:39<1:46:56, 15.42s/it] 16%|████████████████████████████████▏                                                                                                                                                                    | 81/496 [20:54<1:46:28, 15.39s/it]                                                                                                                                                                                                                                             {'loss': '1.704', 'grad_norm': '0.6956', 'learning_rate': '0.0001874', 'ppl': '5.493', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '133.4', 'tokens/total': 165888, 'tokens/trainable': 164663, 'epoch': '1.02'}
 16%|████████████████████████████████▏                                                                                                                                                                    | 81/496 [20:54<1:46:28, 15.39s/it] 17%|████████████████████████████████▌                                                                                                                                                                    | 82/496 [21:10<1:45:54, 15.35s/it]                                                                                                                                                                                                                                             {'loss': '2.136', 'grad_norm': '0.6911', 'learning_rate': '0.0001871', 'ppl': '8.463', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '133.7', 'tokens/total': 167936, 'tokens/trainable': 166700, 'epoch': '1.022'}
 17%|████████████████████████████████▌                                                                                                                                                                    | 82/496 [21:10<1:45:54, 15.35s/it] 17%|████████████████████████████████▉                                                                                                                                                                    | 83/496 [21:25<1:45:39, 15.35s/it]                                                                                                                                                                                                                                             {'loss': '2.052', 'grad_norm': '0.7269', 'learning_rate': '0.0001868', 'ppl': '7.787', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '133.3', 'tokens/total': 169984, 'tokens/trainable': 168743, 'epoch': '1.024'}
 17%|████████████████████████████████▉                                                                                                                                                                    | 83/496 [21:25<1:45:39, 15.35s/it] 17%|█████████████████████████████████▎                                                                                                                                                                   | 84/496 [21:40<1:45:09, 15.31s/it]                                                                                                                                                                                                                                             {'loss': '1.815', 'grad_norm': '0.7182', 'learning_rate': '0.0001865', 'ppl': '6.141', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '133.7', 'tokens/total': 172032, 'tokens/trainable': 170779, 'epoch': '1.026'}
 17%|█████████████████████████████████▎                                                                                                                                                                   | 84/496 [21:40<1:45:09, 15.31s/it] 17%|█████████████████████████████████▊                                                                                                                                                                   | 85/496 [21:55<1:44:45, 15.29s/it]                                                                                                                                                                                                                                             {'loss': '2.478', 'grad_norm': '0.7988', 'learning_rate': '0.0001862', 'ppl': '11.92', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '134.5', 'tokens/total': 174080, 'tokens/trainable': 172825, 'epoch': '1.028'}
 17%|█████████████████████████████████▊                                                                                                                                                                   | 85/496 [21:55<1:44:45, 15.29s/it] 17%|██████████████████████████████████▏                                                                                                                                                                  | 86/496 [22:11<1:44:51, 15.34s/it]                                                                                                                                                                                                                                             {'loss': '2.178', 'grad_norm': '0.762', 'learning_rate': '0.0001859', 'ppl': '8.828', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '131.9', 'tokens/total': 176128, 'tokens/trainable': 174861, 'epoch': '1.03'}
 17%|██████████████████████████████████▏                                                                                                                                                                  | 86/496 [22:11<1:44:51, 15.34s/it] 18%|██████████████████████████████████▌                                                                                                                                                                  | 87/496 [22:26<1:44:29, 15.33s/it]                                                                                                                                                                                                                                             {'loss': '1.805', 'grad_norm': '0.6998', 'learning_rate': '0.0001855', 'ppl': '6.08', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '133.2', 'tokens/total': 178176, 'tokens/trainable': 176894, 'epoch': '1.032'}
 18%|██████████████████████████████████▌                                                                                                                                                                  | 87/496 [22:26<1:44:29, 15.33s/it] 18%|██████████████████████████████████▉                                                                                                                                                                  | 88/496 [22:41<1:44:15, 15.33s/it]                                                                                                                                                                                                                                             {'loss': '2.085', 'grad_norm': '0.7545', 'learning_rate': '0.0001852', 'ppl': '8.041', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '132.5', 'tokens/total': 180224, 'tokens/trainable': 178924, 'epoch': '1.034'}
 18%|██████████████████████████████████▉                                                                                                                                                                  | 88/496 [22:41<1:44:15, 15.33s/it] 18%|███████████████████████████████████▎                                                                                                                                                                 | 89/496 [22:57<1:43:48, 15.30s/it]                                                                                                                                                                                                                                             {'loss': '2.103', 'grad_norm': '0.7607', 'learning_rate': '0.0001849', 'ppl': '8.194', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '134.3', 'tokens/total': 182272, 'tokens/trainable': 180969, 'epoch': '1.036'}
 18%|███████████████████████████████████▎                                                                                                                                                                 | 89/496 [22:57<1:43:48, 15.30s/it] 18%|███████████████████████████████████▋                                                                                                                                                                 | 90/496 [23:12<1:43:42, 15.33s/it]                                                                                                                                                                                                                                             {'loss': '2.003', 'grad_norm': '0.7183', 'learning_rate': '0.0001845', 'ppl': '7.411', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '132.2', 'tokens/total': 184320, 'tokens/trainable': 183002, 'epoch': '1.038'}
 18%|███████████████████████████████████▋                                                                                                                                                                 | 90/496 [23:12<1:43:42, 15.33s/it][2026-01-25 17:14:04,610] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:822: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  prev_state_dict_settings = FullyShardedDataParallel.set_state_dict_type(

[2026-01-25 17:15:08,057] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:829: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  FullyShardedDataParallel.set_state_dict_type(

[2026-01-25 17:15:08,068] [INFO] [axolotl.core.trainers.base._save:721] [PID:796] Saving model checkpoint to ./outputs/qlora-out/checkpoint-90
[2026-01-25 17:16:26,782] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/_optim_utils.py:1190: UserWarning: `_get_pg_default_device` will be deprecated, it only stays for backward-compatiblity reason. If you need to find a device for object collectives, please use `_get_object_coll_device`. If you need to query the device types supported by group, please use `_device_capability(group)`. 
  device = _get_pg_default_device(group)

[2026-01-25 17:16:26,783] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/_optim_utils.py:1190: UserWarning: Multiple backends are registered with this ProcessGroup. We cannot determine which one is the default. Returning cpu. Please consider using other APIs.
  device = _get_pg_default_device(group)

 18%|████████████████████████████████████▏                                                                                                                                                                | 91/496 [25:51<6:34:18, 58.42s/it]                                                                                                                                                                                                                                             {'loss': '2.254', 'grad_norm': '0.8228', 'learning_rate': '0.0001842', 'ppl': '9.521', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '130.7', 'tokens/total': 186368, 'tokens/trainable': 185040, 'epoch': '1.04'}
 18%|████████████████████████████████████▏                                                                                                                                                                | 91/496 [25:51<6:34:18, 58.42s/it] 19%|████████████████████████████████████▌                                                                                                                                                                | 92/496 [26:06<5:06:06, 45.46s/it]                                                                                                                                                                                                                                             {'loss': '2.248', 'grad_norm': '0.8301', 'learning_rate': '0.0001838', 'ppl': '9.471', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '133.4', 'tokens/total': 188416, 'tokens/trainable': 187068, 'epoch': '1.042'}
 19%|████████████████████████████████████▌                                                                                                                                                                | 92/496 [26:06<5:06:06, 45.46s/it] 19%|████████████████████████████████████▉                                                                                                                                                                | 93/496 [26:22<4:04:26, 36.39s/it]                                                                                                                                                                                                                                             {'loss': '2.021', 'grad_norm': '0.7577', 'learning_rate': '0.0001835', 'ppl': '7.547', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '133.4', 'tokens/total': 190464, 'tokens/trainable': 189096, 'epoch': '1.044'}
 19%|████████████████████████████████████▉                                                                                                                                                                | 93/496 [26:22<4:04:26, 36.39s/it] 19%|█████████████████████████████████████▎                                                                                                                                                               | 94/496 [26:37<3:21:14, 30.04s/it]                                                                                                                                                                                                                                             {'loss': '1.897', 'grad_norm': '0.7606', 'learning_rate': '0.0001831', 'ppl': '6.666', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '133.9', 'tokens/total': 192512, 'tokens/trainable': 191131, 'epoch': '1.046'}
 19%|█████████████████████████████████████▎                                                                                                                                                               | 94/496 [26:37<3:21:14, 30.04s/it] 19%|█████████████████████████████████████▋                                                                                                                                                               | 95/496 [26:52<2:51:28, 25.66s/it]                                                                                                                                                                                                                                             {'loss': '1.769', 'grad_norm': '0.7876', 'learning_rate': '0.0001828', 'ppl': '5.864', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '131.5', 'tokens/total': 194560, 'tokens/trainable': 193158, 'epoch': '1.048'}
 19%|█████████████████████████████████████▋                                                                                                                                                               | 95/496 [26:52<2:51:28, 25.66s/it] 19%|██████████████████████████████████████▏                                                                                                                                                              | 96/496 [27:08<2:30:25, 22.56s/it]                                                                                                                                                                                                                                             {'loss': '1.785', 'grad_norm': '0.7767', 'learning_rate': '0.0001824', 'ppl': '5.96', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '132.9', 'tokens/total': 196608, 'tokens/trainable': 195195, 'epoch': '1.05'}
 19%|██████████████████████████████████████▏                                                                                                                                                              | 96/496 [27:08<2:30:25, 22.56s/it] 20%|██████████████████████████████████████▌                                                                                                                                                              | 97/496 [27:23<2:15:21, 20.35s/it]                                                                                                                                                                                                                                             {'loss': '1.603', 'grad_norm': '0.7135', 'learning_rate': '0.0001821', 'ppl': '4.968', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '134.1', 'tokens/total': 198656, 'tokens/trainable': 197231, 'epoch': '1.052'}
 20%|██████████████████████████████████████▌                                                                                                                                                              | 97/496 [27:23<2:15:21, 20.35s/it] 20%|██████████████████████████████████████▉                                                                                                                                                              | 98/496 [27:38<2:05:11, 18.87s/it]                                                                                                                                                                                                                                             {'loss': '2.069', 'grad_norm': '0.789', 'learning_rate': '0.0001817', 'ppl': '7.915', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '132.5', 'tokens/total': 200704, 'tokens/trainable': 199274, 'epoch': '1.054'}
 20%|██████████████████████████████████████▉                                                                                                                                                              | 98/496 [27:38<2:05:11, 18.87s/it] 20%|███████████████████████████████████████▎                                                                                                                                                             | 99/496 [27:53<1:57:15, 17.72s/it]                                                                                                                                                                                                                                             {'loss': '1.978', 'grad_norm': '0.7957', 'learning_rate': '0.0001813', 'ppl': '7.231', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '135.5', 'tokens/total': 202752, 'tokens/trainable': 201310, 'epoch': '1.056'}
 20%|███████████████████████████████████████▎                                                                                                                                                             | 99/496 [27:53<1:57:15, 17.72s/it] 20%|███████████████████████████████████████▌                                                                                                                                                            | 100/496 [28:08<1:52:00, 16.97s/it]                                                                                                                                                                                                                                             {'loss': '1.885', 'grad_norm': '0.7803', 'learning_rate': '0.000181', 'ppl': '6.587', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '133.6', 'tokens/total': 204800, 'tokens/trainable': 203342, 'epoch': '1.058'}
 20%|███████████████████████████████████████▌                                                                                                                                                            | 100/496 [28:08<1:52:00, 16.97s/it] 20%|███████████████████████████████████████▉                                                                                                                                                            | 101/496 [28:24<1:48:08, 16.43s/it]                                                                                                                                                                                                                                             {'loss': '2.06', 'grad_norm': '0.812', 'learning_rate': '0.0001806', 'ppl': '7.846', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '133.7', 'tokens/total': 206848, 'tokens/trainable': 205365, 'epoch': '1.06'}
 20%|███████████████████████████████████████▉                                                                                                                                                            | 101/496 [28:24<1:48:08, 16.43s/it] 21%|████████████████████████████████████████▎                                                                                                                                                           | 102/496 [28:39<1:45:31, 16.07s/it]                                                                                                                                                                                                                                             {'loss': '1.426', 'grad_norm': '0.7516', 'learning_rate': '0.0001802', 'ppl': '4.16', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '133.1', 'tokens/total': 208896, 'tokens/trainable': 207388, 'epoch': '1.062'}
 21%|████████████████████████████████████████▎                                                                                                                                                           | 102/496 [28:39<1:45:31, 16.07s/it] 21%|████████████████████████████████████████▋                                                                                                                                                           | 103/496 [28:54<1:43:13, 15.76s/it]                                                                                                                                                                                                                                             {'loss': '2.131', 'grad_norm': '0.8653', 'learning_rate': '0.0001798', 'ppl': '8.425', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '135.2', 'tokens/total': 210944, 'tokens/trainable': 209420, 'epoch': '1.065'}
 21%|████████████████████████████████████████▋                                                                                                                                                           | 103/496 [28:54<1:43:13, 15.76s/it] 21%|█████████████████████████████████████████                                                                                                                                                           | 104/496 [29:09<1:42:28, 15.69s/it]                                                                                                                                                                                                                                             {'loss': '1.954', 'grad_norm': '0.8593', 'learning_rate': '0.0001795', 'ppl': '7.056', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '131.6', 'tokens/total': 212992, 'tokens/trainable': 211462, 'epoch': '1.067'}
 21%|█████████████████████████████████████████                                                                                                                                                           | 104/496 [29:09<1:42:28, 15.69s/it] 21%|█████████████████████████████████████████▍                                                                                                                                                          | 105/496 [29:24<1:41:08, 15.52s/it]                                                                                                                                                                                                                                             {'loss': '1.923', 'grad_norm': '0.778', 'learning_rate': '0.0001791', 'ppl': '6.839', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '134.3', 'tokens/total': 215040, 'tokens/trainable': 213491, 'epoch': '1.069'}
 21%|█████████████████████████████████████████▍                                                                                                                                                          | 105/496 [29:24<1:41:08, 15.52s/it] 21%|█████████████████████████████████████████▉                                                                                                                                                          | 106/496 [29:40<1:40:13, 15.42s/it]                                                                                                                                                                                                                                             {'loss': '1.722', 'grad_norm': '0.7554', 'learning_rate': '0.0001787', 'ppl': '5.593', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '134', 'tokens/total': 217088, 'tokens/trainable': 215522, 'epoch': '1.071'}
 21%|█████████████████████████████████████████▉                                                                                                                                                          | 106/496 [29:40<1:40:13, 15.42s/it] 22%|██████████████████████████████████████████▎                                                                                                                                                         | 107/496 [29:55<1:39:19, 15.32s/it]                                                                                                                                                                                                                                             {'loss': '2.042', 'grad_norm': '0.8613', 'learning_rate': '0.0001783', 'ppl': '7.705', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '134.5', 'tokens/total': 219136, 'tokens/trainable': 217548, 'epoch': '1.073'}
 22%|██████████████████████████████████████████▎                                                                                                                                                         | 107/496 [29:55<1:39:19, 15.32s/it] 22%|██████████████████████████████████████████▋                                                                                                                                                         | 108/496 [30:10<1:38:11, 15.19s/it]                                                                                                                                                                                                                                             {'loss': '1.637', 'grad_norm': '0.7576', 'learning_rate': '0.0001779', 'ppl': '5.137', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '137.7', 'tokens/total': 221184, 'tokens/trainable': 219593, 'epoch': '1.075'}
 22%|██████████████████████████████████████████▋                                                                                                                                                         | 108/496 [30:10<1:38:11, 15.19s/it] 22%|███████████████████████████████████████████                                                                                                                                                         | 109/496 [30:25<1:37:40, 15.14s/it]                                                                                                                                                                                                                                             {'loss': '2.169', 'grad_norm': '0.8436', 'learning_rate': '0.0001775', 'ppl': '8.751', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '134.9', 'tokens/total': 223232, 'tokens/trainable': 221619, 'epoch': '1.077'}
 22%|███████████████████████████████████████████                                                                                                                                                         | 109/496 [30:25<1:37:40, 15.14s/it] 22%|███████████████████████████████████████████▍                                                                                                                                                        | 110/496 [30:40<1:36:53, 15.06s/it]                                                                                                                                                                                                                                             {'loss': '1.943', 'grad_norm': '0.7954', 'learning_rate': '0.0001771', 'ppl': '6.976', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '137.3', 'tokens/total': 225280, 'tokens/trainable': 223657, 'epoch': '1.079'}
 22%|███████████████████████████████████████████▍                                                                                                                                                        | 110/496 [30:40<1:36:53, 15.06s/it] 22%|███████████████████████████████████████████▊                                                                                                                                                        | 111/496 [30:55<1:37:11, 15.15s/it]                                                                                                                                                                                                                                             {'loss': '1.682', 'grad_norm': '0.7816', 'learning_rate': '0.0001767', 'ppl': '5.377', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '132.4', 'tokens/total': 227328, 'tokens/trainable': 225684, 'epoch': '1.081'}
 22%|███████████████████████████████████████████▊                                                                                                                                                        | 111/496 [30:55<1:37:11, 15.15s/it] 23%|████████████████████████████████████████████▎                                                                                                                                                       | 112/496 [31:10<1:36:54, 15.14s/it]                                                                                                                                                                                                                                             {'loss': '2.311', 'grad_norm': '0.9289', 'learning_rate': '0.0001763', 'ppl': '10.09', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '135.2', 'tokens/total': 229376, 'tokens/trainable': 227725, 'epoch': '1.083'}
 23%|████████████████████████████████████████████▎                                                                                                                                                       | 112/496 [31:10<1:36:54, 15.14s/it] 23%|████████████████████████████████████████████▋                                                                                                                                                       | 113/496 [31:25<1:36:44, 15.16s/it]                                                                                                                                                                                                                                             {'loss': '1.882', 'grad_norm': '0.835', 'learning_rate': '0.0001759', 'ppl': '6.568', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '134.3', 'tokens/total': 231424, 'tokens/trainable': 229762, 'epoch': '1.085'}
 23%|████████████████████████████████████████████▋                                                                                                                                                       | 113/496 [31:25<1:36:44, 15.16s/it] 23%|█████████████████████████████████████████████                                                                                                                                                       | 114/496 [31:40<1:36:17, 15.12s/it]                                                                                                                                                                                                                                             {'loss': '1.836', 'grad_norm': '0.7675', 'learning_rate': '0.0001755', 'ppl': '6.269', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '135.4', 'tokens/total': 233472, 'tokens/trainable': 231797, 'epoch': '1.087'}
 23%|█████████████████████████████████████████████                                                                                                                                                       | 114/496 [31:40<1:36:17, 15.12s/it] 23%|█████████████████████████████████████████████▍                                                                                                                                                      | 115/496 [31:55<1:36:06, 15.13s/it]                                                                                                                                                                                                                                             {'loss': '1.706', 'grad_norm': '0.7179', 'learning_rate': '0.000175', 'ppl': '5.506', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '134.5', 'tokens/total': 235520, 'tokens/trainable': 233832, 'epoch': '1.089'}
 23%|█████████████████████████████████████████████▍                                                                                                                                                      | 115/496 [31:55<1:36:06, 15.13s/it] 23%|█████████████████████████████████████████████▊                                                                                                                                                      | 116/496 [32:11<1:36:03, 15.17s/it]                                                                                                                                                                                                                                             {'loss': '2.113', 'grad_norm': '0.8076', 'learning_rate': '0.0001746', 'ppl': '8.269', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '133', 'tokens/total': 237568, 'tokens/trainable': 235856, 'epoch': '1.091'}
 23%|█████████████████████████████████████████████▊                                                                                                                                                      | 116/496 [32:11<1:36:03, 15.17s/it] 24%|██████████████████████████████████████████████▏                                                                                                                                                     | 117/496 [32:26<1:35:51, 15.18s/it]                                                                                                                                                                                                                                             {'loss': '1.667', 'grad_norm': '0.7354', 'learning_rate': '0.0001742', 'ppl': '5.298', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '133.8', 'tokens/total': 239616, 'tokens/trainable': 237885, 'epoch': '1.093'}
 24%|██████████████████████████████████████████████▏                                                                                                                                                     | 117/496 [32:26<1:35:51, 15.18s/it] 24%|██████████████████████████████████████████████▋                                                                                                                                                     | 118/496 [32:41<1:35:21, 15.14s/it]                                                                                                                                                                                                                                             {'loss': '1.643', 'grad_norm': '0.7311', 'learning_rate': '0.0001738', 'ppl': '5.169', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '135.9', 'tokens/total': 241664, 'tokens/trainable': 239928, 'epoch': '1.095'}
 24%|██████████████████████████████████████████████▋                                                                                                                                                     | 118/496 [32:41<1:35:21, 15.14s/it] 24%|███████████████████████████████████████████████                                                                                                                                                     | 119/496 [32:56<1:35:27, 15.19s/it]                                                                                                                                                                                                                                             {'loss': '1.86', 'grad_norm': '0.7719', 'learning_rate': '0.0001733', 'ppl': '6.424', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '133.2', 'tokens/total': 243712, 'tokens/trainable': 241964, 'epoch': '1.097'}
 24%|███████████████████████████████████████████████                                                                                                                                                     | 119/496 [32:56<1:35:27, 15.19s/it] 24%|███████████████████████████████████████████████▍                                                                                                                                                    | 120/496 [33:11<1:34:55, 15.15s/it]                                                                                                                                                                                                                                             {'loss': '1.783', 'grad_norm': '0.7755', 'learning_rate': '0.0001729', 'ppl': '5.948', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '134.8', 'tokens/total': 245760, 'tokens/trainable': 243989, 'epoch': '1.099'}
 24%|███████████████████████████████████████████████▍                                                                                                                                                    | 120/496 [33:11<1:34:55, 15.15s/it] 24%|███████████████████████████████████████████████▊                                                                                                                                                    | 121/496 [33:26<1:34:48, 15.17s/it]                                                                                                                                                                                                                                             {'loss': '1.633', 'grad_norm': '0.7631', 'learning_rate': '0.0001725', 'ppl': '5.117', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '134', 'tokens/total': 247808, 'tokens/trainable': 246025, 'epoch': '1.101'}
 24%|███████████████████████████████████████████████▊                                                                                                                                                    | 121/496 [33:26<1:34:48, 15.17s/it] 25%|████████████████████████████████████████████████▏                                                                                                                                                   | 122/496 [33:42<1:34:54, 15.23s/it]                                                                                                                                                                                                                                             {'loss': '1.605', 'grad_norm': '0.6941', 'learning_rate': '0.000172', 'ppl': '4.976', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '131.9', 'tokens/total': 249856, 'tokens/trainable': 248049, 'epoch': '1.103'}
 25%|████████████████████████████████████████████████▏                                                                                                                                                   | 122/496 [33:42<1:34:54, 15.23s/it] 25%|████████████████████████████████████████████████▌                                                                                                                                                   | 123/496 [33:57<1:35:01, 15.29s/it]                                                                                                                                                                                                                                             {'loss': '1.486', 'grad_norm': '0.7803', 'learning_rate': '0.0001716', 'ppl': '4.419', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '132.6', 'tokens/total': 251904, 'tokens/trainable': 250089, 'epoch': '1.105'}
 25%|████████████████████████████████████████████████▌                                                                                                                                                   | 123/496 [33:57<1:35:01, 15.29s/it] 25%|█████████████████████████████████████████████████                                                                                                                                                   | 124/496 [34:12<1:34:26, 15.23s/it]                                                                                                                                                                                                                                             {'loss': '1.968', 'grad_norm': '0.8723', 'learning_rate': '0.0001712', 'ppl': '7.157', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '134.7', 'tokens/total': 253952, 'tokens/trainable': 252120, 'epoch': '1.107'}
 25%|█████████████████████████████████████████████████                                                                                                                                                   | 124/496 [34:12<1:34:26, 15.23s/it] 25%|█████████████████████████████████████████████████▍                                                                                                                                                  | 125/496 [34:28<1:34:39, 15.31s/it]                                                                                                                                                                                                                                             {'loss': '1.967', 'grad_norm': '0.8142', 'learning_rate': '0.0001707', 'ppl': '7.147', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '131.2', 'tokens/total': 256000, 'tokens/trainable': 254151, 'epoch': '1.109'}
 25%|█████████████████████████████████████████████████▍                                                                                                                                                  | 125/496 [34:28<1:34:39, 15.31s/it] 25%|█████████████████████████████████████████████████▊                                                                                                                                                  | 126/496 [34:44<1:35:04, 15.42s/it]                                                                                                                                                                                                                                             {'loss': '1.839', 'grad_norm': '0.758', 'learning_rate': '0.0001703', 'ppl': '6.29', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '130.7', 'tokens/total': 258048, 'tokens/trainable': 256197, 'epoch': '1.111'}
 25%|█████████████████████████████████████████████████▊                                                                                                                                                  | 126/496 [34:44<1:35:04, 15.42s/it] 26%|██████████████████████████████████████████████████▏                                                                                                                                                 | 127/496 [34:59<1:34:56, 15.44s/it]                                                                                                                                                                                                                                             {'loss': '2.389', 'grad_norm': '0.8919', 'learning_rate': '0.0001698', 'ppl': '10.9', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '131.3', 'tokens/total': 260096, 'tokens/trainable': 258228, 'epoch': '1.113'}
 26%|██████████████████████████████████████████████████▏                                                                                                                                                 | 127/496 [34:59<1:34:56, 15.44s/it] 26%|██████████████████████████████████████████████████▌                                                                                                                                                 | 128/496 [35:14<1:34:22, 15.39s/it]                                                                                                                                                                                                                                             {'loss': '2.179', 'grad_norm': '0.8794', 'learning_rate': '0.0001694', 'ppl': '8.841', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '132.4', 'tokens/total': 262144, 'tokens/trainable': 260247, 'epoch': '1.115'}
 26%|██████████████████████████████████████████████████▌                                                                                                                                                 | 128/496 [35:14<1:34:22, 15.39s/it] 26%|██████████████████████████████████████████████████▉                                                                                                                                                 | 129/496 [35:29<1:33:37, 15.31s/it]                                                                                                                                                                                                                                             {'loss': '1.693', 'grad_norm': '0.7507', 'learning_rate': '0.0001689', 'ppl': '5.436', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '134', 'tokens/total': 264192, 'tokens/trainable': 262269, 'epoch': '1.117'}
 26%|██████████████████████████████████████████████████▉                                                                                                                                                 | 129/496 [35:29<1:33:37, 15.31s/it] 26%|███████████████████████████████████████████████████▎                                                                                                                                                | 130/496 [35:45<1:33:54, 15.39s/it]                                                                                                                                                                                                                                             {'loss': '1.216', 'grad_norm': '0.7188', 'learning_rate': '0.0001684', 'ppl': '3.373', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '129', 'tokens/total': 266240, 'tokens/trainable': 264279, 'epoch': '1.119'}
 26%|███████████████████████████████████████████████████▎                                                                                                                                                | 130/496 [35:45<1:33:54, 15.39s/it] 26%|███████████████████████████████████████████████████▊                                                                                                                                                | 131/496 [36:01<1:34:44, 15.57s/it]                                                                                                                                                                                                                                             {'loss': '2.083', 'grad_norm': '0.9652', 'learning_rate': '0.000168', 'ppl': '8.028', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '126.7', 'tokens/total': 268288, 'tokens/trainable': 266304, 'epoch': '1.121'}
 26%|███████████████████████████████████████████████████▊                                                                                                                                                | 131/496 [36:01<1:34:44, 15.57s/it] 27%|████████████████████████████████████████████████████▏                                                                                                                                               | 132/496 [36:17<1:34:50, 15.63s/it]                                                                                                                                                                                                                                             {'loss': '1.869', 'grad_norm': '0.8338', 'learning_rate': '0.0001675', 'ppl': '6.485', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '128.4', 'tokens/total': 270336, 'tokens/trainable': 268327, 'epoch': '1.123'}
 27%|████████████████████████████████████████████████████▏                                                                                                                                               | 132/496 [36:17<1:34:50, 15.63s/it] 27%|████████████████████████████████████████████████████▌                                                                                                                                               | 133/496 [36:32<1:34:18, 15.59s/it]                                                                                                                                                                                                                                             {'loss': '1.879', 'grad_norm': '0.8215', 'learning_rate': '0.000167', 'ppl': '6.545', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '130.5', 'tokens/total': 272384, 'tokens/trainable': 270345, 'epoch': '1.125'}
 27%|████████████████████████████████████████████████████▌                                                                                                                                               | 133/496 [36:32<1:34:18, 15.59s/it] 27%|████████████████████████████████████████████████████▉                                                                                                                                               | 134/496 [36:47<1:33:05, 15.43s/it]                                                                                                                                                                                                                                             {'loss': '1.983', 'grad_norm': '0.8172', 'learning_rate': '0.0001666', 'ppl': '7.263', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '134.9', 'tokens/total': 274432, 'tokens/trainable': 272374, 'epoch': '1.127'}
 27%|████████████████████████████████████████████████████▉                                                                                                                                               | 134/496 [36:47<1:33:05, 15.43s/it] 27%|█████████████████████████████████████████████████████▎                                                                                                                                              | 135/496 [37:02<1:32:19, 15.34s/it]                                                                                                                                                                                                                                             {'loss': '2.027', 'grad_norm': '0.9666', 'learning_rate': '0.0001661', 'ppl': '7.588', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '133.8', 'tokens/total': 276480, 'tokens/trainable': 274398, 'epoch': '1.129'}
 27%|█████████████████████████████████████████████████████▎                                                                                                                                              | 135/496 [37:02<1:32:19, 15.34s/it][2026-01-25 17:27:54,965] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:822: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  prev_state_dict_settings = FullyShardedDataParallel.set_state_dict_type(

[2026-01-25 17:28:58,724] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:829: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  FullyShardedDataParallel.set_state_dict_type(

[2026-01-25 17:28:58,734] [INFO] [axolotl.core.trainers.base._save:721] [PID:796] Saving model checkpoint to ./outputs/qlora-out/checkpoint-135
[2026-01-25 17:30:18,566] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/_optim_utils.py:1190: UserWarning: `_get_pg_default_device` will be deprecated, it only stays for backward-compatiblity reason. If you need to find a device for object collectives, please use `_get_object_coll_device`. If you need to query the device types supported by group, please use `_device_capability(group)`. 
  device = _get_pg_default_device(group)

[2026-01-25 17:30:18,566] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/_optim_utils.py:1190: UserWarning: Multiple backends are registered with this ProcessGroup. We cannot determine which one is the default. Returning cpu. Please consider using other APIs.
  device = _get_pg_default_device(group)

 27%|█████████████████████████████████████████████████████▏                                                                                                                                            | 136/496 [42:51<11:31:19, 115.22s/it]                                                                                                                                                                                                                                             {'loss': '2.093', 'grad_norm': '0.9245', 'learning_rate': '0.0001656', 'ppl': '8.112', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '10.87', 'tokens/total': 278528, 'tokens/trainable': 276439, 'epoch': '1.131'}
 27%|█████████████████████████████████████████████████████▏                                                                                                                                            | 136/496 [42:51<11:31:19, 115.22s/it] 28%|██████████████████████████████████████████████████████▏                                                                                                                                             | 137/496 [43:23<8:59:42, 90.20s/it]                                                                                                                                                                                                                                             {'loss': '2.088', 'grad_norm': '0.8794', 'learning_rate': '0.0001651', 'ppl': '8.067', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '65.05', 'tokens/total': 280576, 'tokens/trainable': 278477, 'epoch': '1.133'}
 28%|██████████████████████████████████████████████████████▏                                                                                                                                             | 137/496 [43:23<8:59:42, 90.20s/it] 28%|██████████████████████████████████████████████████████▌                                                                                                                                             | 138/496 [43:46<6:59:26, 70.30s/it]                                                                                                                                                                                                                                             {'loss': '2.189', 'grad_norm': '0.8859', 'learning_rate': '0.0001647', 'ppl': '8.922', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '84.63', 'tokens/total': 282624, 'tokens/trainable': 280494, 'epoch': '1.135'}
 28%|██████████████████████████████████████████████████████▌                                                                                                                                             | 138/496 [43:46<6:59:26, 70.30s/it] 28%|██████████████████████████████████████████████████████▉                                                                                                                                             | 139/496 [44:09<5:34:02, 56.14s/it]                                                                                                                                                                                                                                             {'loss': '1.842', 'grad_norm': '0.8838', 'learning_rate': '0.0001642', 'ppl': '6.31', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '87.05', 'tokens/total': 284672, 'tokens/trainable': 282504, 'epoch': '1.137'}
 28%|██████████████████████████████████████████████████████▉                                                                                                                                             | 139/496 [44:10<5:34:02, 56.14s/it] 28%|███████████████████████████████████████████████████████▎                                                                                                                                            | 140/496 [44:33<4:34:38, 46.29s/it]                                                                                                                                                                                                                                             {'loss': '1.505', 'grad_norm': '0.7671', 'learning_rate': '0.0001637', 'ppl': '4.506', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '87.13', 'tokens/total': 286720, 'tokens/trainable': 284532, 'epoch': '1.139'}
 28%|███████████████████████████████████████████████████████▎                                                                                                                                            | 140/496 [44:33<4:34:38, 46.29s/it] 28%|███████████████████████████████████████████████████████▋                                                                                                                                            | 141/496 [44:55<3:51:54, 39.20s/it]                                                                                                                                                                                                                                             {'loss': '2.052', 'grad_norm': '1.074', 'learning_rate': '0.0001632', 'ppl': '7.782', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '86.56', 'tokens/total': 288768, 'tokens/trainable': 286491, 'epoch': '1.141'}
 28%|███████████████████████████████████████████████████████▋                                                                                                                                            | 141/496 [44:55<3:51:54, 39.20s/it] 29%|████████████████████████████████████████████████████████                                                                                                                                            | 142/496 [45:19<3:24:23, 34.64s/it]                                                                                                                                                                                                                                             {'loss': '1.797', 'grad_norm': '0.9559', 'learning_rate': '0.0001627', 'ppl': '6.032', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '63.19', 'tokens/total': 290816, 'tokens/trainable': 287984, 'epoch': '1.143'}
 29%|████████████████████████████████████████████████████████                                                                                                                                            | 142/496 [45:19<3:24:23, 34.64s/it][2026-01-25 17:36:12,097] [WARNING] [datasets.iterable_dataset._iter_pytorch:2405] [PID:1905] Too many dataloader workers: 2 (max is dataset.num_shards=1). Stopping 1 dataloader workers.
[2026-01-25 17:36:12,292] [WARNING] [datasets.iterable_dataset._iter_pytorch:2405] [PID:1911] Too many dataloader workers: 2 (max is dataset.num_shards=1). Stopping 1 dataloader workers.
[2026-01-25 17:36:12,438] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:1905] Loading dataset: Guilherme34/Dataset-for-updating-llm-to-be-aware-of-the-situation with base_type: pretrain and prompt_style: None
[2026-01-25 17:36:12,556] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:1911] Loading dataset: Guilherme34/Dataset-for-updating-llm-to-be-aware-of-the-situation with base_type: pretrain and prompt_style: None
Tokenizing Prompts (num_proc=54):   0%|                                                                                                                                                                       | 0/949 [00:00<?, ? examples/s]
Tokenizing Prompts (num_proc=54):   0%|                                                                                                                                                                       | 0/949 [00:00<?, ? examples/s][ATokenizing Prompts (num_proc=54):   2%|██▉                                                                                                                                                           | 18/949 [00:04<03:50,  4.04 examples/s]Tokenizing Prompts (num_proc=54):   4%|█████▉                                                                                                                                                        | 36/949 [00:04<01:37,  9.39 examples/s]Tokenizing Prompts (num_proc=54):   6%|████████▉                                                                                                                                                     | 54/949 [00:04<00:54, 16.42 examples/s]Tokenizing Prompts (num_proc=54):   8%|███████████▉                                                                                                                                                  | 72/949 [00:04<00:37, 23.27 examples/s]Tokenizing Prompts (num_proc=54):   9%|██████████████▉                                                                                                                                               | 90/949 [00:05<00:26, 32.14 examples/s]Tokenizing Prompts (num_proc=54):  13%|████████████████████▊                                                                                                                                        | 126/949 [00:05<00:14, 55.74 examples/s]Tokenizing Prompts (num_proc=54):  15%|███████████████████████▊                                                                                                                                     | 144/949 [00:05<00:12, 64.92 examples/s]Tokenizing Prompts (num_proc=54):  17%|██████████████████████████▊                                                                                                                                  | 162/949 [00:05<00:10, 74.48 examples/s]Tokenizing Prompts (num_proc=54):  19%|█████████████████████████████▊                                                                                                                               | 180/949 [00:05<00:09, 84.44 examples/s]Tokenizing Prompts (num_proc=54):  21%|████████████████████████████████▊                                                                                                                            | 198/949 [00:05<00:08, 92.34 examples/s]Tokenizing Prompts (num_proc=54):  23%|███████████████████████████████████▌                                                                                                                        | 216/949 [00:06<00:07, 100.95 examples/s]Tokenizing Prompts (num_proc=54):  25%|██████████████████████████████████████▍                                                                                                                     | 234/949 [00:06<00:06, 106.72 examples/s]Tokenizing Prompts (num_proc=54):  27%|█████████████████████████████████████████▍                                                                                                                  | 252/949 [00:06<00:06, 111.96 examples/s]Tokenizing Prompts (num_proc=54):  28%|████████████████████████████████████████████▍                                                                                                               | 270/949 [00:06<00:05, 116.30 examples/s]Tokenizing Prompts (num_proc=54):  30%|███████████████████████████████████████████████▎                                                                                                            | 288/949 [00:06<00:05, 118.04 examples/s]Tokenizing Prompts (num_proc=54):  32%|██████████████████████████████████████████████████▎                                                                                                         | 306/949 [00:06<00:05, 116.24 examples/s]Tokenizing Prompts (num_proc=54):  34%|█████████████████████████████████████████████████████▎                                                                                                      | 324/949 [00:06<00:05, 118.89 examples/s]Tokenizing Prompts (num_proc=54):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 342/949 [00:07<00:04, 121.47 examples/s]Tokenizing Prompts (num_proc=54):  38%|███████████████████████████████████████████████████████████▏                                                                                                | 360/949 [00:07<00:04, 120.18 examples/s]Tokenizing Prompts (num_proc=54):  40%|██████████████████████████████████████████████████████████████▏                                                                                             | 378/949 [00:07<00:05, 109.58 examples/s]Tokenizing Prompts (num_proc=54):  42%|█████████████████████████████████████████████████████████████████                                                                                           | 396/949 [00:07<00:05, 109.72 examples/s]Tokenizing Prompts (num_proc=54):  44%|████████████████████████████████████████████████████████████████████                                                                                        | 414/949 [00:07<00:04, 112.97 examples/s]Tokenizing Prompts (num_proc=54):  46%|███████████████████████████████████████████████████████████████████████                                                                                     | 432/949 [00:07<00:04, 117.20 examples/s]Tokenizing Prompts (num_proc=54):  47%|█████████████████████████████████████████████████████████████████████████▉                                                                                  | 450/949 [00:08<00:04, 114.73 examples/s]Tokenizing Prompts (num_proc=54):  49%|████████████████████████████████████████████████████████████████████████████▉                                                                               | 468/949 [00:08<00:04, 108.51 examples/s]Tokenizing Prompts (num_proc=54):  51%|███████████████████████████████████████████████████████████████████████████████▉                                                                            | 486/949 [00:08<00:04, 108.06 examples/s]Tokenizing Prompts (num_proc=54):  53%|██████████████████████████████████████████████████████████████████████████████████▊                                                                         | 504/949 [00:08<00:04, 108.07 examples/s]
Tokenizing Prompts (num_proc=54):   2%|██▉                                                                                                                                                           | 18/949 [00:08<07:22,  2.10 examples/s][ATokenizing Prompts (num_proc=54):  55%|█████████████████████████████████████████████████████████████████████████████████████▊                                                                      | 522/949 [00:08<00:03, 111.12 examples/s]
Tokenizing Prompts (num_proc=54):   4%|█████▉                                                                                                                                                        | 36/949 [00:08<03:04,  4.95 examples/s][ATokenizing Prompts (num_proc=54):  57%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 540/949 [00:08<00:03, 116.32 examples/s]
Tokenizing Prompts (num_proc=54):   8%|███████████▉                                                                                                                                                  | 72/949 [00:08<01:08, 12.77 examples/s][ATokenizing Prompts (num_proc=54):  59%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                                | 558/949 [00:09<00:03, 110.38 examples/s]Tokenizing Prompts (num_proc=54):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                             | 575/949 [00:09<00:03, 94.28 examples/s]
Tokenizing Prompts (num_proc=54):   9%|██████████████▉                                                                                                                                               | 90/949 [00:09<00:51, 16.61 examples/s][ATokenizing Prompts (num_proc=54):  62%|█████████████████████████████████████████████████████████████████████████████████████████████████▉                                                           | 592/949 [00:09<00:03, 94.94 examples/s]
Tokenizing Prompts (num_proc=54):  11%|█████████████████▊                                                                                                                                           | 108/949 [00:09<00:38, 22.07 examples/s][ATokenizing Prompts (num_proc=54):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 626/949 [00:09<00:02, 123.35 examples/s]
Tokenizing Prompts (num_proc=54):  13%|████████████████████▊                                                                                                                                        | 126/949 [00:09<00:28, 28.85 examples/s][ATokenizing Prompts (num_proc=54):  68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 643/949 [00:09<00:02, 127.20 examples/s]Tokenizing Prompts (num_proc=54):  70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 660/949 [00:09<00:02, 128.63 examples/s]
Tokenizing Prompts (num_proc=54):  15%|███████████████████████▊                                                                                                                                     | 144/949 [00:09<00:21, 37.44 examples/s][ATokenizing Prompts (num_proc=54):  71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                             | 677/949 [00:10<00:02, 91.91 examples/s]
Tokenizing Prompts (num_proc=54):  19%|█████████████████████████████▊                                                                                                                               | 180/949 [00:10<00:14, 53.02 examples/s][A
Tokenizing Prompts (num_proc=54):  21%|████████████████████████████████▊                                                                                                                            | 198/949 [00:10<00:12, 59.51 examples/s][ATokenizing Prompts (num_proc=54):  75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 711/949 [00:10<00:02, 102.62 examples/s]
Tokenizing Prompts (num_proc=54):  23%|███████████████████████████████████▋                                                                                                                         | 216/949 [00:10<00:11, 66.27 examples/s][ATokenizing Prompts (num_proc=54):  79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 745/949 [00:10<00:01, 129.19 examples/s]
Tokenizing Prompts (num_proc=54):  25%|██████████████████████████████████████▋                                                                                                                      | 234/949 [00:10<00:10, 71.28 examples/s][ATokenizing Prompts (num_proc=54):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 762/949 [00:10<00:01, 117.54 examples/s]Tokenizing Prompts (num_proc=54):  82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 779/949 [00:11<00:01, 111.65 examples/s]
Tokenizing Prompts (num_proc=54):  28%|████████████████████████████████████████████▋                                                                                                                | 270/949 [00:10<00:06, 98.38 examples/s][ATokenizing Prompts (num_proc=54):  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 796/949 [00:11<00:01, 110.36 examples/s]Tokenizing Prompts (num_proc=54):  86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                      | 813/949 [00:11<00:01, 108.16 examples/s]
Tokenizing Prompts (num_proc=54):  30%|███████████████████████████████████████████████▋                                                                                                             | 288/949 [00:11<00:08, 79.77 examples/s][ATokenizing Prompts (num_proc=54):  87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 830/949 [00:11<00:01, 106.80 examples/s]Tokenizing Prompts (num_proc=54):  89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 847/949 [00:11<00:00, 104.37 examples/s]
Tokenizing Prompts (num_proc=54):  34%|█████████████████████████████████████████████████████▌                                                                                                       | 324/949 [00:11<00:06, 91.25 examples/s][A
Tokenizing Prompts (num_proc=54):  36%|████████████████████████████████████████████████████████▌                                                                                                    | 342/949 [00:11<00:06, 98.21 examples/s][A
Tokenizing Prompts (num_proc=54):  38%|███████████████████████████████████████████████████████████▏                                                                                                | 360/949 [00:11<00:05, 101.73 examples/s][ATokenizing Prompts (num_proc=54):  93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 881/949 [00:12<00:00, 103.97 examples/s]
Tokenizing Prompts (num_proc=54):  40%|██████████████████████████████████████████████████████████████▌                                                                                              | 378/949 [00:12<00:05, 99.40 examples/s][ATokenizing Prompts (num_proc=54):  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 915/949 [00:12<00:00, 119.24 examples/s]
Tokenizing Prompts (num_proc=54):  42%|█████████████████████████████████████████████████████████████████                                                                                           | 396/949 [00:12<00:05, 100.53 examples/s][ATokenizing Prompts (num_proc=54):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 932/949 [00:12<00:00, 109.51 examples/s]
Tokenizing Prompts (num_proc=54):  44%|████████████████████████████████████████████████████████████████████                                                                                        | 414/949 [00:12<00:05, 100.18 examples/s][ATokenizing Prompts (num_proc=54): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:12<00:00, 113.17 examples/s]
Tokenizing Prompts (num_proc=54):  46%|███████████████████████████████████████████████████████████████████████                                                                                     | 432/949 [00:12<00:04, 104.35 examples/s][A
Tokenizing Prompts (num_proc=54):  47%|█████████████████████████████████████████████████████████████████████████▉                                                                                  | 450/949 [00:12<00:04, 103.91 examples/s][A
Tokenizing Prompts (num_proc=54):  51%|███████████████████████████████████████████████████████████████████████████████▉                                                                            | 486/949 [00:13<00:04, 114.32 examples/s][ATokenizing Prompts (num_proc=54): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:13<00:00, 71.78 examples/s]
Dropping Long Sequences:   0%|                                                                                                                                                                                | 0/949 [00:00<?, ? examples/s]
Tokenizing Prompts (num_proc=54):  53%|███████████████████████████████████████████████████████████████████████████████████▍                                                                         | 504/949 [00:13<00:05, 87.79 examples/s][A
Tokenizing Prompts (num_proc=54):  55%|██████████████████████████████████████████████████████████████████████████████████████▎                                                                      | 522/949 [00:13<00:04, 92.21 examples/s][A
Tokenizing Prompts (num_proc=54):  57%|█████████████████████████████████████████████████████████████████████████████████████████▎                                                                   | 540/949 [00:13<00:04, 95.28 examples/s][A
Tokenizing Prompts (num_proc=54):  59%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                                | 558/949 [00:13<00:03, 100.87 examples/s][ADropping Long Sequences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:00<00:00, 1212.98 examples/s]Dropping Long Sequences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:00<00:00, 1173.32 examples/s]
Tokenizing Prompts (num_proc=54):  61%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                             | 575/949 [00:14<00:03, 100.09 examples/s][A
Tokenizing Prompts (num_proc=54):  62%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 592/949 [00:14<00:03, 105.85 examples/s][A
Tokenizing Prompts (num_proc=54):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 609/949 [00:14<00:03, 109.58 examples/s][A
Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                    | 0/936 [00:00<?, ? examples/s]
Tokenizing Prompts (num_proc=54):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 626/949 [00:14<00:03, 106.20 examples/s][A
Tokenizing Prompts (num_proc=54):  68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 643/949 [00:14<00:02, 102.25 examples/s][A
Tokenizing Prompts (num_proc=54):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                               | 660/949 [00:14<00:02, 99.62 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 936/936 [00:00<00:00, 1366.12 examples/s]Add position_id column (Pretraining Sample Packing): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 936/936 [00:00<00:00, 1287.05 examples/s]
Tokenizing Prompts (num_proc=54):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 694/949 [00:15<00:02, 97.56 examples/s][A
Tokenizing Prompts (num_proc=54):  77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 728/949 [00:15<00:02, 97.11 examples/s][A
Tokenizing Prompts (num_proc=54):  80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 762/949 [00:15<00:01, 97.92 examples/s][A
Tokenizing Prompts (num_proc=54):  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 796/949 [00:16<00:01, 102.32 examples/s][A
Tokenizing Prompts (num_proc=54):  86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                      | 813/949 [00:16<00:01, 101.93 examples/s][A
[2026-01-25 17:36:29,193] [WARNING] [py.warnings._showwarnmsg:110] [PID:1905] /apool/venvi/lib/python3.13/site-packages/datasets/formatting/torch_formatter.py:222: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.detach().clone() or sourceTensor.detach().clone().requires_grad_(True), rather than torch.tensor(sourceTensor).
  return torch.tensor(value, **{**default_dtype, **self.torch_tensor_kwargs})


Tokenizing Prompts (num_proc=54):  87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 830/949 [00:16<00:01, 105.79 examples/s][A
Tokenizing Prompts (num_proc=54):  89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 847/949 [00:16<00:00, 105.24 examples/s][A
Tokenizing Prompts (num_proc=54):  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 864/949 [00:16<00:00, 106.85 examples/s][A
Tokenizing Prompts (num_proc=54):  93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 881/949 [00:17<00:00, 108.87 examples/s][A
Tokenizing Prompts (num_proc=54):  95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 898/949 [00:17<00:00, 119.27 examples/s][A
Tokenizing Prompts (num_proc=54):  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 915/949 [00:17<00:00, 116.43 examples/s][A
Tokenizing Prompts (num_proc=54):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 932/949 [00:17<00:00, 126.47 examples/s][A
Tokenizing Prompts (num_proc=54): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:17<00:00, 120.47 examples/s][ATokenizing Prompts (num_proc=54): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:18<00:00, 52.01 examples/s]

Dropping Long Sequences:   0%|                                                                                                                                                                                | 0/949 [00:00<?, ? examples/s][A
Dropping Long Sequences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:00<00:00, 1244.47 examples/s][ADropping Long Sequences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:00<00:00, 1206.68 examples/s]

Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                    | 0/936 [00:00<?, ? examples/s][A
Add position_id column (Pretraining Sample Packing): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 936/936 [00:00<00:00, 1547.50 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 936/936 [00:00<00:00, 1480.23 examples/s]
[2026-01-25 17:36:32,951] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:1911] Using single process for pack_parallel, running sequentially.
[2026-01-25 17:36:33,896] [WARNING] [py.warnings._showwarnmsg:110] [PID:1911] /apool/venvi/lib/python3.13/site-packages/datasets/formatting/torch_formatter.py:222: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.detach().clone() or sourceTensor.detach().clone().requires_grad_(True), rather than torch.tensor(sourceTensor).
  return torch.tensor(value, **{**default_dtype, **self.torch_tensor_kwargs})

 29%|████████████████████████████████████████████████████████▌                                                                                                                                           | 143/496 [46:06<3:44:06, 38.09s/it]                                                                                                                                                                                                                                             {'loss': '2.41', 'grad_norm': '0.9581', 'learning_rate': '0.0001622', 'ppl': '11.13', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '84.37', 'tokens/total': 292864, 'tokens/trainable': 290021, 'epoch': '2.002'}
 29%|████████████████████████████████████████████████████████▌                                                                                                                                           | 143/496 [46:06<3:44:06, 38.09s/it] 29%|████████████████████████████████████████████████████████▉                                                                                                                                           | 144/496 [46:29<3:17:19, 33.63s/it]                                                                                                                                                                                                                                             {'loss': '1.598', 'grad_norm': '0.7835', 'learning_rate': '0.0001617', 'ppl': '4.941', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '88.19', 'tokens/total': 294912, 'tokens/trainable': 292069, 'epoch': '2.004'}
 29%|████████████████████████████████████████████████████████▉                                                                                                                                           | 144/496 [46:29<3:17:19, 33.63s/it] 29%|█████████████████████████████████████████████████████████▎                                                                                                                                          | 145/496 [46:51<2:56:23, 30.15s/it]                                                                                                                                                                                                                                             {'loss': '1.626', 'grad_norm': '0.8442', 'learning_rate': '0.0001612', 'ppl': '5.081', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '92.67', 'tokens/total': 296960, 'tokens/trainable': 294108, 'epoch': '2.006'}
 29%|█████████████████████████████████████████████████████████▎                                                                                                                                          | 145/496 [46:51<2:56:23, 30.15s/it] 29%|█████████████████████████████████████████████████████████▋                                                                                                                                          | 146/496 [47:15<2:44:34, 28.21s/it]                                                                                                                                                                                                                                             {'loss': '1.661', 'grad_norm': '0.7925', 'learning_rate': '0.0001607', 'ppl': '5.263', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '86.3', 'tokens/total': 299008, 'tokens/trainable': 296150, 'epoch': '2.008'}
 29%|█████████████████████████████████████████████████████████▋                                                                                                                                          | 146/496 [47:15<2:44:34, 28.21s/it] 30%|██████████████████████████████████████████████████████████                                                                                                                                          | 147/496 [47:37<2:34:22, 26.54s/it]                                                                                                                                                                                                                                             {'loss': '1.522', 'grad_norm': '0.8508', 'learning_rate': '0.0001602', 'ppl': '4.583', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '90.44', 'tokens/total': 301056, 'tokens/trainable': 298194, 'epoch': '2.01'}
 30%|██████████████████████████████████████████████████████████                                                                                                                                          | 147/496 [47:37<2:34:22, 26.54s/it] 30%|██████████████████████████████████████████████████████████▍                                                                                                                                         | 148/496 [48:00<2:28:08, 25.54s/it]                                                                                                                                                                                                                                             {'loss': '1.68', 'grad_norm': '0.8622', 'learning_rate': '0.0001597', 'ppl': '5.364', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '88.14', 'tokens/total': 303104, 'tokens/trainable': 300237, 'epoch': '2.012'}
 30%|██████████████████████████████████████████████████████████▍                                                                                                                                         | 148/496 [48:00<2:28:08, 25.54s/it] 30%|██████████████████████████████████████████████████████████▉                                                                                                                                         | 149/496 [48:23<2:23:05, 24.74s/it]                                                                                                                                                                                                                                             {'loss': '1.754', 'grad_norm': '0.9323', 'learning_rate': '0.0001592', 'ppl': '5.778', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '89.25', 'tokens/total': 305152, 'tokens/trainable': 302278, 'epoch': '2.014'}
 30%|██████████████████████████████████████████████████████████▉                                                                                                                                         | 149/496 [48:23<2:23:05, 24.74s/it] 30%|███████████████████████████████████████████████████████████▎                                                                                                                                        | 150/496 [48:46<2:18:55, 24.09s/it]                                                                                                                                                                                                                                             {'loss': '1.766', 'grad_norm': '0.9931', 'learning_rate': '0.0001587', 'ppl': '5.85', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '89.97', 'tokens/total': 307200, 'tokens/trainable': 304305, 'epoch': '2.016'}
 30%|███████████████████████████████████████████████████████████▎                                                                                                                                        | 150/496 [48:46<2:18:55, 24.09s/it] 30%|███████████████████████████████████████████████████████████▋                                                                                                                                        | 151/496 [49:10<2:18:36, 24.11s/it]                                                                                                                                                                                                                                             {'loss': '2.232', 'grad_norm': '1.112', 'learning_rate': '0.0001582', 'ppl': '9.322', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '84.81', 'tokens/total': 309248, 'tokens/trainable': 306352, 'epoch': '2.018'}
 30%|███████████████████████████████████████████████████████████▋                                                                                                                                        | 151/496 [49:10<2:18:36, 24.11s/it] 31%|████████████████████████████████████████████████████████████                                                                                                                                        | 152/496 [49:32<2:15:28, 23.63s/it]                                                                                                                                                                                                                                             {'loss': '2.064', 'grad_norm': '1.153', 'learning_rate': '0.0001576', 'ppl': '7.879', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '91.08', 'tokens/total': 311296, 'tokens/trainable': 308400, 'epoch': '2.02'}
 31%|████████████████████████████████████████████████████████████                                                                                                                                        | 152/496 [49:33<2:15:28, 23.63s/it] 31%|████████████████████████████████████████████████████████████▍                                                                                                                                       | 153/496 [49:55<2:13:06, 23.28s/it]                                                                                                                                                                                                                                             {'loss': '1.867', 'grad_norm': '0.9436', 'learning_rate': '0.0001571', 'ppl': '6.471', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '90.76', 'tokens/total': 313344, 'tokens/trainable': 310436, 'epoch': '2.022'}
 31%|████████████████████████████████████████████████████████████▍                                                                                                                                       | 153/496 [49:55<2:13:06, 23.28s/it] 31%|████████████████████████████████████████████████████████████▊                                                                                                                                       | 154/496 [50:17<2:11:04, 22.99s/it]                                                                                                                                                                                                                                             {'loss': '1.489', 'grad_norm': '0.8857', 'learning_rate': '0.0001566', 'ppl': '4.433', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '91.7', 'tokens/total': 315392, 'tokens/trainable': 312479, 'epoch': '2.024'}
 31%|████████████████████████████████████████████████████████████▊                                                                                                                                       | 154/496 [50:17<2:11:04, 22.99s/it] 31%|█████████████████████████████████████████████████████████████▎                                                                                                                                      | 155/496 [50:40<2:09:29, 22.78s/it]                                                                                                                                                                                                                                             {'loss': '2.35', 'grad_norm': '1.029', 'learning_rate': '0.0001561', 'ppl': '10.49', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '91.75', 'tokens/total': 317440, 'tokens/trainable': 314520, 'epoch': '2.026'}
 31%|█████████████████████████████████████████████████████████████▎                                                                                                                                      | 155/496 [50:40<2:09:29, 22.78s/it] 31%|█████████████████████████████████████████████████████████████▋                                                                                                                                      | 156/496 [51:02<2:08:59, 22.76s/it]                                                                                                                                                                                                                                             {'loss': '1.999', 'grad_norm': '0.977', 'learning_rate': '0.0001556', 'ppl': '7.381', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '89.42', 'tokens/total': 319488, 'tokens/trainable': 316550, 'epoch': '2.028'}
 31%|█████████████████████████████████████████████████████████████▋                                                                                                                                      | 156/496 [51:02<2:08:59, 22.76s/it] 32%|██████████████████████████████████████████████████████████████                                                                                                                                      | 157/496 [51:26<2:10:03, 23.02s/it]                                                                                                                                                                                                                                             {'loss': '1.761', 'grad_norm': '0.8703', 'learning_rate': '0.000155', 'ppl': '5.817', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '86.57', 'tokens/total': 321536, 'tokens/trainable': 318590, 'epoch': '2.03'}
 32%|██████████████████████████████████████████████████████████████                                                                                                                                      | 157/496 [51:26<2:10:03, 23.02s/it] 32%|██████████████████████████████████████████████████████████████▍                                                                                                                                     | 158/496 [51:47<2:06:48, 22.51s/it]                                                                                                                                                                                                                                             {'loss': '1.764', 'grad_norm': '0.8459', 'learning_rate': '0.0001545', 'ppl': '5.833', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '95.81', 'tokens/total': 323584, 'tokens/trainable': 320630, 'epoch': '2.032'}
 32%|██████████████████████████████████████████████████████████████▍                                                                                                                                     | 158/496 [51:47<2:06:48, 22.51s/it] 32%|██████████████████████████████████████████████████████████████▊                                                                                                                                     | 159/496 [52:10<2:06:31, 22.53s/it]                                                                                                                                                                                                                                             {'loss': '1.554', 'grad_norm': '0.9898', 'learning_rate': '0.000154', 'ppl': '4.732', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '90.09', 'tokens/total': 325632, 'tokens/trainable': 322660, 'epoch': '2.034'}
 32%|██████████████████████████████████████████████████████████████▊                                                                                                                                     | 159/496 [52:10<2:06:31, 22.53s/it] 32%|███████████████████████████████████████████████████████████████▏                                                                                                                                    | 160/496 [52:33<2:07:54, 22.84s/it]                                                                                                                                                                                                                                             {'loss': '1.409', 'grad_norm': '1.073', 'learning_rate': '0.0001534', 'ppl': '4.093', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '86.27', 'tokens/total': 327680, 'tokens/trainable': 324691, 'epoch': '2.036'}
 32%|███████████████████████████████████████████████████████████████▏                                                                                                                                    | 160/496 [52:33<2:07:54, 22.84s/it] 32%|███████████████████████████████████████████████████████████████▌                                                                                                                                    | 161/496 [52:57<2:08:20, 22.99s/it]                                                                                                                                                                                                                                             {'loss': '1.878', 'grad_norm': '0.9787', 'learning_rate': '0.0001529', 'ppl': '6.538', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '87.58', 'tokens/total': 329728, 'tokens/trainable': 326732, 'epoch': '2.038'}
 32%|███████████████████████████████████████████████████████████████▌                                                                                                                                    | 161/496 [52:57<2:08:20, 22.99s/it] 33%|████████████████████████████████████████████████████████████████                                                                                                                                    | 162/496 [53:19<2:06:54, 22.80s/it]                                                                                                                                                                                                                                             {'loss': '1.407', 'grad_norm': '0.8261', 'learning_rate': '0.0001524', 'ppl': '4.085', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '91.15', 'tokens/total': 331776, 'tokens/trainable': 328766, 'epoch': '2.04'}
 33%|████████████████████████████████████████████████████████████████                                                                                                                                    | 162/496 [53:19<2:06:54, 22.80s/it] 33%|████████████████████████████████████████████████████████████████▍                                                                                                                                   | 163/496 [53:42<2:07:22, 22.95s/it]                                                                                                                                                                                                                                             {'loss': '1.687', 'grad_norm': '0.9032', 'learning_rate': '0.0001518', 'ppl': '5.405', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '87.34', 'tokens/total': 333824, 'tokens/trainable': 330799, 'epoch': '2.042'}
 33%|████████████████████████████████████████████████████████████████▍                                                                                                                                   | 163/496 [53:42<2:07:22, 22.95s/it] 33%|████████████████████████████████████████████████████████████████▊                                                                                                                                   | 164/496 [54:06<2:07:18, 23.01s/it]                                                                                                                                                                                                                                             {'loss': '1.86', 'grad_norm': '0.9086', 'learning_rate': '0.0001513', 'ppl': '6.425', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '88.02', 'tokens/total': 335872, 'tokens/trainable': 332832, 'epoch': '2.044'}
 33%|████████████████████████████████████████████████████████████████▊                                                                                                                                   | 164/496 [54:06<2:07:18, 23.01s/it] 33%|█████████████████████████████████████████████████████████████████▏                                                                                                                                  | 165/496 [54:27<2:04:10, 22.51s/it]                                                                                                                                                                                                                                             {'loss': '1.763', 'grad_norm': '1.063', 'learning_rate': '0.0001507', 'ppl': '5.828', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '96.08', 'tokens/total': 337920, 'tokens/trainable': 334880, 'epoch': '2.046'}
 33%|█████████████████████████████████████████████████████████████████▏                                                                                                                                  | 165/496 [54:27<2:04:10, 22.51s/it] 33%|█████████████████████████████████████████████████████████████████▌                                                                                                                                  | 166/496 [54:48<2:02:01, 22.19s/it]                                                                                                                                                                                                                                             {'loss': '1.355', 'grad_norm': '0.9707', 'learning_rate': '0.0001502', 'ppl': '3.875', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '95.22', 'tokens/total': 339968, 'tokens/trainable': 336918, 'epoch': '2.048'}
 33%|█████████████████████████████████████████████████████████████████▌                                                                                                                                  | 166/496 [54:48<2:02:01, 22.19s/it] 34%|█████████████████████████████████████████████████████████████████▉                                                                                                                                  | 167/496 [55:10<2:00:43, 22.02s/it]                                                                                                                                                                                                                                             {'loss': '1.954', 'grad_norm': '0.913', 'learning_rate': '0.0001496', 'ppl': '7.057', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '94.08', 'tokens/total': 342016, 'tokens/trainable': 338950, 'epoch': '2.05'}
 34%|█████████████████████████████████████████████████████████████████▉                                                                                                                                  | 167/496 [55:10<2:00:43, 22.02s/it] 34%|██████████████████████████████████████████████████████████████████▍                                                                                                                                 | 168/496 [55:32<2:00:05, 21.97s/it]                                                                                                                                                                                                                                             {'loss': '1.915', 'grad_norm': '1.004', 'learning_rate': '0.0001491', 'ppl': '6.787', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '93.34', 'tokens/total': 344064, 'tokens/trainable': 340985, 'epoch': '2.052'}
 34%|██████████████████████████████████████████████████████████████████▍                                                                                                                                 | 168/496 [55:32<2:00:05, 21.97s/it] 34%|██████████████████████████████████████████████████████████████████▊                                                                                                                                 | 169/496 [55:54<2:00:28, 22.10s/it]                                                                                                                                                                                                                                             {'loss': '1.528', 'grad_norm': '0.8921', 'learning_rate': '0.0001485', 'ppl': '4.608', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '91.28', 'tokens/total': 346112, 'tokens/trainable': 343029, 'epoch': '2.054'}
 34%|██████████████████████████████████████████████████████████████████▊                                                                                                                                 | 169/496 [55:54<2:00:28, 22.10s/it] 34%|███████████████████████████████████████████████████████████████████▏                                                                                                                                | 170/496 [56:17<2:01:21, 22.34s/it]                                                                                                                                                                                                                                             {'loss': '1.948', 'grad_norm': '0.9372', 'learning_rate': '0.000148', 'ppl': '7.015', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '89.14', 'tokens/total': 348160, 'tokens/trainable': 345066, 'epoch': '2.056'}
 34%|███████████████████████████████████████████████████████████████████▏                                                                                                                                | 170/496 [56:17<2:01:21, 22.34s/it] 34%|███████████████████████████████████████████████████████████████████▌                                                                                                                                | 171/496 [56:40<2:01:38, 22.46s/it]                                                                                                                                                                                                                                             {'loss': '2.037', 'grad_norm': '0.9851', 'learning_rate': '0.0001474', 'ppl': '7.665', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '89.33', 'tokens/total': 350208, 'tokens/trainable': 347097, 'epoch': '2.058'}
 34%|███████████████████████████████████████████████████████████████████▌                                                                                                                                | 171/496 [56:40<2:01:38, 22.46s/it] 35%|███████████████████████████████████████████████████████████████████▉                                                                                                                                | 172/496 [57:02<2:01:31, 22.51s/it]                                                                                                                                                                                                                                             {'loss': '1.959', 'grad_norm': '1.04', 'learning_rate': '0.0001469', 'ppl': '7.095', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '90.31', 'tokens/total': 352256, 'tokens/trainable': 349138, 'epoch': '2.06'}
 35%|███████████████████████████████████████████████████████████████████▉                                                                                                                                | 172/496 [57:02<2:01:31, 22.51s/it] 35%|████████████████████████████████████████████████████████████████████▎                                                                                                                               | 173/496 [57:26<2:02:11, 22.70s/it]                                                                                                                                                                                                                                             {'loss': '1.648', 'grad_norm': '0.9579', 'learning_rate': '0.0001463', 'ppl': '5.196', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '88.57', 'tokens/total': 354304, 'tokens/trainable': 351184, 'epoch': '2.062'}
 35%|████████████████████████████████████████████████████████████████████▎                                                                                                                               | 173/496 [57:26<2:02:11, 22.70s/it] 35%|████████████████████████████████████████████████████████████████████▊                                                                                                                               | 174/496 [57:50<2:04:07, 23.13s/it]                                                                                                                                                                                                                                             {'loss': '1.637', 'grad_norm': '0.9719', 'learning_rate': '0.0001457', 'ppl': '5.141', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '84.71', 'tokens/total': 356352, 'tokens/trainable': 353227, 'epoch': '2.065'}
 35%|████████████████████████████████████████████████████████████████████▊                                                                                                                               | 174/496 [57:50<2:04:07, 23.13s/it] 35%|█████████████████████████████████████████████████████████████████████▏                                                                                                                              | 175/496 [58:12<2:03:10, 23.02s/it]                                                                                                                                                                                                                                             {'loss': '1.623', 'grad_norm': '0.9516', 'learning_rate': '0.0001452', 'ppl': '5.069', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '89.05', 'tokens/total': 358400, 'tokens/trainable': 355254, 'epoch': '2.067'}
 35%|█████████████████████████████████████████████████████████████████████▏                                                                                                                              | 175/496 [58:12<2:03:10, 23.02s/it] 35%|█████████████████████████████████████████████████████████████████████▌                                                                                                                              | 176/496 [58:36<2:02:48, 23.03s/it]                                                                                                                                                                                                                                             {'loss': '1.723', 'grad_norm': '0.9384', 'learning_rate': '0.0001446', 'ppl': '5.599', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '88.75', 'tokens/total': 360448, 'tokens/trainable': 357296, 'epoch': '2.069'}
 35%|█████████████████████████████████████████████████████████████████████▌                                                                                                                              | 176/496 [58:36<2:02:48, 23.03s/it] 36%|█████████████████████████████████████████████████████████████████████▉                                                                                                                              | 177/496 [58:58<2:00:53, 22.74s/it]                                                                                                                                                                                                                                             {'loss': '1.385', 'grad_norm': '0.9478', 'learning_rate': '0.000144', 'ppl': '3.996', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '92.17', 'tokens/total': 362496, 'tokens/trainable': 359324, 'epoch': '2.071'}
 36%|█████████████████████████████████████████████████████████████████████▉                                                                                                                              | 177/496 [58:58<2:00:53, 22.74s/it] 36%|██████████████████████████████████████████████████████████████████████▎                                                                                                                             | 178/496 [59:20<1:59:42, 22.59s/it]                                                                                                                                                                                                                                             {'loss': '1.883', 'grad_norm': '1.037', 'learning_rate': '0.0001435', 'ppl': '6.573', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '92.07', 'tokens/total': 364544, 'tokens/trainable': 361370, 'epoch': '2.073'}
 36%|██████████████████████████████████████████████████████████████████████▎                                                                                                                             | 178/496 [59:20<1:59:42, 22.59s/it] 36%|██████████████████████████████████████████████████████████████████████▋                                                                                                                             | 179/496 [59:35<1:47:28, 20.34s/it]                                                                                                                                                                                                                                             {'loss': '2.115', 'grad_norm': '1.087', 'learning_rate': '0.0001429', 'ppl': '8.289', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '135.2', 'tokens/total': 366592, 'tokens/trainable': 363411, 'epoch': '2.075'}
 36%|██████████████████████████████████████████████████████████████████████▋                                                                                                                             | 179/496 [59:35<1:47:28, 20.34s/it] 36%|███████████████████████████████████████████████████████████████████████▏                                                                                                                            | 180/496 [59:50<1:38:41, 18.74s/it]                                                                                                                                                                                                                                             {'loss': '1.62', 'grad_norm': '1.065', 'learning_rate': '0.0001423', 'ppl': '5.052', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '135.7', 'tokens/total': 368640, 'tokens/trainable': 365443, 'epoch': '2.077'}
 36%|███████████████████████████████████████████████████████████████████████▏                                                                                                                            | 180/496 [59:50<1:38:41, 18.74s/it][2026-01-25 17:50:42,427] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:822: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  prev_state_dict_settings = FullyShardedDataParallel.set_state_dict_type(

[2026-01-25 17:51:40,374] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:829: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  FullyShardedDataParallel.set_state_dict_type(

[2026-01-25 17:51:40,382] [INFO] [axolotl.core.trainers.base._save:721] [PID:796] Saving model checkpoint to ./outputs/qlora-out/checkpoint-180
[2026-01-25 17:52:48,973] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/_optim_utils.py:1190: UserWarning: `_get_pg_default_device` will be deprecated, it only stays for backward-compatiblity reason. If you need to find a device for object collectives, please use `_get_object_coll_device`. If you need to query the device types supported by group, please use `_device_capability(group)`. 
  device = _get_pg_default_device(group)

[2026-01-25 17:52:48,973] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/_optim_utils.py:1190: UserWarning: Multiple backends are registered with this ProcessGroup. We cannot determine which one is the default. Returning cpu. Please consider using other APIs.
  device = _get_pg_default_device(group)

 36%|██████████████████████████████████████████████████████████████████████▊                                                                                                                           | 181/496 [1:02:12<4:53:17, 55.87s/it]                                                                                                                                                                                                                                             {'loss': '1.565', 'grad_norm': '0.9129', 'learning_rate': '0.0001418', 'ppl': '4.782', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '134', 'tokens/total': 370688, 'tokens/trainable': 367472, 'epoch': '2.079'}
 36%|██████████████████████████████████████████████████████████████████████▊                                                                                                                           | 181/496 [1:02:12<4:53:17, 55.87s/it] 37%|███████████████████████████████████████████████████████████████████████▏                                                                                                                          | 182/496 [1:02:27<3:48:08, 43.59s/it]                                                                                                                                                                                                                                             {'loss': '1.925', 'grad_norm': '1.134', 'learning_rate': '0.0001412', 'ppl': '6.854', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '136.2', 'tokens/total': 372736, 'tokens/trainable': 369508, 'epoch': '2.081'}
 37%|███████████████████████████████████████████████████████████████████████▏                                                                                                                          | 182/496 [1:02:27<3:48:08, 43.59s/it] 37%|███████████████████████████████████████████████████████████████████████▌                                                                                                                          | 183/496 [1:02:43<3:03:05, 35.10s/it]                                                                                                                                                                                                                                             {'loss': '2.051', 'grad_norm': '0.9805', 'learning_rate': '0.0001406', 'ppl': '7.774', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '133.1', 'tokens/total': 374784, 'tokens/trainable': 371540, 'epoch': '2.083'}
 37%|███████████████████████████████████████████████████████████████████████▌                                                                                                                          | 183/496 [1:02:43<3:03:05, 35.10s/it] 37%|███████████████████████████████████████████████████████████████████████▉                                                                                                                          | 184/496 [1:02:58<2:31:03, 29.05s/it]                                                                                                                                                                                                                                             {'loss': '1.557', 'grad_norm': '1.131', 'learning_rate': '0.00014', 'ppl': '4.746', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '136.7', 'tokens/total': 376832, 'tokens/trainable': 373580, 'epoch': '2.085'}
 37%|███████████████████████████████████████████████████████████████████████▉                                                                                                                          | 184/496 [1:02:58<2:31:03, 29.05s/it] 37%|████████████████████████████████████████████████████████████████████████▎                                                                                                                         | 185/496 [1:03:13<2:08:53, 24.87s/it]                                                                                                                                                                                                                                             {'loss': '1.755', 'grad_norm': '0.9265', 'learning_rate': '0.0001394', 'ppl': '5.785', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '135.6', 'tokens/total': 378880, 'tokens/trainable': 375627, 'epoch': '2.087'}
 37%|████████████████████████████████████████████████████████████████████████▎                                                                                                                         | 185/496 [1:03:13<2:08:53, 24.87s/it] 38%|████████████████████████████████████████████████████████████████████████▊                                                                                                                         | 186/496 [1:03:28<1:53:37, 21.99s/it]                                                                                                                                                                                                                                             {'loss': '1.715', 'grad_norm': '1.038', 'learning_rate': '0.0001389', 'ppl': '5.557', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '132.3', 'tokens/total': 380928, 'tokens/trainable': 377649, 'epoch': '2.089'}
 38%|████████████████████████████████████████████████████████████████████████▊                                                                                                                         | 186/496 [1:03:28<1:53:37, 21.99s/it] 38%|█████████████████████████████████████████████████████████████████████████▏                                                                                                                        | 187/496 [1:03:43<1:42:51, 19.97s/it]                                                                                                                                                                                                                                             {'loss': '1.985', 'grad_norm': '1.062', 'learning_rate': '0.0001383', 'ppl': '7.279', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '131.1', 'tokens/total': 382976, 'tokens/trainable': 379649, 'epoch': '2.091'}
 38%|█████████████████████████████████████████████████████████████████████████▏                                                                                                                        | 187/496 [1:03:43<1:42:51, 19.97s/it] 38%|█████████████████████████████████████████████████████████████████████████▌                                                                                                                        | 188/496 [1:03:58<1:35:06, 18.53s/it]                                                                                                                                                                                                                                             {'loss': '1.254', 'grad_norm': '0.8717', 'learning_rate': '0.0001377', 'ppl': '3.506', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '134.1', 'tokens/total': 385024, 'tokens/trainable': 381680, 'epoch': '2.093'}
 38%|█████████████████████████████████████████████████████████████████████████▌                                                                                                                        | 188/496 [1:03:58<1:35:06, 18.53s/it] 38%|█████████████████████████████████████████████████████████████████████████▉                                                                                                                        | 189/496 [1:04:14<1:29:59, 17.59s/it]                                                                                                                                                                                                                                             {'loss': '1.801', 'grad_norm': '0.9604', 'learning_rate': '0.0001371', 'ppl': '6.058', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '132.6', 'tokens/total': 387072, 'tokens/trainable': 383719, 'epoch': '2.095'}
 38%|█████████████████████████████████████████████████████████████████████████▉                                                                                                                        | 189/496 [1:04:14<1:29:59, 17.59s/it] 38%|██████████████████████████████████████████████████████████████████████████▎                                                                                                                       | 190/496 [1:04:29<1:26:24, 16.94s/it]                                                                                                                                                                                                                                             {'loss': '1.525', 'grad_norm': '0.8731', 'learning_rate': '0.0001365', 'ppl': '4.597', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '131.8', 'tokens/total': 389120, 'tokens/trainable': 385752, 'epoch': '2.097'}
 38%|██████████████████████████████████████████████████████████████████████████▎                                                                                                                       | 190/496 [1:04:29<1:26:24, 16.94s/it] 39%|██████████████████████████████████████████████████████████████████████████▋                                                                                                                       | 191/496 [1:04:44<1:23:23, 16.40s/it]                                                                                                                                                                                                                                             {'loss': '1.195', 'grad_norm': '0.8848', 'learning_rate': '0.0001359', 'ppl': '3.302', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '134.4', 'tokens/total': 391168, 'tokens/trainable': 387786, 'epoch': '2.099'}
 39%|██████████████████████████████████████████████████████████████████████████▋                                                                                                                       | 191/496 [1:04:44<1:23:23, 16.40s/it] 39%|███████████████████████████████████████████████████████████████████████████                                                                                                                       | 192/496 [1:05:00<1:21:33, 16.10s/it]                                                                                                                                                                                                                                             {'loss': '1.356', 'grad_norm': '0.985', 'learning_rate': '0.0001353', 'ppl': '3.88', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '131.7', 'tokens/total': 393216, 'tokens/trainable': 389810, 'epoch': '2.101'}
 39%|███████████████████████████████████████████████████████████████████████████                                                                                                                       | 192/496 [1:05:00<1:21:33, 16.10s/it] 39%|███████████████████████████████████████████████████████████████████████████▍                                                                                                                      | 193/496 [1:05:15<1:20:27, 15.93s/it]                                                                                                                                                                                                                                             {'loss': '1.766', 'grad_norm': '1.015', 'learning_rate': '0.0001347', 'ppl': '5.848', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '131.1', 'tokens/total': 395264, 'tokens/trainable': 391846, 'epoch': '2.103'}
 39%|███████████████████████████████████████████████████████████████████████████▍                                                                                                                      | 193/496 [1:05:15<1:20:27, 15.93s/it] 39%|███████████████████████████████████████████████████████████████████████████▉                                                                                                                      | 194/496 [1:05:31<1:19:23, 15.77s/it]                                                                                                                                                                                                                                             {'loss': '2.01', 'grad_norm': '1.197', 'learning_rate': '0.0001341', 'ppl': '7.466', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '132.6', 'tokens/total': 397312, 'tokens/trainable': 393887, 'epoch': '2.105'}
 39%|███████████████████████████████████████████████████████████████████████████▉                                                                                                                      | 194/496 [1:05:31<1:19:23, 15.77s/it] 39%|████████████████████████████████████████████████████████████████████████████▎                                                                                                                     | 195/496 [1:05:46<1:18:39, 15.68s/it]                                                                                                                                                                                                                                             {'loss': '1.718', 'grad_norm': '0.8975', 'learning_rate': '0.0001335', 'ppl': '5.573', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '131.5', 'tokens/total': 399360, 'tokens/trainable': 395920, 'epoch': '2.107'}
 39%|████████████████████████████████████████████████████████████████████████████▎                                                                                                                     | 195/496 [1:05:46<1:18:39, 15.68s/it] 40%|████████████████████████████████████████████████████████████████████████████▋                                                                                                                     | 196/496 [1:06:01<1:17:51, 15.57s/it]                                                                                                                                                                                                                                             {'loss': '1.597', 'grad_norm': '0.9136', 'learning_rate': '0.0001329', 'ppl': '4.939', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '132.8', 'tokens/total': 401408, 'tokens/trainable': 397953, 'epoch': '2.109'}
 40%|████████████████████████████████████████████████████████████████████████████▋                                                                                                                     | 196/496 [1:06:01<1:17:51, 15.57s/it] 40%|█████████████████████████████████████████████████████████████████████████████                                                                                                                     | 197/496 [1:06:17<1:17:29, 15.55s/it]                                                                                                                                                                                                                                             {'loss': '1.509', 'grad_norm': '0.8867', 'learning_rate': '0.0001323', 'ppl': '4.524', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '131.5', 'tokens/total': 403456, 'tokens/trainable': 399989, 'epoch': '2.111'}
 40%|█████████████████████████████████████████████████████████████████████████████                                                                                                                     | 197/496 [1:06:17<1:17:29, 15.55s/it] 40%|█████████████████████████████████████████████████████████████████████████████▍                                                                                                                    | 198/496 [1:06:32<1:15:55, 15.29s/it]                                                                                                                                                                                                                                             {'loss': '1.492', 'grad_norm': '0.9615', 'learning_rate': '0.0001317', 'ppl': '4.448', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '137.7', 'tokens/total': 405504, 'tokens/trainable': 402007, 'epoch': '2.113'}
 40%|█████████████████████████████████████████████████████████████████████████████▍                                                                                                                    | 198/496 [1:06:32<1:15:55, 15.29s/it] 40%|█████████████████████████████████████████████████████████████████████████████▊                                                                                                                    | 199/496 [1:06:47<1:15:02, 15.16s/it]                                                                                                                                                                                                                                             {'loss': '1.823', 'grad_norm': '1.095', 'learning_rate': '0.0001311', 'ppl': '6.189', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '137.2', 'tokens/total': 407552, 'tokens/trainable': 404045, 'epoch': '2.115'}
 40%|█████████████████████████████████████████████████████████████████████████████▊                                                                                                                    | 199/496 [1:06:47<1:15:02, 15.16s/it] 40%|██████████████████████████████████████████████████████████████████████████████▏                                                                                                                   | 200/496 [1:07:01<1:14:05, 15.02s/it]                                                                                                                                                                                                                                             {'loss': '2.031', 'grad_norm': '1.008', 'learning_rate': '0.0001305', 'ppl': '7.618', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '135.7', 'tokens/total': 409600, 'tokens/trainable': 406039, 'epoch': '2.117'}
 40%|██████████████████████████████████████████████████████████████████████████████▏                                                                                                                   | 200/496 [1:07:01<1:14:05, 15.02s/it] 41%|██████████████████████████████████████████████████████████████████████████████▌                                                                                                                   | 201/496 [1:07:16<1:13:34, 14.96s/it]                                                                                                                                                                                                                                             {'loss': '1.589', 'grad_norm': '0.9971', 'learning_rate': '0.0001299', 'ppl': '4.901', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '134.6', 'tokens/total': 411648, 'tokens/trainable': 408035, 'epoch': '2.119'}
 41%|██████████████████████████████████████████████████████████████████████████████▌                                                                                                                   | 201/496 [1:07:16<1:13:34, 14.96s/it] 41%|███████████████████████████████████████████████████████████████████████████████                                                                                                                   | 202/496 [1:07:31<1:12:52, 14.87s/it]                                                                                                                                                                                                                                             {'loss': '1.889', 'grad_norm': '1.063', 'learning_rate': '0.0001293', 'ppl': '6.609', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '137.5', 'tokens/total': 413696, 'tokens/trainable': 410049, 'epoch': '2.121'}
 41%|███████████████████████████████████████████████████████████████████████████████                                                                                                                   | 202/496 [1:07:31<1:12:52, 14.87s/it] 41%|███████████████████████████████████████████████████████████████████████████████▍                                                                                                                  | 203/496 [1:07:45<1:12:25, 14.83s/it]                                                                                                                                                                                                                                             {'loss': '1.351', 'grad_norm': '1.022', 'learning_rate': '0.0001287', 'ppl': '3.862', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '136.7', 'tokens/total': 415744, 'tokens/trainable': 412060, 'epoch': '2.123'}
 41%|███████████████████████████████████████████████████████████████████████████████▍                                                                                                                  | 203/496 [1:07:45<1:12:25, 14.83s/it] 41%|███████████████████████████████████████████████████████████████████████████████▊                                                                                                                  | 204/496 [1:08:00<1:12:14, 14.85s/it]                                                                                                                                                                                                                                             {'loss': '1.57', 'grad_norm': '0.9784', 'learning_rate': '0.0001281', 'ppl': '4.804', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '134.4', 'tokens/total': 417792, 'tokens/trainable': 414059, 'epoch': '2.125'}
 41%|███████████████████████████████████████████████████████████████████████████████▊                                                                                                                  | 204/496 [1:08:00<1:12:14, 14.85s/it] 41%|████████████████████████████████████████████████████████████████████████████████▏                                                                                                                 | 205/496 [1:08:15<1:12:10, 14.88s/it]                                                                                                                                                                                                                                             {'loss': '1.548', 'grad_norm': '0.9745', 'learning_rate': '0.0001275', 'ppl': '4.702', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '136', 'tokens/total': 419840, 'tokens/trainable': 416092, 'epoch': '2.127'}
 41%|████████████████████████████████████████████████████████████████████████████████▏                                                                                                                 | 205/496 [1:08:15<1:12:10, 14.88s/it] 42%|████████████████████████████████████████████████████████████████████████████████▌                                                                                                                 | 206/496 [1:08:30<1:11:58, 14.89s/it]                                                                                                                                                                                                                                             {'loss': '1.683', 'grad_norm': '1.026', 'learning_rate': '0.0001269', 'ppl': '5.384', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '136.5', 'tokens/total': 421888, 'tokens/trainable': 418128, 'epoch': '2.129'}
 42%|████████████████████████████████████████████████████████████████████████████████▌                                                                                                                 | 206/496 [1:08:30<1:11:58, 14.89s/it] 42%|████████████████████████████████████████████████████████████████████████████████▉                                                                                                                 | 207/496 [1:08:45<1:11:41, 14.88s/it]                                                                                                                                                                                                                                             {'loss': '1.145', 'grad_norm': '0.8851', 'learning_rate': '0.0001263', 'ppl': '3.143', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '135.3', 'tokens/total': 423936, 'tokens/trainable': 420138, 'epoch': '2.131'}
 42%|████████████████████████████████████████████████████████████████████████████████▉                                                                                                                 | 207/496 [1:08:45<1:11:41, 14.88s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                                                | 208/496 [1:09:00<1:11:21, 14.86s/it]                                                                                                                                                                                                                                             {'loss': '1.544', 'grad_norm': '1.064', 'learning_rate': '0.0001257', 'ppl': '4.681', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '135.8', 'tokens/total': 425984, 'tokens/trainable': 422149, 'epoch': '2.133'}
 42%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                                                | 208/496 [1:09:00<1:11:21, 14.86s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                                                | 209/496 [1:09:15<1:10:54, 14.82s/it]                                                                                                                                                                                                                                             {'loss': '1.784', 'grad_norm': '1.146', 'learning_rate': '0.0001251', 'ppl': '5.953', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '136.7', 'tokens/total': 428032, 'tokens/trainable': 424159, 'epoch': '2.135'}
 42%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                                                | 209/496 [1:09:15<1:10:54, 14.82s/it] 42%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                                               | 210/496 [1:09:29<1:10:10, 14.72s/it]                                                                                                                                                                                                                                             {'loss': '1.942', 'grad_norm': '1.204', 'learning_rate': '0.0001245', 'ppl': '6.972', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '140.9', 'tokens/total': 430080, 'tokens/trainable': 426199, 'epoch': '2.137'}
 42%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                                               | 210/496 [1:09:29<1:10:10, 14.72s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                                               | 211/496 [1:09:43<1:09:13, 14.57s/it]                                                                                                                                                                                                                                             {'loss': '1.592', 'grad_norm': '1.015', 'learning_rate': '0.0001238', 'ppl': '4.913', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '139.9', 'tokens/total': 432128, 'tokens/trainable': 428188, 'epoch': '2.139'}
 43%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                                               | 211/496 [1:09:43<1:09:13, 14.57s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                                               | 212/496 [1:09:58<1:08:44, 14.52s/it]                                                                                                                                                                                                                                             {'loss': '1.532', 'grad_norm': '1.018', 'learning_rate': '0.0001232', 'ppl': '4.628', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '134.3', 'tokens/total': 434176, 'tokens/trainable': 430120, 'epoch': '2.141'}
 43%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                                               | 212/496 [1:09:58<1:08:44, 14.52s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                                              | 213/496 [1:10:13<1:08:57, 14.62s/it]                                                                                                                                                                                                                                             {'loss': '1.948', 'grad_norm': '3.187', 'learning_rate': '0.0001226', 'ppl': '7.015', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '38.63', 'tokens/total': 436224, 'tokens/trainable': 430680, 'epoch': '2.143'}
 43%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                                              | 213/496 [1:10:13<1:08:57, 14.62s/it][2026-01-25 18:01:05,173] [WARNING] [datasets.iterable_dataset._iter_pytorch:2405] [PID:2380] Too many dataloader workers: 2 (max is dataset.num_shards=1). Stopping 1 dataloader workers.
[2026-01-25 18:01:05,305] [WARNING] [datasets.iterable_dataset._iter_pytorch:2405] [PID:2386] Too many dataloader workers: 2 (max is dataset.num_shards=1). Stopping 1 dataloader workers.
[2026-01-25 18:01:05,397] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:2380] Loading dataset: Guilherme34/Dataset-for-updating-llm-to-be-aware-of-the-situation with base_type: pretrain and prompt_style: None
[2026-01-25 18:01:05,536] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:2386] Loading dataset: Guilherme34/Dataset-for-updating-llm-to-be-aware-of-the-situation with base_type: pretrain and prompt_style: None
Tokenizing Prompts (num_proc=54):   0%|                                                                                                                                                                       | 0/949 [00:00<?, ? examples/s]
Tokenizing Prompts (num_proc=54):   0%|                                                                                                                                                                       | 0/949 [00:00<?, ? examples/s][ATokenizing Prompts (num_proc=54):   2%|██▉                                                                                                                                                           | 18/949 [00:03<02:53,  5.35 examples/s]Tokenizing Prompts (num_proc=54):   4%|█████▉                                                                                                                                                        | 36/949 [00:03<01:14, 12.24 examples/s]Tokenizing Prompts (num_proc=54):   6%|████████▉                                                                                                                                                     | 54/949 [00:03<00:42, 20.95 examples/s]Tokenizing Prompts (num_proc=54):   8%|███████████▉                                                                                                                                                  | 72/949 [00:03<00:27, 31.41 examples/s]Tokenizing Prompts (num_proc=54):   9%|██████████████▉                                                                                                                                               | 90/949 [00:03<00:19, 42.96 examples/s]Tokenizing Prompts (num_proc=54):  11%|█████████████████▊                                                                                                                                           | 108/949 [00:04<00:15, 55.56 examples/s]Tokenizing Prompts (num_proc=54):  13%|████████████████████▊                                                                                                                                        | 126/949 [00:04<00:11, 70.91 examples/s]Tokenizing Prompts (num_proc=54):  15%|███████████████████████▊                                                                                                                                     | 144/949 [00:04<00:09, 82.81 examples/s]Tokenizing Prompts (num_proc=54):  17%|██████████████████████████▊                                                                                                                                  | 162/949 [00:04<00:08, 92.49 examples/s]Tokenizing Prompts (num_proc=54):  19%|█████████████████████████████▊                                                                                                                               | 180/949 [00:04<00:07, 96.38 examples/s]Tokenizing Prompts (num_proc=54):  21%|████████████████████████████████▌                                                                                                                           | 198/949 [00:04<00:07, 104.75 examples/s]Tokenizing Prompts (num_proc=54):  23%|███████████████████████████████████▌                                                                                                                        | 216/949 [00:04<00:06, 110.55 examples/s]Tokenizing Prompts (num_proc=54):  25%|██████████████████████████████████████▍                                                                                                                     | 234/949 [00:05<00:06, 115.39 examples/s]Tokenizing Prompts (num_proc=54):  27%|█████████████████████████████████████████▍                                                                                                                  | 252/949 [00:05<00:05, 120.07 examples/s]Tokenizing Prompts (num_proc=54):  28%|████████████████████████████████████████████▍                                                                                                               | 270/949 [00:05<00:05, 122.20 examples/s]Tokenizing Prompts (num_proc=54):  30%|███████████████████████████████████████████████▎                                                                                                            | 288/949 [00:05<00:05, 124.83 examples/s]Tokenizing Prompts (num_proc=54):  32%|██████████████████████████████████████████████████▎                                                                                                         | 306/949 [00:05<00:05, 126.87 examples/s]Tokenizing Prompts (num_proc=54):  34%|█████████████████████████████████████████████████████▎                                                                                                      | 324/949 [00:05<00:04, 128.40 examples/s]Tokenizing Prompts (num_proc=54):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 342/949 [00:05<00:04, 133.09 examples/s]Tokenizing Prompts (num_proc=54):  38%|███████████████████████████████████████████████████████████▏                                                                                                | 360/949 [00:05<00:04, 134.78 examples/s]Tokenizing Prompts (num_proc=54):  40%|██████████████████████████████████████████████████████████████▏                                                                                             | 378/949 [00:06<00:04, 131.03 examples/s]Tokenizing Prompts (num_proc=54):  42%|█████████████████████████████████████████████████████████████████                                                                                           | 396/949 [00:06<00:04, 129.13 examples/s]Tokenizing Prompts (num_proc=54):  44%|████████████████████████████████████████████████████████████████████                                                                                        | 414/949 [00:06<00:04, 130.80 examples/s]
Tokenizing Prompts (num_proc=54):   2%|██▉                                                                                                                                                           | 18/949 [00:06<05:24,  2.87 examples/s][ATokenizing Prompts (num_proc=54):  46%|███████████████████████████████████████████████████████████████████████                                                                                     | 432/949 [00:06<00:04, 128.91 examples/s]
Tokenizing Prompts (num_proc=54):   4%|█████▉                                                                                                                                                        | 36/949 [00:06<02:15,  6.73 examples/s][ATokenizing Prompts (num_proc=54):  47%|█████████████████████████████████████████████████████████████████████████▉                                                                                  | 450/949 [00:06<00:03, 125.64 examples/s]
Tokenizing Prompts (num_proc=54):   6%|████████▉                                                                                                                                                     | 54/949 [00:06<01:15, 11.80 examples/s][ATokenizing Prompts (num_proc=54):  49%|████████████████████████████████████████████████████████████████████████████▉                                                                               | 468/949 [00:06<00:03, 123.00 examples/s]
Tokenizing Prompts (num_proc=54):   8%|███████████▉                                                                                                                                                  | 72/949 [00:06<00:47, 18.31 examples/s][ATokenizing Prompts (num_proc=54):  51%|███████████████████████████████████████████████████████████████████████████████▉                                                                            | 486/949 [00:07<00:03, 120.72 examples/s]
Tokenizing Prompts (num_proc=54):   9%|██████████████▉                                                                                                                                               | 90/949 [00:06<00:32, 26.40 examples/s][ATokenizing Prompts (num_proc=54):  53%|██████████████████████████████████████████████████████████████████████████████████▊                                                                         | 504/949 [00:07<00:03, 125.31 examples/s]
Tokenizing Prompts (num_proc=54):  11%|█████████████████▊                                                                                                                                           | 108/949 [00:07<00:23, 35.76 examples/s][ATokenizing Prompts (num_proc=54):  55%|█████████████████████████████████████████████████████████████████████████████████████▊                                                                      | 522/949 [00:07<00:03, 127.77 examples/s]
Tokenizing Prompts (num_proc=54):  13%|████████████████████▊                                                                                                                                        | 126/949 [00:07<00:17, 46.14 examples/s][ATokenizing Prompts (num_proc=54):  57%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 540/949 [00:07<00:03, 125.92 examples/s]
Tokenizing Prompts (num_proc=54):  15%|███████████████████████▊                                                                                                                                     | 144/949 [00:07<00:14, 56.70 examples/s][ATokenizing Prompts (num_proc=54):  59%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                                | 558/949 [00:07<00:03, 125.36 examples/s]
Tokenizing Prompts (num_proc=54):  17%|██████████████████████████▊                                                                                                                                  | 162/949 [00:07<00:11, 67.82 examples/s][ATokenizing Prompts (num_proc=54):  61%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                             | 575/949 [00:07<00:03, 121.99 examples/s]
Tokenizing Prompts (num_proc=54):  19%|█████████████████████████████▊                                                                                                                               | 180/949 [00:07<00:09, 77.63 examples/s][ATokenizing Prompts (num_proc=54):  62%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 592/949 [00:07<00:03, 118.04 examples/s]
Tokenizing Prompts (num_proc=54):  21%|████████████████████████████████▊                                                                                                                            | 198/949 [00:07<00:08, 86.46 examples/s][ATokenizing Prompts (num_proc=54):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 609/949 [00:08<00:02, 119.28 examples/s]Tokenizing Prompts (num_proc=54):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 626/949 [00:08<00:02, 129.32 examples/s]
Tokenizing Prompts (num_proc=54):  23%|███████████████████████████████████▋                                                                                                                         | 216/949 [00:07<00:07, 94.12 examples/s][ATokenizing Prompts (num_proc=54):  68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 643/949 [00:08<00:02, 125.34 examples/s]
Tokenizing Prompts (num_proc=54):  25%|██████████████████████████████████████▍                                                                                                                     | 234/949 [00:08<00:07, 102.14 examples/s][ATokenizing Prompts (num_proc=54):  70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 660/949 [00:08<00:02, 124.88 examples/s]
Tokenizing Prompts (num_proc=54):  27%|█████████████████████████████████████████▍                                                                                                                  | 252/949 [00:08<00:06, 108.54 examples/s][ATokenizing Prompts (num_proc=54):  71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 677/949 [00:08<00:02, 123.15 examples/s]
Tokenizing Prompts (num_proc=54):  28%|████████████████████████████████████████████▍                                                                                                               | 270/949 [00:08<00:06, 112.36 examples/s][ATokenizing Prompts (num_proc=54):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                          | 694/949 [00:08<00:02, 118.97 examples/s]
Tokenizing Prompts (num_proc=54):  30%|███████████████████████████████████████████████▎                                                                                                            | 288/949 [00:08<00:05, 115.39 examples/s][ATokenizing Prompts (num_proc=54):  75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 711/949 [00:08<00:02, 118.75 examples/s]
Tokenizing Prompts (num_proc=54):  32%|██████████████████████████████████████████████████▎                                                                                                         | 306/949 [00:08<00:05, 114.80 examples/s][ATokenizing Prompts (num_proc=54):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 728/949 [00:08<00:01, 119.57 examples/s]
Tokenizing Prompts (num_proc=54):  34%|█████████████████████████████████████████████████████▎                                                                                                      | 324/949 [00:08<00:05, 116.25 examples/s][ATokenizing Prompts (num_proc=54):  79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 745/949 [00:09<00:01, 118.69 examples/s]
Tokenizing Prompts (num_proc=54):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 342/949 [00:09<00:05, 116.36 examples/s][ATokenizing Prompts (num_proc=54):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 762/949 [00:09<00:01, 117.98 examples/s]
Tokenizing Prompts (num_proc=54):  38%|███████████████████████████████████████████████████████████▏                                                                                                | 360/949 [00:09<00:05, 117.46 examples/s][ATokenizing Prompts (num_proc=54):  82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 779/949 [00:09<00:01, 115.18 examples/s]
Tokenizing Prompts (num_proc=54):  40%|██████████████████████████████████████████████████████████████▏                                                                                             | 378/949 [00:09<00:04, 121.95 examples/s][ATokenizing Prompts (num_proc=54):  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 796/949 [00:09<00:01, 117.07 examples/s]
Tokenizing Prompts (num_proc=54):  42%|█████████████████████████████████████████████████████████████████                                                                                           | 396/949 [00:09<00:04, 120.93 examples/s][ATokenizing Prompts (num_proc=54):  86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                      | 813/949 [00:09<00:01, 116.41 examples/s]
Tokenizing Prompts (num_proc=54):  44%|████████████████████████████████████████████████████████████████████                                                                                        | 414/949 [00:09<00:04, 120.75 examples/s][ATokenizing Prompts (num_proc=54):  87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 830/949 [00:09<00:00, 120.41 examples/s]
Tokenizing Prompts (num_proc=54):  46%|███████████████████████████████████████████████████████████████████████                                                                                     | 432/949 [00:09<00:04, 120.98 examples/s][ATokenizing Prompts (num_proc=54):  89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 847/949 [00:09<00:00, 119.81 examples/s]
Tokenizing Prompts (num_proc=54):  47%|█████████████████████████████████████████████████████████████████████████▉                                                                                  | 450/949 [00:09<00:04, 122.05 examples/s][ATokenizing Prompts (num_proc=54):  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 864/949 [00:10<00:00, 128.18 examples/s]
Tokenizing Prompts (num_proc=54):  49%|████████████████████████████████████████████████████████████████████████████▉                                                                               | 468/949 [00:10<00:03, 120.42 examples/s][ATokenizing Prompts (num_proc=54):  93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 881/949 [00:10<00:00, 125.84 examples/s]
Tokenizing Prompts (num_proc=54):  51%|███████████████████████████████████████████████████████████████████████████████▉                                                                            | 486/949 [00:10<00:03, 121.86 examples/s][ATokenizing Prompts (num_proc=54):  95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 898/949 [00:10<00:00, 131.87 examples/s]Tokenizing Prompts (num_proc=54):  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 915/949 [00:10<00:00, 134.68 examples/s]
Tokenizing Prompts (num_proc=54):  53%|██████████████████████████████████████████████████████████████████████████████████▊                                                                         | 504/949 [00:10<00:03, 123.02 examples/s][ATokenizing Prompts (num_proc=54):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 932/949 [00:10<00:00, 138.41 examples/s]
Tokenizing Prompts (num_proc=54):  55%|█████████████████████████████████████████████████████████████████████████████████████▊                                                                      | 522/949 [00:10<00:03, 122.48 examples/s][ATokenizing Prompts (num_proc=54): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:10<00:00, 140.68 examples/s]
Tokenizing Prompts (num_proc=54):  57%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 540/949 [00:10<00:03, 133.03 examples/s][A
Tokenizing Prompts (num_proc=54):  59%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                                | 558/949 [00:10<00:02, 132.68 examples/s][A
Tokenizing Prompts (num_proc=54):  61%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                             | 575/949 [00:10<00:03, 100.89 examples/s][ATokenizing Prompts (num_proc=54): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:11<00:00, 84.49 examples/s]
Dropping Long Sequences:   0%|                                                                                                                                                                                | 0/949 [00:00<?, ? examples/s]
Tokenizing Prompts (num_proc=54):  62%|█████████████████████████████████████████████████████████████████████████████████████████████████▉                                                           | 592/949 [00:11<00:03, 99.79 examples/s][A
Tokenizing Prompts (num_proc=54):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 609/949 [00:11<00:03, 102.59 examples/s][A
Tokenizing Prompts (num_proc=54):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 626/949 [00:11<00:03, 104.83 examples/s][A
Tokenizing Prompts (num_proc=54):  68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 643/949 [00:11<00:02, 105.77 examples/s][ADropping Long Sequences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:00<00:00, 1533.61 examples/s]Dropping Long Sequences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:00<00:00, 1469.97 examples/s]
Tokenizing Prompts (num_proc=54):  70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 660/949 [00:11<00:02, 107.72 examples/s][A
Tokenizing Prompts (num_proc=54):  71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 677/949 [00:11<00:02, 113.81 examples/s][A
Tokenizing Prompts (num_proc=54):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                          | 694/949 [00:12<00:02, 114.12 examples/s][A
Tokenizing Prompts (num_proc=54):  75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 711/949 [00:12<00:02, 117.03 examples/s][A
Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                    | 0/936 [00:00<?, ? examples/s]
Tokenizing Prompts (num_proc=54):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 728/949 [00:12<00:01, 113.12 examples/s][A
Tokenizing Prompts (num_proc=54):  79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 745/949 [00:12<00:01, 117.45 examples/s][A
Tokenizing Prompts (num_proc=54):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 762/949 [00:12<00:01, 118.23 examples/s][A
Tokenizing Prompts (num_proc=54):  82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 779/949 [00:12<00:01, 118.92 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 936/936 [00:00<00:00, 1646.98 examples/s]Add position_id column (Pretraining Sample Packing): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 936/936 [00:00<00:00, 1580.86 examples/s]
Tokenizing Prompts (num_proc=54):  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 796/949 [00:12<00:01, 119.59 examples/s][A
Tokenizing Prompts (num_proc=54):  86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                      | 813/949 [00:13<00:01, 118.49 examples/s][A
Tokenizing Prompts (num_proc=54):  87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 830/949 [00:13<00:00, 121.89 examples/s][A
Tokenizing Prompts (num_proc=54):  89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 847/949 [00:13<00:00, 120.24 examples/s][A
Tokenizing Prompts (num_proc=54):  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 864/949 [00:13<00:00, 118.45 examples/s][A
Tokenizing Prompts (num_proc=54):  93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 881/949 [00:13<00:00, 122.53 examples/s][A
[2026-01-25 18:01:19,438] [WARNING] [py.warnings._showwarnmsg:110] [PID:2380] /apool/venvi/lib/python3.13/site-packages/datasets/formatting/torch_formatter.py:222: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.detach().clone() or sourceTensor.detach().clone().requires_grad_(True), rather than torch.tensor(sourceTensor).
  return torch.tensor(value, **{**default_dtype, **self.torch_tensor_kwargs})


Tokenizing Prompts (num_proc=54):  95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 898/949 [00:13<00:00, 126.76 examples/s][A
Tokenizing Prompts (num_proc=54):  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 915/949 [00:13<00:00, 127.71 examples/s][A
Tokenizing Prompts (num_proc=54):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 932/949 [00:13<00:00, 132.10 examples/s][A
Tokenizing Prompts (num_proc=54): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:14<00:00, 138.08 examples/s][ATokenizing Prompts (num_proc=54): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:14<00:00, 64.45 examples/s]

Dropping Long Sequences:   0%|                                                                                                                                                                                | 0/949 [00:00<?, ? examples/s][A
Dropping Long Sequences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:00<00:00, 1606.76 examples/s][ADropping Long Sequences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:00<00:00, 1548.12 examples/s]

Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                    | 0/936 [00:00<?, ? examples/s][A
Add position_id column (Pretraining Sample Packing): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 936/936 [00:00<00:00, 1906.85 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 936/936 [00:00<00:00, 1831.45 examples/s]
[2026-01-25 18:01:22,031] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:2386] Using single process for pack_parallel, running sequentially.
[2026-01-25 18:01:23,165] [WARNING] [py.warnings._showwarnmsg:110] [PID:2386] /apool/venvi/lib/python3.13/site-packages/datasets/formatting/torch_formatter.py:222: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.detach().clone() or sourceTensor.detach().clone().requires_grad_(True), rather than torch.tensor(sourceTensor).
  return torch.tensor(value, **{**default_dtype, **self.torch_tensor_kwargs})

 43%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                                              | 214/496 [1:10:45<1:34:20, 20.07s/it]                                                                                                                                                                                                                                             {'loss': '1.369', 'grad_norm': '0.9344', 'learning_rate': '0.000122', 'ppl': '3.933', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '139.4', 'tokens/total': 438272, 'tokens/trainable': 432721, 'epoch': '3.002'}
 43%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                                              | 214/496 [1:10:45<1:34:20, 20.07s/it] 43%|████████████████████████████████████████████████████████████████████████████████████                                                                                                              | 215/496 [1:11:00<1:26:07, 18.39s/it]                                                                                                                                                                                                                                             {'loss': '1.7', 'grad_norm': '1.053', 'learning_rate': '0.0001214', 'ppl': '5.476', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '141.1', 'tokens/total': 440320, 'tokens/trainable': 434759, 'epoch': '3.004'}
 43%|████████████████████████████████████████████████████████████████████████████████████                                                                                                              | 215/496 [1:11:00<1:26:07, 18.39s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▍                                                                                                             | 216/496 [1:11:14<1:20:29, 17.25s/it]                                                                                                                                                                                                                                             {'loss': '1.713', 'grad_norm': '1.08', 'learning_rate': '0.0001207', 'ppl': '5.545', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '140.1', 'tokens/total': 442368, 'tokens/trainable': 436801, 'epoch': '3.006'}
 44%|████████████████████████████████████████████████████████████████████████████████████▍                                                                                                             | 216/496 [1:11:14<1:20:29, 17.25s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▉                                                                                                             | 217/496 [1:11:29<1:16:10, 16.38s/it]                                                                                                                                                                                                                                             {'loss': '1.188', 'grad_norm': '0.9861', 'learning_rate': '0.0001201', 'ppl': '3.281', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '142.8', 'tokens/total': 444416, 'tokens/trainable': 438848, 'epoch': '3.008'}
 44%|████████████████████████████████████████████████████████████████████████████████████▉                                                                                                             | 217/496 [1:11:29<1:16:10, 16.38s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▎                                                                                                            | 218/496 [1:11:43<1:13:00, 15.76s/it]                                                                                                                                                                                                                                             {'loss': '1.836', 'grad_norm': '1.13', 'learning_rate': '0.0001195', 'ppl': '6.273', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '142.7', 'tokens/total': 446464, 'tokens/trainable': 440887, 'epoch': '3.01'}
 44%|█████████████████████████████████████████████████████████████████████████████████████▎                                                                                                            | 218/496 [1:11:43<1:13:00, 15.76s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▋                                                                                                            | 219/496 [1:11:57<1:10:45, 15.33s/it]                                                                                                                                                                                                                                             {'loss': '1.696', 'grad_norm': '1.118', 'learning_rate': '0.0001189', 'ppl': '5.45', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '142.1', 'tokens/total': 448512, 'tokens/trainable': 442922, 'epoch': '3.012'}
 44%|█████████████████████████████████████████████████████████████████████████████████████▋                                                                                                            | 219/496 [1:11:57<1:10:45, 15.33s/it] 44%|██████████████████████████████████████████████████████████████████████████████████████                                                                                                            | 220/496 [1:12:12<1:09:18, 15.07s/it]                                                                                                                                                                                                                                             {'loss': '1.67', 'grad_norm': '1.046', 'learning_rate': '0.0001183', 'ppl': '5.311', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '140.6', 'tokens/total': 450560, 'tokens/trainable': 444956, 'epoch': '3.014'}
 44%|██████████████████████████████████████████████████████████████████████████████████████                                                                                                            | 220/496 [1:12:12<1:09:18, 15.07s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▍                                                                                                           | 221/496 [1:12:26<1:08:16, 14.90s/it]                                                                                                                                                                                                                                             {'loss': '1.579', 'grad_norm': '1.154', 'learning_rate': '0.0001176', 'ppl': '4.851', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '140.1', 'tokens/total': 452608, 'tokens/trainable': 446986, 'epoch': '3.016'}
 45%|██████████████████████████████████████████████████████████████████████████████████████▍                                                                                                           | 221/496 [1:12:26<1:08:16, 14.90s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▊                                                                                                           | 222/496 [1:12:41<1:07:01, 14.68s/it]                                                                                                                                                                                                                                             {'loss': '1.682', 'grad_norm': '1.283', 'learning_rate': '0.000117', 'ppl': '5.375', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '143.8', 'tokens/total': 454656, 'tokens/trainable': 449023, 'epoch': '3.018'}
 45%|██████████████████████████████████████████████████████████████████████████████████████▊                                                                                                           | 222/496 [1:12:41<1:07:01, 14.68s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▏                                                                                                          | 223/496 [1:12:55<1:06:23, 14.59s/it]                                                                                                                                                                                                                                             {'loss': '1.229', 'grad_norm': '1.039', 'learning_rate': '0.0001164', 'ppl': '3.419', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '141.1', 'tokens/total': 456704, 'tokens/trainable': 451053, 'epoch': '3.02'}
 45%|███████████████████████████████████████████████████████████████████████████████████████▏                                                                                                          | 223/496 [1:12:55<1:06:23, 14.59s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▌                                                                                                          | 224/496 [1:13:09<1:05:50, 14.52s/it]                                                                                                                                                                                                                                             {'loss': '1.81', 'grad_norm': '1.231', 'learning_rate': '0.0001158', 'ppl': '6.11', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '141.7', 'tokens/total': 458752, 'tokens/trainable': 453087, 'epoch': '3.022'}
 45%|███████████████████████████████████████████████████████████████████████████████████████▌                                                                                                          | 224/496 [1:13:09<1:05:50, 14.52s/it] 45%|████████████████████████████████████████████████████████████████████████████████████████                                                                                                          | 225/496 [1:13:24<1:05:46, 14.56s/it]                                                                                                                                                                                                                                             {'loss': '1.652', 'grad_norm': '1.242', 'learning_rate': '0.0001151', 'ppl': '5.216', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '138.3', 'tokens/total': 460800, 'tokens/trainable': 455113, 'epoch': '3.024'}
 45%|████████████████████████████████████████████████████████████████████████████████████████                                                                                                          | 225/496 [1:13:24<1:05:46, 14.56s/it][2026-01-25 18:04:16,441] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:822: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  prev_state_dict_settings = FullyShardedDataParallel.set_state_dict_type(

[2026-01-25 18:05:08,122] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:829: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  FullyShardedDataParallel.set_state_dict_type(

[2026-01-25 18:05:08,131] [INFO] [axolotl.core.trainers.base._save:721] [PID:796] Saving model checkpoint to ./outputs/qlora-out/checkpoint-225
[2026-01-25 18:06:10,033] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/_optim_utils.py:1190: UserWarning: `_get_pg_default_device` will be deprecated, it only stays for backward-compatiblity reason. If you need to find a device for object collectives, please use `_get_object_coll_device`. If you need to query the device types supported by group, please use `_device_capability(group)`. 
  device = _get_pg_default_device(group)

[2026-01-25 18:06:10,033] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/_optim_utils.py:1190: UserWarning: Multiple backends are registered with this ProcessGroup. We cannot determine which one is the default. Returning cpu. Please consider using other APIs.
  device = _get_pg_default_device(group)

 46%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                         | 226/496 [1:15:33<3:40:07, 48.91s/it]                                                                                                                                                                                                                                             {'loss': '1.374', 'grad_norm': '1.129', 'learning_rate': '0.0001145', 'ppl': '3.952', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '140.8', 'tokens/total': 462848, 'tokens/trainable': 457161, 'epoch': '3.026'}
 46%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                         | 226/496 [1:15:33<3:40:07, 48.91s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                         | 227/496 [1:15:48<2:53:04, 38.61s/it]                                                                                                                                                                                                                                             {'loss': '1.582', 'grad_norm': '1.123', 'learning_rate': '0.0001139', 'ppl': '4.866', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '139.7', 'tokens/total': 464896, 'tokens/trainable': 459193, 'epoch': '3.028'}
 46%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                         | 227/496 [1:15:48<2:53:04, 38.61s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                        | 228/496 [1:16:02<2:20:09, 31.38s/it]                                                                                                                                                                                                                                             {'loss': '1.361', 'grad_norm': '1.079', 'learning_rate': '0.0001133', 'ppl': '3.9', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '141.1', 'tokens/total': 466944, 'tokens/trainable': 461236, 'epoch': '3.03'}
 46%|█████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                        | 228/496 [1:16:02<2:20:09, 31.38s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                        | 229/496 [1:16:17<1:57:18, 26.36s/it]                                                                                                                                                                                                                                             {'loss': '1.654', 'grad_norm': '1.162', 'learning_rate': '0.0001126', 'ppl': '5.228', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '138.9', 'tokens/total': 468992, 'tokens/trainable': 463270, 'epoch': '3.032'}
 46%|█████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                        | 229/496 [1:16:17<1:57:18, 26.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                        | 230/496 [1:16:31<1:41:13, 22.83s/it]                                                                                                                                                                                                                                             {'loss': '1.351', 'grad_norm': '1.229', 'learning_rate': '0.000112', 'ppl': '3.862', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '139.6', 'tokens/total': 471040, 'tokens/trainable': 465306, 'epoch': '3.034'}
 46%|█████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                        | 230/496 [1:16:31<1:41:13, 22.83s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                       | 231/496 [1:16:46<1:29:45, 20.32s/it]                                                                                                                                                                                                                                             {'loss': '1.344', 'grad_norm': '1.06', 'learning_rate': '0.0001114', 'ppl': '3.835', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '140.7', 'tokens/total': 473088, 'tokens/trainable': 467339, 'epoch': '3.036'}
 47%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                       | 231/496 [1:16:46<1:29:45, 20.32s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                       | 232/496 [1:17:00<1:21:58, 18.63s/it]                                                                                                                                                                                                                                             {'loss': '1.313', 'grad_norm': '1.111', 'learning_rate': '0.0001107', 'ppl': '3.718', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '139', 'tokens/total': 475136, 'tokens/trainable': 469379, 'epoch': '3.038'}
 47%|██████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                       | 232/496 [1:17:00<1:21:58, 18.63s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                      | 233/496 [1:17:15<1:16:19, 17.41s/it]                                                                                                                                                                                                                                             {'loss': '1.385', 'grad_norm': '1.063', 'learning_rate': '0.0001101', 'ppl': '3.993', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '139.5', 'tokens/total': 477184, 'tokens/trainable': 471411, 'epoch': '3.04'}
 47%|███████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                      | 233/496 [1:17:15<1:16:19, 17.41s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                      | 234/496 [1:17:30<1:12:21, 16.57s/it]                                                                                                                                                                                                                                             {'loss': '1.589', 'grad_norm': '1.255', 'learning_rate': '0.0001095', 'ppl': '4.897', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '139.4', 'tokens/total': 479232, 'tokens/trainable': 473446, 'epoch': '3.042'}
 47%|███████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                      | 234/496 [1:17:30<1:12:21, 16.57s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                      | 235/496 [1:17:44<1:08:53, 15.84s/it]                                                                                                                                                                                                                                             {'loss': '1.84', 'grad_norm': '1.271', 'learning_rate': '0.0001089', 'ppl': '6.296', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '144.7', 'tokens/total': 481280, 'tokens/trainable': 475488, 'epoch': '3.044'}
 47%|███████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                      | 235/496 [1:17:44<1:08:53, 15.84s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                     | 236/496 [1:17:58<1:06:35, 15.37s/it]                                                                                                                                                                                                                                             {'loss': '1.749', 'grad_norm': '1.223', 'learning_rate': '0.0001082', 'ppl': '5.752', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '143.6', 'tokens/total': 483328, 'tokens/trainable': 477534, 'epoch': '3.046'}
 48%|████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                     | 236/496 [1:17:58<1:06:35, 15.37s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                     | 237/496 [1:18:13<1:05:16, 15.12s/it]                                                                                                                                                                                                                                             {'loss': '1.263', 'grad_norm': '1.118', 'learning_rate': '0.0001076', 'ppl': '3.536', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '139.5', 'tokens/total': 485376, 'tokens/trainable': 479561, 'epoch': '3.048'}
 48%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                     | 237/496 [1:18:13<1:05:16, 15.12s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████                                                                                                     | 238/496 [1:18:27<1:04:07, 14.91s/it]                                                                                                                                                                                                                                             {'loss': '1.869', 'grad_norm': '1.321', 'learning_rate': '0.000107', 'ppl': '6.479', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '140.9', 'tokens/total': 487424, 'tokens/trainable': 481592, 'epoch': '3.05'}
 48%|█████████████████████████████████████████████████████████████████████████████████████████████                                                                                                     | 238/496 [1:18:27<1:04:07, 14.91s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                    | 239/496 [1:18:42<1:03:32, 14.83s/it]                                                                                                                                                                                                                                             {'loss': '1.422', 'grad_norm': '1.228', 'learning_rate': '0.0001063', 'ppl': '4.147', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '139.3', 'tokens/total': 489472, 'tokens/trainable': 483631, 'epoch': '3.052'}
 48%|█████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                    | 239/496 [1:18:42<1:03:32, 14.83s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                    | 240/496 [1:18:57<1:03:34, 14.90s/it]                                                                                                                                                                                                                                             {'loss': '1.327', 'grad_norm': '1.125', 'learning_rate': '0.0001057', 'ppl': '3.769', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '135.9', 'tokens/total': 491520, 'tokens/trainable': 485675, 'epoch': '3.054'}
 48%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                    | 240/496 [1:18:57<1:03:34, 14.90s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                   | 241/496 [1:19:11<1:02:18, 14.66s/it]                                                                                                                                                                                                                                             {'loss': '1.379', 'grad_norm': '1.13', 'learning_rate': '0.0001051', 'ppl': '3.97', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '144.5', 'tokens/total': 493568, 'tokens/trainable': 487712, 'epoch': '3.056'}
 49%|██████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                   | 241/496 [1:19:11<1:02:18, 14.66s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                   | 242/496 [1:19:25<1:01:46, 14.59s/it]                                                                                                                                                                                                                                             {'loss': '1.639', 'grad_norm': '1.264', 'learning_rate': '0.0001044', 'ppl': '5.148', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '141.6', 'tokens/total': 495616, 'tokens/trainable': 489754, 'epoch': '3.058'}
 49%|██████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                   | 242/496 [1:19:25<1:01:46, 14.59s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████                                                                                                   | 243/496 [1:19:40<1:01:24, 14.56s/it]                                                                                                                                                                                                                                             {'loss': '1.273', 'grad_norm': '1.19', 'learning_rate': '0.0001038', 'ppl': '3.573', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '141.1', 'tokens/total': 497664, 'tokens/trainable': 491796, 'epoch': '3.06'}
 49%|███████████████████████████████████████████████████████████████████████████████████████████████                                                                                                   | 243/496 [1:19:40<1:01:24, 14.56s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                  | 244/496 [1:19:54<1:01:10, 14.57s/it]                                                                                                                                                                                                                                             {'loss': '1.634', 'grad_norm': '1.314', 'learning_rate': '0.0001032', 'ppl': '5.125', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '140.3', 'tokens/total': 499712, 'tokens/trainable': 493840, 'epoch': '3.062'}
 49%|███████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                  | 244/496 [1:19:54<1:01:10, 14.57s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                  | 245/496 [1:20:09<1:00:57, 14.57s/it]                                                                                                                                                                                                                                             {'loss': '1.36', 'grad_norm': '1.281', 'learning_rate': '0.0001025', 'ppl': '3.896', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '138.5', 'tokens/total': 501760, 'tokens/trainable': 495860, 'epoch': '3.065'}
 49%|███████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                  | 245/496 [1:20:09<1:00:57, 14.57s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                 | 246/496 [1:20:23<1:00:21, 14.48s/it]                                                                                                                                                                                                                                             {'loss': '1.666', 'grad_norm': '1.27', 'learning_rate': '0.0001019', 'ppl': '5.293', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '142', 'tokens/total': 503808, 'tokens/trainable': 497886, 'epoch': '3.067'}
 50%|████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                 | 246/496 [1:20:23<1:00:21, 14.48s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                  | 247/496 [1:20:38<59:58, 14.45s/it]                                                                                                                                                                                                                                             {'loss': '1.472', 'grad_norm': '1.276', 'learning_rate': '0.0001013', 'ppl': '4.357', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '142.3', 'tokens/total': 505856, 'tokens/trainable': 499930, 'epoch': '3.069'}
 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                  | 247/496 [1:20:38<59:58, 14.45s/it] 50%|██████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                  | 248/496 [1:20:52<59:22, 14.37s/it]                                                                                                                                                                                                                                             {'loss': '1.647', 'grad_norm': '1.446', 'learning_rate': '0.0001006', 'ppl': '5.192', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '143.7', 'tokens/total': 507904, 'tokens/trainable': 501964, 'epoch': '3.071'}
 50%|██████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                  | 248/496 [1:20:52<59:22, 14.37s/it] 50%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                 | 249/496 [1:21:06<59:25, 14.43s/it]                                                                                                                                                                                                                                             {'loss': '2.118', 'grad_norm': '1.292', 'learning_rate': '0.0001', 'ppl': '8.312', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '139.3', 'tokens/total': 509952, 'tokens/trainable': 503995, 'epoch': '3.073'}
 50%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                 | 249/496 [1:21:06<59:25, 14.43s/it] 50%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                 | 250/496 [1:21:21<59:27, 14.50s/it]                                                                                                                                                                                                                                             {'loss': '1.782', 'grad_norm': '1.066', 'learning_rate': '9.937e-05', 'ppl': '5.941', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '139.1', 'tokens/total': 512000, 'tokens/trainable': 506033, 'epoch': '3.075'}
 50%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                 | 250/496 [1:21:21<59:27, 14.50s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                | 251/496 [1:21:35<59:11, 14.50s/it]                                                                                                                                                                                                                                             {'loss': '1.744', 'grad_norm': '1.271', 'learning_rate': '9.873e-05', 'ppl': '5.722', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '139.8', 'tokens/total': 514048, 'tokens/trainable': 508057, 'epoch': '3.077'}
 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                | 251/496 [1:21:36<59:11, 14.50s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                | 252/496 [1:21:50<58:56, 14.49s/it]                                                                                                                                                                                                                                             {'loss': '1.977', 'grad_norm': '1.297', 'learning_rate': '9.81e-05', 'ppl': '7.22', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '139.9', 'tokens/total': 516096, 'tokens/trainable': 510079, 'epoch': '3.079'}
 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                | 252/496 [1:21:50<58:56, 14.49s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                | 253/496 [1:22:04<58:25, 14.42s/it]                                                                                                                                                                                                                                             {'loss': '1.225', 'grad_norm': '1.097', 'learning_rate': '9.747e-05', 'ppl': '3.403', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '142.8', 'tokens/total': 518144, 'tokens/trainable': 512112, 'epoch': '3.081'}
 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                | 253/496 [1:22:04<58:25, 14.42s/it] 51%|████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                               | 254/496 [1:22:19<58:28, 14.50s/it]                                                                                                                                                                                                                                             {'loss': '1.593', 'grad_norm': '1.334', 'learning_rate': '9.683e-05', 'ppl': '4.918', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '138.4', 'tokens/total': 520192, 'tokens/trainable': 514140, 'epoch': '3.083'}
 51%|████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                               | 254/496 [1:22:19<58:28, 14.50s/it] 51%|████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                               | 255/496 [1:22:34<58:26, 14.55s/it]                                                                                                                                                                                                                                             {'loss': '1.671', 'grad_norm': '1.275', 'learning_rate': '9.62e-05', 'ppl': '5.318', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '138.1', 'tokens/total': 522240, 'tokens/trainable': 516164, 'epoch': '3.085'}
 51%|████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                               | 255/496 [1:22:34<58:26, 14.55s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                              | 256/496 [1:22:48<57:54, 14.48s/it]                                                                                                                                                                                                                                             {'loss': '1.424', 'grad_norm': '1.067', 'learning_rate': '9.557e-05', 'ppl': '4.155', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '142.6', 'tokens/total': 524288, 'tokens/trainable': 518204, 'epoch': '3.087'}
 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                              | 256/496 [1:22:48<57:54, 14.48s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                              | 257/496 [1:23:02<57:39, 14.47s/it]                                                                                                                                                                                                                                             {'loss': '1.912', 'grad_norm': '1.274', 'learning_rate': '9.494e-05', 'ppl': '6.767', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '140.8', 'tokens/total': 526336, 'tokens/trainable': 520239, 'epoch': '3.089'}
 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                              | 257/496 [1:23:02<57:39, 14.47s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                              | 258/496 [1:23:17<57:03, 14.39s/it]                                                                                                                                                                                                                                             {'loss': '1.602', 'grad_norm': '1.149', 'learning_rate': '9.43e-05', 'ppl': '4.964', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '142.3', 'tokens/total': 528384, 'tokens/trainable': 522256, 'epoch': '3.091'}
 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                              | 258/496 [1:23:17<57:03, 14.39s/it] 52%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                             | 259/496 [1:23:31<56:34, 14.32s/it]                                                                                                                                                                                                                                             {'loss': '1.582', 'grad_norm': '1.149', 'learning_rate': '9.367e-05', 'ppl': '4.863', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '144.3', 'tokens/total': 530432, 'tokens/trainable': 524301, 'epoch': '3.093'}
 52%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                             | 259/496 [1:23:31<56:34, 14.32s/it] 52%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                             | 260/496 [1:23:45<56:32, 14.37s/it]                                                                                                                                                                                                                                             {'loss': '1.584', 'grad_norm': '1.13', 'learning_rate': '9.304e-05', 'ppl': '4.875', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '140.5', 'tokens/total': 532480, 'tokens/trainable': 526337, 'epoch': '3.095'}
 52%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                             | 260/496 [1:23:45<56:32, 14.37s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                            | 261/496 [1:24:00<56:13, 14.36s/it]                                                                                                                                                                                                                                             {'loss': '1.386', 'grad_norm': '1.221', 'learning_rate': '9.241e-05', 'ppl': '3.997', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '142.3', 'tokens/total': 534528, 'tokens/trainable': 528372, 'epoch': '3.097'}
 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                            | 261/496 [1:24:00<56:13, 14.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                            | 262/496 [1:24:14<56:22, 14.46s/it]                                                                                                                                                                                                                                             {'loss': '1.509', 'grad_norm': '1.106', 'learning_rate': '9.178e-05', 'ppl': '4.521', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '137.1', 'tokens/total': 536576, 'tokens/trainable': 530386, 'epoch': '3.099'}
 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                            | 262/496 [1:24:14<56:22, 14.46s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                            | 263/496 [1:24:28<55:49, 14.38s/it]                                                                                                                                                                                                                                             {'loss': '1.639', 'grad_norm': '1.251', 'learning_rate': '9.114e-05', 'ppl': '5.15', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '142.7', 'tokens/total': 538624, 'tokens/trainable': 532411, 'epoch': '3.101'}
 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                            | 263/496 [1:24:28<55:49, 14.38s/it] 53%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                           | 264/496 [1:24:43<55:27, 14.34s/it]                                                                                                                                                                                                                                             {'loss': '1.469', 'grad_norm': '1.119', 'learning_rate': '9.051e-05', 'ppl': '4.346', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '141.7', 'tokens/total': 540672, 'tokens/trainable': 534431, 'epoch': '3.103'}
 53%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                           | 264/496 [1:24:43<55:27, 14.34s/it] 53%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                           | 265/496 [1:24:57<55:07, 14.32s/it]                                                                                                                                                                                                                                             {'loss': '2.018', 'grad_norm': '1.253', 'learning_rate': '8.988e-05', 'ppl': '7.52', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '143.2', 'tokens/total': 542720, 'tokens/trainable': 536470, 'epoch': '3.105'}
 53%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                           | 265/496 [1:24:57<55:07, 14.32s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                           | 266/496 [1:25:11<55:03, 14.36s/it]                                                                                                                                                                                                                                             {'loss': '1.598', 'grad_norm': '1.274', 'learning_rate': '8.925e-05', 'ppl': '4.945', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '140.9', 'tokens/total': 544768, 'tokens/trainable': 538506, 'epoch': '3.107'}
 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                           | 266/496 [1:25:11<55:03, 14.36s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                          | 267/496 [1:25:26<55:02, 14.42s/it]                                                                                                                                                                                                                                             {'loss': '1.4', 'grad_norm': '1.12', 'learning_rate': '8.862e-05', 'ppl': '4.055', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '139.2', 'tokens/total': 546816, 'tokens/trainable': 540530, 'epoch': '3.109'}
 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                          | 267/496 [1:25:26<55:02, 14.42s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                          | 268/496 [1:25:40<54:40, 14.39s/it]                                                                                                                                                                                                                                             {'loss': '1.51', 'grad_norm': '1.282', 'learning_rate': '8.799e-05', 'ppl': '4.526', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '141.4', 'tokens/total': 548864, 'tokens/trainable': 542552, 'epoch': '3.111'}
 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                          | 268/496 [1:25:40<54:40, 14.39s/it] 54%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                         | 269/496 [1:25:54<54:15, 14.34s/it]                                                                                                                                                                                                                                             {'loss': '1.529', 'grad_norm': '1.323', 'learning_rate': '8.737e-05', 'ppl': '4.614', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '142.1', 'tokens/total': 550912, 'tokens/trainable': 544574, 'epoch': '3.113'}
 54%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                         | 269/496 [1:25:54<54:15, 14.34s/it] 54%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                         | 270/496 [1:26:09<54:21, 14.43s/it]                                                                                                                                                                                                                                             {'loss': '1.549', 'grad_norm': '1.18', 'learning_rate': '8.674e-05', 'ppl': '4.709', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '136.8', 'tokens/total': 552960, 'tokens/trainable': 546576, 'epoch': '3.115'}
 54%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                         | 270/496 [1:26:09<54:21, 14.43s/it][2026-01-25 18:17:01,636] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:822: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  prev_state_dict_settings = FullyShardedDataParallel.set_state_dict_type(

[2026-01-25 18:17:50,929] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:829: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  FullyShardedDataParallel.set_state_dict_type(

[2026-01-25 18:17:50,938] [INFO] [axolotl.core.trainers.base._save:721] [PID:796] Saving model checkpoint to ./outputs/qlora-out/checkpoint-270
[2026-01-25 18:18:51,207] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/_optim_utils.py:1190: UserWarning: `_get_pg_default_device` will be deprecated, it only stays for backward-compatiblity reason. If you need to find a device for object collectives, please use `_get_object_coll_device`. If you need to query the device types supported by group, please use `_device_capability(group)`. 
  device = _get_pg_default_device(group)

[2026-01-25 18:18:51,207] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/_optim_utils.py:1190: UserWarning: Multiple backends are registered with this ProcessGroup. We cannot determine which one is the default. Returning cpu. Please consider using other APIs.
  device = _get_pg_default_device(group)

 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                        | 271/496 [1:28:14<2:58:27, 47.59s/it]                                                                                                                                                                                                                                             {'loss': '1.441', 'grad_norm': '1.134', 'learning_rate': '8.611e-05', 'ppl': '4.226', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '140', 'tokens/total': 555008, 'tokens/trainable': 548595, 'epoch': '3.117'}
 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                        | 271/496 [1:28:14<2:58:27, 47.59s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                       | 272/496 [1:28:29<2:20:52, 37.74s/it]                                                                                                                                                                                                                                             {'loss': '1.419', 'grad_norm': '1.184', 'learning_rate': '8.548e-05', 'ppl': '4.134', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '138.8', 'tokens/total': 557056, 'tokens/trainable': 550640, 'epoch': '3.119'}
 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                       | 272/496 [1:28:29<2:20:52, 37.74s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                       | 273/496 [1:28:43<1:54:28, 30.80s/it]                                                                                                                                                                                                                                             {'loss': '1.569', 'grad_norm': '1.147', 'learning_rate': '8.486e-05', 'ppl': '4.804', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '139.3', 'tokens/total': 559104, 'tokens/trainable': 552674, 'epoch': '3.121'}
 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                       | 273/496 [1:28:43<1:54:28, 30.80s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 274/496 [1:28:58<1:35:57, 25.93s/it]                                                                                                                                                                                                                                             {'loss': '1.933', 'grad_norm': '1.357', 'learning_rate': '8.423e-05', 'ppl': '6.909', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '137.9', 'tokens/total': 561152, 'tokens/trainable': 554682, 'epoch': '3.123'}
 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 274/496 [1:28:58<1:35:57, 25.93s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 275/496 [1:29:12<1:22:44, 22.46s/it]                                                                                                                                                                                                                                             {'loss': '1.387', 'grad_norm': '1.199', 'learning_rate': '8.361e-05', 'ppl': '4.003', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '140.6', 'tokens/total': 563200, 'tokens/trainable': 556700, 'epoch': '3.125'}
 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 275/496 [1:29:12<1:22:44, 22.46s/it] 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 276/496 [1:29:27<1:13:24, 20.02s/it]                                                                                                                                                                                                                                             {'loss': '1.577', 'grad_norm': '1.22', 'learning_rate': '8.298e-05', 'ppl': '4.838', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '140.1', 'tokens/total': 565248, 'tokens/trainable': 558705, 'epoch': '3.127'}
 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 276/496 [1:29:27<1:13:24, 20.02s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 277/496 [1:29:41<1:06:58, 18.35s/it]                                                                                                                                                                                                                                             {'loss': '1.916', 'grad_norm': '1.462', 'learning_rate': '8.236e-05', 'ppl': '6.791', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '139.6', 'tokens/total': 567296, 'tokens/trainable': 560720, 'epoch': '3.129'}
 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 277/496 [1:29:41<1:06:58, 18.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 278/496 [1:29:55<1:02:16, 17.14s/it]                                                                                                                                                                                                                                             {'loss': '1.529', 'grad_norm': '1.247', 'learning_rate': '8.173e-05', 'ppl': '4.613', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '143.1', 'tokens/total': 569344, 'tokens/trainable': 562768, 'epoch': '3.131'}
 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 278/496 [1:29:55<1:02:16, 17.14s/it] 56%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 279/496 [1:30:10<59:26, 16.44s/it]                                                                                                                                                                                                                                             {'loss': '1.36', 'grad_norm': '1.198', 'learning_rate': '8.111e-05', 'ppl': '3.897', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '137.7', 'tokens/total': 571392, 'tokens/trainable': 564802, 'epoch': '3.133'}
 56%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 279/496 [1:30:10<59:26, 16.44s/it] 56%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 280/496 [1:30:25<57:21, 15.93s/it]                                                                                                                                                                                                                                             {'loss': '1.545', 'grad_norm': '1.277', 'learning_rate': '8.049e-05', 'ppl': '4.686', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '136.3', 'tokens/total': 573440, 'tokens/trainable': 566813, 'epoch': '3.135'}
 56%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 280/496 [1:30:25<57:21, 15.93s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                     | 281/496 [1:30:40<55:47, 15.57s/it]                                                                                                                                                                                                                                             {'loss': '1.214', 'grad_norm': '1.213', 'learning_rate': '7.987e-05', 'ppl': '3.368', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '134.7', 'tokens/total': 575488, 'tokens/trainable': 568792, 'epoch': '3.137'}
 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                     | 281/496 [1:30:40<55:47, 15.57s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 282/496 [1:30:54<54:25, 15.26s/it]                                                                                                                                                                                                                                             {'loss': '1.242', 'grad_norm': '1.045', 'learning_rate': '7.925e-05', 'ppl': '3.462', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '137.7', 'tokens/total': 577536, 'tokens/trainable': 570791, 'epoch': '3.139'}
 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 282/496 [1:30:54<54:25, 15.26s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 283/496 [1:31:08<53:02, 14.94s/it]                                                                                                                                                                                                                                             {'loss': '1.599', 'grad_norm': '1.3', 'learning_rate': '7.863e-05', 'ppl': '4.949', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '134.3', 'tokens/total': 579584, 'tokens/trainable': 572699, 'epoch': '3.141'}
 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 283/496 [1:31:08<53:02, 14.94s/it] 57%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 284/496 [1:31:23<52:42, 14.92s/it]                                                                                                                                                                                                                                             {'loss': '1.243', 'grad_norm': '1.656', 'learning_rate': '7.801e-05', 'ppl': '3.466', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '104.4', 'tokens/total': 581632, 'tokens/trainable': 574221, 'epoch': '3.143'}
 57%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 284/496 [1:31:23<52:42, 14.92s/it][2026-01-25 18:22:15,955] [WARNING] [datasets.iterable_dataset._iter_pytorch:2405] [PID:2858] Too many dataloader workers: 2 (max is dataset.num_shards=1). Stopping 1 dataloader workers.
[2026-01-25 18:22:16,075] [WARNING] [datasets.iterable_dataset._iter_pytorch:2405] [PID:2864] Too many dataloader workers: 2 (max is dataset.num_shards=1). Stopping 1 dataloader workers.
[2026-01-25 18:22:16,272] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:2858] Loading dataset: Guilherme34/Dataset-for-updating-llm-to-be-aware-of-the-situation with base_type: pretrain and prompt_style: None
[2026-01-25 18:22:16,335] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:2864] Loading dataset: Guilherme34/Dataset-for-updating-llm-to-be-aware-of-the-situation with base_type: pretrain and prompt_style: None
Tokenizing Prompts (num_proc=54):   0%|                                                                                                                                                                       | 0/949 [00:00<?, ? examples/s]
Tokenizing Prompts (num_proc=54):   0%|                                                                                                                                                                       | 0/949 [00:00<?, ? examples/s][ATokenizing Prompts (num_proc=54):   2%|██▉                                                                                                                                                           | 18/949 [00:03<03:01,  5.14 examples/s]Tokenizing Prompts (num_proc=54):   4%|█████▉                                                                                                                                                        | 36/949 [00:03<01:17, 11.84 examples/s]Tokenizing Prompts (num_proc=54):   6%|████████▉                                                                                                                                                     | 54/949 [00:03<00:44, 20.00 examples/s]Tokenizing Prompts (num_proc=54):   8%|███████████▉                                                                                                                                                  | 72/949 [00:03<00:29, 30.09 examples/s]Tokenizing Prompts (num_proc=54):   9%|██████████████▉                                                                                                                                               | 90/949 [00:04<00:20, 42.40 examples/s]Tokenizing Prompts (num_proc=54):  11%|█████████████████▊                                                                                                                                           | 108/949 [00:04<00:15, 54.77 examples/s]Tokenizing Prompts (num_proc=54):  13%|████████████████████▊                                                                                                                                        | 126/949 [00:04<00:11, 70.31 examples/s]Tokenizing Prompts (num_proc=54):  15%|███████████████████████▊                                                                                                                                     | 144/949 [00:04<00:09, 82.66 examples/s]Tokenizing Prompts (num_proc=54):  17%|██████████████████████████▊                                                                                                                                  | 162/949 [00:04<00:08, 92.96 examples/s]Tokenizing Prompts (num_proc=54):  19%|█████████████████████████████▌                                                                                                                              | 180/949 [00:04<00:07, 102.46 examples/s]Tokenizing Prompts (num_proc=54):  21%|████████████████████████████████▌                                                                                                                           | 198/949 [00:04<00:06, 109.76 examples/s]Tokenizing Prompts (num_proc=54):  23%|███████████████████████████████████▌                                                                                                                        | 216/949 [00:04<00:06, 114.49 examples/s]Tokenizing Prompts (num_proc=54):  25%|██████████████████████████████████████▍                                                                                                                     | 234/949 [00:05<00:05, 120.60 examples/s]Tokenizing Prompts (num_proc=54):  27%|█████████████████████████████████████████▍                                                                                                                  | 252/949 [00:05<00:05, 123.27 examples/s]Tokenizing Prompts (num_proc=54):  28%|████████████████████████████████████████████▍                                                                                                               | 270/949 [00:05<00:05, 122.47 examples/s]Tokenizing Prompts (num_proc=54):  30%|███████████████████████████████████████████████▎                                                                                                            | 288/949 [00:05<00:05, 126.35 examples/s]Tokenizing Prompts (num_proc=54):  32%|██████████████████████████████████████████████████▎                                                                                                         | 306/949 [00:05<00:04, 129.03 examples/s]Tokenizing Prompts (num_proc=54):  34%|█████████████████████████████████████████████████████▎                                                                                                      | 324/949 [00:05<00:04, 128.81 examples/s]Tokenizing Prompts (num_proc=54):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 342/949 [00:05<00:04, 125.41 examples/s]Tokenizing Prompts (num_proc=54):  38%|███████████████████████████████████████████████████████████▏                                                                                                | 360/949 [00:06<00:04, 123.97 examples/s]
Tokenizing Prompts (num_proc=54):   2%|██▉                                                                                                                                                           | 18/949 [00:06<05:15,  2.96 examples/s][ATokenizing Prompts (num_proc=54):  40%|██████████████████████████████████████████████████████████████▏                                                                                             | 378/949 [00:06<00:04, 120.95 examples/s]
Tokenizing Prompts (num_proc=54):   4%|█████▉                                                                                                                                                        | 36/949 [00:06<02:11,  6.93 examples/s][ATokenizing Prompts (num_proc=54):  42%|█████████████████████████████████████████████████████████████████                                                                                           | 396/949 [00:06<00:04, 119.54 examples/s]
Tokenizing Prompts (num_proc=54):   6%|████████▉                                                                                                                                                     | 54/949 [00:06<01:13, 12.14 examples/s][ATokenizing Prompts (num_proc=54):  44%|████████████████████████████████████████████████████████████████████                                                                                        | 414/949 [00:06<00:04, 117.83 examples/s]
Tokenizing Prompts (num_proc=54):   8%|███████████▉                                                                                                                                                  | 72/949 [00:06<00:46, 18.82 examples/s][ATokenizing Prompts (num_proc=54):  46%|███████████████████████████████████████████████████████████████████████                                                                                     | 432/949 [00:06<00:04, 118.54 examples/s]
Tokenizing Prompts (num_proc=54):   9%|██████████████▉                                                                                                                                               | 90/949 [00:06<00:31, 27.02 examples/s][ATokenizing Prompts (num_proc=54):  47%|█████████████████████████████████████████████████████████████████████████▉                                                                                  | 450/949 [00:06<00:04, 118.74 examples/s]
Tokenizing Prompts (num_proc=54):  11%|█████████████████▊                                                                                                                                           | 108/949 [00:06<00:23, 36.56 examples/s][ATokenizing Prompts (num_proc=54):  49%|████████████████████████████████████████████████████████████████████████████▉                                                                               | 468/949 [00:07<00:03, 120.30 examples/s]
Tokenizing Prompts (num_proc=54):  13%|████████████████████▊                                                                                                                                        | 126/949 [00:07<00:17, 47.40 examples/s][ATokenizing Prompts (num_proc=54):  51%|███████████████████████████████████████████████████████████████████████████████▉                                                                            | 486/949 [00:07<00:03, 121.70 examples/s]
Tokenizing Prompts (num_proc=54):  15%|███████████████████████▊                                                                                                                                     | 144/949 [00:07<00:13, 58.47 examples/s][ATokenizing Prompts (num_proc=54):  53%|██████████████████████████████████████████████████████████████████████████████████▊                                                                         | 504/949 [00:07<00:03, 118.80 examples/s]
Tokenizing Prompts (num_proc=54):  17%|██████████████████████████▊                                                                                                                                  | 162/949 [00:07<00:11, 68.85 examples/s][ATokenizing Prompts (num_proc=54):  55%|█████████████████████████████████████████████████████████████████████████████████████▊                                                                      | 522/949 [00:07<00:03, 120.73 examples/s]
Tokenizing Prompts (num_proc=54):  19%|█████████████████████████████▊                                                                                                                               | 180/949 [00:07<00:09, 78.66 examples/s][ATokenizing Prompts (num_proc=54):  57%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 540/949 [00:07<00:03, 121.11 examples/s]
Tokenizing Prompts (num_proc=54):  21%|████████████████████████████████▊                                                                                                                            | 198/949 [00:07<00:08, 88.19 examples/s][ATokenizing Prompts (num_proc=54):  59%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                                | 558/949 [00:07<00:03, 119.75 examples/s]
Tokenizing Prompts (num_proc=54):  23%|███████████████████████████████████▋                                                                                                                         | 216/949 [00:07<00:07, 93.66 examples/s][ATokenizing Prompts (num_proc=54):  61%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                             | 575/949 [00:07<00:03, 115.59 examples/s]
Tokenizing Prompts (num_proc=54):  25%|██████████████████████████████████████▍                                                                                                                     | 234/949 [00:07<00:07, 100.02 examples/s][ATokenizing Prompts (num_proc=54):  62%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 592/949 [00:08<00:03, 118.20 examples/s]
Tokenizing Prompts (num_proc=54):  27%|█████████████████████████████████████████▍                                                                                                                  | 252/949 [00:08<00:06, 105.31 examples/s][ATokenizing Prompts (num_proc=54):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 609/949 [00:08<00:02, 115.19 examples/s]
Tokenizing Prompts (num_proc=54):  28%|████████████████████████████████████████████▍                                                                                                               | 270/949 [00:08<00:06, 107.31 examples/s][ATokenizing Prompts (num_proc=54):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 626/949 [00:08<00:02, 115.35 examples/s]
Tokenizing Prompts (num_proc=54):  30%|███████████████████████████████████████████████▎                                                                                                            | 288/949 [00:08<00:06, 108.01 examples/s][ATokenizing Prompts (num_proc=54):  68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 643/949 [00:08<00:02, 115.28 examples/s]
Tokenizing Prompts (num_proc=54):  32%|██████████████████████████████████████████████████▎                                                                                                         | 306/949 [00:08<00:05, 109.01 examples/s][ATokenizing Prompts (num_proc=54):  70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 660/949 [00:08<00:02, 112.20 examples/s]
Tokenizing Prompts (num_proc=54):  34%|█████████████████████████████████████████████████████▎                                                                                                      | 324/949 [00:08<00:05, 110.57 examples/s][ATokenizing Prompts (num_proc=54):  71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 677/949 [00:08<00:02, 113.83 examples/s]
Tokenizing Prompts (num_proc=54):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 342/949 [00:08<00:05, 112.99 examples/s][ATokenizing Prompts (num_proc=54):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                          | 694/949 [00:08<00:02, 113.32 examples/s]Tokenizing Prompts (num_proc=54):  75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 711/949 [00:09<00:02, 114.96 examples/s]
Tokenizing Prompts (num_proc=54):  38%|███████████████████████████████████████████████████████████▏                                                                                                | 360/949 [00:09<00:05, 114.40 examples/s][ATokenizing Prompts (num_proc=54):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 728/949 [00:09<00:01, 122.06 examples/s]
Tokenizing Prompts (num_proc=54):  40%|██████████████████████████████████████████████████████████████▏                                                                                             | 378/949 [00:09<00:04, 118.81 examples/s][ATokenizing Prompts (num_proc=54):  79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 745/949 [00:09<00:01, 122.11 examples/s]
Tokenizing Prompts (num_proc=54):  42%|█████████████████████████████████████████████████████████████████                                                                                           | 396/949 [00:09<00:04, 126.27 examples/s][ATokenizing Prompts (num_proc=54):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 762/949 [00:09<00:01, 120.67 examples/s]
Tokenizing Prompts (num_proc=54):  44%|████████████████████████████████████████████████████████████████████                                                                                        | 414/949 [00:09<00:04, 125.23 examples/s][ATokenizing Prompts (num_proc=54):  82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 779/949 [00:09<00:01, 118.96 examples/s]
Tokenizing Prompts (num_proc=54):  46%|███████████████████████████████████████████████████████████████████████                                                                                     | 432/949 [00:09<00:04, 120.19 examples/s][ATokenizing Prompts (num_proc=54):  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 796/949 [00:09<00:01, 118.96 examples/s]
Tokenizing Prompts (num_proc=54):  47%|█████████████████████████████████████████████████████████████████████████▉                                                                                  | 450/949 [00:09<00:04, 118.22 examples/s][ATokenizing Prompts (num_proc=54):  86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                      | 813/949 [00:09<00:01, 115.48 examples/s]
Tokenizing Prompts (num_proc=54):  49%|████████████████████████████████████████████████████████████████████████████▉                                                                               | 468/949 [00:09<00:04, 118.72 examples/s][ATokenizing Prompts (num_proc=54):  87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 830/949 [00:10<00:01, 115.41 examples/s]
Tokenizing Prompts (num_proc=54):  51%|███████████████████████████████████████████████████████████████████████████████▉                                                                            | 486/949 [00:10<00:03, 119.90 examples/s][ATokenizing Prompts (num_proc=54):  89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 847/949 [00:10<00:00, 114.35 examples/s]
Tokenizing Prompts (num_proc=54):  53%|██████████████████████████████████████████████████████████████████████████████████▊                                                                         | 504/949 [00:10<00:03, 119.14 examples/s][ATokenizing Prompts (num_proc=54):  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 864/949 [00:10<00:00, 113.52 examples/s]
Tokenizing Prompts (num_proc=54):  55%|█████████████████████████████████████████████████████████████████████████████████████▊                                                                      | 522/949 [00:10<00:03, 117.54 examples/s][ATokenizing Prompts (num_proc=54):  93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 881/949 [00:10<00:00, 118.31 examples/s]
Tokenizing Prompts (num_proc=54):  57%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 540/949 [00:10<00:03, 116.21 examples/s][A
Tokenizing Prompts (num_proc=54):  59%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                                | 558/949 [00:10<00:03, 115.68 examples/s][ATokenizing Prompts (num_proc=54):  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 915/949 [00:10<00:00, 128.63 examples/s]
Tokenizing Prompts (num_proc=54):  61%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                             | 575/949 [00:10<00:03, 114.21 examples/s][ATokenizing Prompts (num_proc=54):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 932/949 [00:10<00:00, 126.28 examples/s]Tokenizing Prompts (num_proc=54): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:11<00:00, 128.47 examples/s]
Tokenizing Prompts (num_proc=54):  62%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 592/949 [00:10<00:03, 118.97 examples/s][A
Tokenizing Prompts (num_proc=54):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 609/949 [00:11<00:02, 116.77 examples/s][A
Tokenizing Prompts (num_proc=54):  66%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                     | 626/949 [00:11<00:03, 91.72 examples/s][ATokenizing Prompts (num_proc=54): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:11<00:00, 81.61 examples/s]
Dropping Long Sequences:   0%|                                                                                                                                                                                | 0/949 [00:00<?, ? examples/s]
Tokenizing Prompts (num_proc=54):  70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 660/949 [00:11<00:02, 113.22 examples/s][A
Tokenizing Prompts (num_proc=54):  71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                             | 677/949 [00:11<00:03, 87.27 examples/s][A
Tokenizing Prompts (num_proc=54):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 694/949 [00:12<00:02, 92.60 examples/s][ADropping Long Sequences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:00<00:00, 1503.38 examples/s]Dropping Long Sequences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:00<00:00, 1441.67 examples/s]
Tokenizing Prompts (num_proc=54):  75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 711/949 [00:12<00:02, 100.57 examples/s][A
Tokenizing Prompts (num_proc=54):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 728/949 [00:12<00:02, 104.75 examples/s][A
Tokenizing Prompts (num_proc=54):  79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 745/949 [00:12<00:01, 110.44 examples/s][A
Tokenizing Prompts (num_proc=54):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 762/949 [00:12<00:01, 109.24 examples/s][A
Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                    | 0/936 [00:00<?, ? examples/s]
Tokenizing Prompts (num_proc=54):  82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 779/949 [00:12<00:01, 108.51 examples/s][A
Tokenizing Prompts (num_proc=54):  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 796/949 [00:12<00:01, 109.09 examples/s][A
Tokenizing Prompts (num_proc=54):  86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                      | 813/949 [00:13<00:01, 109.91 examples/s][A
Tokenizing Prompts (num_proc=54):  87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 830/949 [00:13<00:01, 112.27 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 936/936 [00:00<00:00, 1496.85 examples/s]Add position_id column (Pretraining Sample Packing): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 936/936 [00:00<00:00, 1428.66 examples/s]
Tokenizing Prompts (num_proc=54):  89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 847/949 [00:13<00:00, 110.94 examples/s][A
Tokenizing Prompts (num_proc=54):  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 864/949 [00:13<00:00, 114.00 examples/s][A
Tokenizing Prompts (num_proc=54):  93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 881/949 [00:13<00:00, 114.29 examples/s][A
Tokenizing Prompts (num_proc=54):  95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 898/949 [00:13<00:00, 114.50 examples/s][A
Tokenizing Prompts (num_proc=54):  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 915/949 [00:13<00:00, 121.52 examples/s][A
Tokenizing Prompts (num_proc=54):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 932/949 [00:14<00:00, 124.71 examples/s][A
[2026-01-25 18:22:30,793] [WARNING] [py.warnings._showwarnmsg:110] [PID:2858] /apool/venvi/lib/python3.13/site-packages/datasets/formatting/torch_formatter.py:222: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.detach().clone() or sourceTensor.detach().clone().requires_grad_(True), rather than torch.tensor(sourceTensor).
  return torch.tensor(value, **{**default_dtype, **self.torch_tensor_kwargs})


Tokenizing Prompts (num_proc=54): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:14<00:00, 117.29 examples/s][ATokenizing Prompts (num_proc=54): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:14<00:00, 63.63 examples/s]

Dropping Long Sequences:   0%|                                                                                                                                                                                | 0/949 [00:00<?, ? examples/s][A
Dropping Long Sequences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:00<00:00, 1479.10 examples/s][ADropping Long Sequences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:00<00:00, 1431.81 examples/s]

Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                    | 0/936 [00:00<?, ? examples/s][A
Add position_id column (Pretraining Sample Packing): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 936/936 [00:00<00:00, 1615.41 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 936/936 [00:00<00:00, 1558.11 examples/s]
[2026-01-25 18:22:33,178] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:2864] Using single process for pack_parallel, running sequentially.
[2026-01-25 18:22:34,030] [WARNING] [py.warnings._showwarnmsg:110] [PID:2864] /apool/venvi/lib/python3.13/site-packages/datasets/formatting/torch_formatter.py:222: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.detach().clone() or sourceTensor.detach().clone().requires_grad_(True), rather than torch.tensor(sourceTensor).
  return torch.tensor(value, **{**default_dtype, **self.torch_tensor_kwargs})

 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                  | 285/496 [1:31:56<1:11:30, 20.34s/it]                                                                                                                                                                                                                                             {'loss': '1.538', 'grad_norm': '1.274', 'learning_rate': '7.74e-05', 'ppl': '4.657', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '139.1', 'tokens/total': 583680, 'tokens/trainable': 576269, 'epoch': '4.002'}
 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                  | 285/496 [1:31:56<1:11:30, 20.34s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                  | 286/496 [1:32:11<1:05:06, 18.60s/it]                                                                                                                                                                                                                                             {'loss': '1.396', 'grad_norm': '1.291', 'learning_rate': '7.678e-05', 'ppl': '4.041', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '139.7', 'tokens/total': 585728, 'tokens/trainable': 578298, 'epoch': '4.004'}
 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                  | 286/496 [1:32:11<1:05:06, 18.60s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                  | 287/496 [1:32:20<54:31, 15.66s/it]                                                                                                                                                                                                                                             {'loss': '1.466', 'grad_norm': '1.231', 'learning_rate': '7.616e-05', 'ppl': '4.334', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '232.5', 'tokens/total': 587776, 'tokens/trainable': 580337, 'epoch': '4.006'}
 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                  | 287/496 [1:32:20<54:31, 15.66s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                  | 288/496 [1:32:27<46:03, 13.29s/it]                                                                                                                                                                                                                                             {'loss': '1.312', 'grad_norm': '1.191', 'learning_rate': '7.555e-05', 'ppl': '3.714', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '263.6', 'tokens/total': 589824, 'tokens/trainable': 582382, 'epoch': '4.008'}
 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                  | 288/496 [1:32:27<46:03, 13.29s/it] 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                 | 289/496 [1:32:35<40:00, 11.60s/it]                                                                                                                                                                                                                                             {'loss': '1.523', 'grad_norm': '1.372', 'learning_rate': '7.493e-05', 'ppl': '4.587', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '265.2', 'tokens/total': 591872, 'tokens/trainable': 584411, 'epoch': '4.01'}
 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                 | 289/496 [1:32:35<40:00, 11.60s/it] 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                 | 290/496 [1:32:43<35:44, 10.41s/it]                                                                                                                                                                                                                                             {'loss': '1.57', 'grad_norm': '1.274', 'learning_rate': '7.432e-05', 'ppl': '4.807', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '267.2', 'tokens/total': 593920, 'tokens/trainable': 586451, 'epoch': '4.012'}
 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                 | 290/496 [1:32:43<35:44, 10.41s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                 | 291/496 [1:32:51<33:01,  9.66s/it]                                                                                                                                                                                                                                             {'loss': '1.235', 'grad_norm': '1.184', 'learning_rate': '7.371e-05', 'ppl': '3.44', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '257.9', 'tokens/total': 595968, 'tokens/trainable': 588494, 'epoch': '4.014'}
 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                 | 291/496 [1:32:51<33:01,  9.66s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                | 292/496 [1:32:58<30:49,  9.07s/it]                                                                                                                                                                                                                                             {'loss': '1.76', 'grad_norm': '1.545', 'learning_rate': '7.31e-05', 'ppl': '5.811', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '266.9', 'tokens/total': 598016, 'tokens/trainable': 590539, 'epoch': '4.016'}
 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                | 292/496 [1:32:58<30:49,  9.07s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                | 293/496 [1:33:06<29:13,  8.64s/it]                                                                                                                                                                                                                                             {'loss': '1.204', 'grad_norm': '1.348', 'learning_rate': '7.249e-05', 'ppl': '3.335', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '266.3', 'tokens/total': 600064, 'tokens/trainable': 592573, 'epoch': '4.018'}
 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                | 293/496 [1:33:06<29:13,  8.64s/it] 59%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                               | 294/496 [1:33:14<28:09,  8.36s/it]                                                                                                                                                                                                                                             {'loss': '1.549', 'grad_norm': '1.317', 'learning_rate': '7.188e-05', 'ppl': '4.704', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262.5', 'tokens/total': 602112, 'tokens/trainable': 594600, 'epoch': '4.02'}
 59%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                               | 294/496 [1:33:14<28:09,  8.36s/it] 59%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                               | 295/496 [1:33:21<27:21,  8.17s/it]                                                                                                                                                                                                                                             {'loss': '1.212', 'grad_norm': '1.298', 'learning_rate': '7.127e-05', 'ppl': '3.36', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264.3', 'tokens/total': 604160, 'tokens/trainable': 596636, 'epoch': '4.022'}
 59%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                               | 295/496 [1:33:21<27:21,  8.17s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                               | 296/496 [1:33:29<26:47,  8.04s/it]                                                                                                                                                                                                                                             {'loss': '1.794', 'grad_norm': '1.495', 'learning_rate': '7.067e-05', 'ppl': '6.015', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262.5', 'tokens/total': 606208, 'tokens/trainable': 598664, 'epoch': '4.024'}
 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                               | 296/496 [1:33:29<26:47,  8.04s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                              | 297/496 [1:33:37<26:20,  7.94s/it]                                                                                                                                                                                                                                             {'loss': '1.154', 'grad_norm': '1.367', 'learning_rate': '7.006e-05', 'ppl': '3.172', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '263.6', 'tokens/total': 608256, 'tokens/trainable': 600701, 'epoch': '4.026'}
 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                              | 297/496 [1:33:37<26:20,  7.94s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                              | 298/496 [1:33:45<25:56,  7.86s/it]                                                                                                                                                                                                                                             {'loss': '1.552', 'grad_norm': '1.366', 'learning_rate': '6.946e-05', 'ppl': '4.719', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '266.2', 'tokens/total': 610304, 'tokens/trainable': 602742, 'epoch': '4.028'}
 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                              | 298/496 [1:33:45<25:56,  7.86s/it] 60%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                             | 299/496 [1:33:52<25:41,  7.82s/it]                                                                                                                                                                                                                                             {'loss': '1.614', 'grad_norm': '1.343', 'learning_rate': '6.886e-05', 'ppl': '5.021', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262.8', 'tokens/total': 612352, 'tokens/trainable': 604776, 'epoch': '4.03'}
 60%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                             | 299/496 [1:33:52<25:41,  7.82s/it] 60%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                             | 300/496 [1:34:00<25:27,  7.80s/it]                                                                                                                                                                                                                                             {'loss': '0.9371', 'grad_norm': '1.181', 'learning_rate': '6.826e-05', 'ppl': '2.553', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '263.6', 'tokens/total': 614400, 'tokens/trainable': 606812, 'epoch': '4.032'}
 60%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                             | 300/496 [1:34:00<25:27,  7.80s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                             | 301/496 [1:34:08<25:19,  7.79s/it]                                                                                                                                                                                                                                             {'loss': '1.346', 'grad_norm': '1.354', 'learning_rate': '6.766e-05', 'ppl': '3.841', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '261.9', 'tokens/total': 616448, 'tokens/trainable': 608850, 'epoch': '4.034'}
 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                             | 301/496 [1:34:08<25:19,  7.79s/it] 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 302/496 [1:34:15<25:00,  7.74s/it]                                                                                                                                                                                                                                             {'loss': '1.293', 'grad_norm': '1.272', 'learning_rate': '6.706e-05', 'ppl': '3.644', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '268.3', 'tokens/total': 618496, 'tokens/trainable': 610889, 'epoch': '4.036'}
 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 302/496 [1:34:15<25:00,  7.74s/it] 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                            | 303/496 [1:34:23<24:44,  7.69s/it]                                                                                                                                                                                                                                             {'loss': '1.442', 'grad_norm': '1.365', 'learning_rate': '6.646e-05', 'ppl': '4.23', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '268.7', 'tokens/total': 620544, 'tokens/trainable': 612927, 'epoch': '4.038'}
 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                            | 303/496 [1:34:23<24:44,  7.69s/it] 61%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                           | 304/496 [1:34:31<24:31,  7.66s/it]                                                                                                                                                                                                                                             {'loss': '1.259', 'grad_norm': '1.235', 'learning_rate': '6.586e-05', 'ppl': '3.521', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '268.4', 'tokens/total': 622592, 'tokens/trainable': 614966, 'epoch': '4.04'}
 61%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                           | 304/496 [1:34:31<24:31,  7.66s/it] 61%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                           | 305/496 [1:34:38<24:20,  7.65s/it]                                                                                                                                                                                                                                             {'loss': '1.691', 'grad_norm': '1.355', 'learning_rate': '6.527e-05', 'ppl': '5.424', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '268.4', 'tokens/total': 624640, 'tokens/trainable': 617010, 'epoch': '4.042'}
 61%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                           | 305/496 [1:34:38<24:20,  7.65s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                           | 306/496 [1:34:46<24:13,  7.65s/it]                                                                                                                                                                                                                                             {'loss': '1.833', 'grad_norm': '1.47', 'learning_rate': '6.468e-05', 'ppl': '6.253', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '265.4', 'tokens/total': 626688, 'tokens/trainable': 619042, 'epoch': '4.044'}
 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                           | 306/496 [1:34:46<24:13,  7.65s/it] 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                          | 307/496 [1:34:54<24:08,  7.67s/it]                                                                                                                                                                                                                                             {'loss': '1.683', 'grad_norm': '1.399', 'learning_rate': '6.408e-05', 'ppl': '5.38', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '263.1', 'tokens/total': 628736, 'tokens/trainable': 621066, 'epoch': '4.046'}
 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                          | 307/496 [1:34:54<24:08,  7.67s/it] 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                          | 308/496 [1:35:01<24:01,  7.67s/it]                                                                                                                                                                                                                                             {'loss': '1.679', 'grad_norm': '1.559', 'learning_rate': '6.349e-05', 'ppl': '5.36', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '265.5', 'tokens/total': 630784, 'tokens/trainable': 623102, 'epoch': '4.048'}
 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                          | 308/496 [1:35:01<24:01,  7.67s/it] 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                          | 309/496 [1:35:09<23:58,  7.69s/it]                                                                                                                                                                                                                                             {'loss': '1.2', 'grad_norm': '1.292', 'learning_rate': '6.291e-05', 'ppl': '3.319', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '263.4', 'tokens/total': 632832, 'tokens/trainable': 625144, 'epoch': '4.05'}
 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                          | 309/496 [1:35:09<23:58,  7.69s/it] 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                         | 310/496 [1:35:17<23:54,  7.71s/it]                                                                                                                                                                                                                                             {'loss': '1.376', 'grad_norm': '1.449', 'learning_rate': '6.232e-05', 'ppl': '3.96', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262.1', 'tokens/total': 634880, 'tokens/trainable': 627175, 'epoch': '4.052'}
 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                         | 310/496 [1:35:17<23:54,  7.71s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                         | 311/496 [1:35:24<23:49,  7.73s/it]                                                                                                                                                                                                                                             {'loss': '1.256', 'grad_norm': '1.438', 'learning_rate': '6.173e-05', 'ppl': '3.51', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262.9', 'tokens/total': 636928, 'tokens/trainable': 629214, 'epoch': '4.054'}
 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                         | 311/496 [1:35:24<23:49,  7.73s/it] 63%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                        | 312/496 [1:35:32<23:41,  7.73s/it]                                                                                                                                                                                                                                             {'loss': '1.333', 'grad_norm': '1.373', 'learning_rate': '6.115e-05', 'ppl': '3.792', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264.5', 'tokens/total': 638976, 'tokens/trainable': 631258, 'epoch': '4.056'}
 63%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                        | 312/496 [1:35:32<23:41,  7.73s/it] 63%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                        | 313/496 [1:35:40<23:34,  7.73s/it]                                                                                                                                                                                                                                             {'loss': '1.654', 'grad_norm': '1.698', 'learning_rate': '6.056e-05', 'ppl': '5.23', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262.3', 'tokens/total': 641024, 'tokens/trainable': 633287, 'epoch': '4.058'}
 63%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                        | 313/496 [1:35:40<23:34,  7.73s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                        | 314/496 [1:35:48<23:22,  7.71s/it]                                                                                                                                                                                                                                             {'loss': '1.264', 'grad_norm': '1.443', 'learning_rate': '5.998e-05', 'ppl': '3.539', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '266.3', 'tokens/total': 643072, 'tokens/trainable': 635323, 'epoch': '4.06'}
 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                        | 314/496 [1:35:48<23:22,  7.71s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                       | 315/496 [1:35:55<23:12,  7.69s/it]                                                                                                                                                                                                                                             {'loss': '1.515', 'grad_norm': '1.373', 'learning_rate': '5.94e-05', 'ppl': '4.548', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '265.2', 'tokens/total': 645120, 'tokens/trainable': 637355, 'epoch': '4.062'}
 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                       | 315/496 [1:35:55<23:12,  7.69s/it][2026-01-25 18:26:47,727] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:822: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  prev_state_dict_settings = FullyShardedDataParallel.set_state_dict_type(

[2026-01-25 18:27:35,790] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:829: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  FullyShardedDataParallel.set_state_dict_type(

[2026-01-25 18:27:35,799] [INFO] [axolotl.core.trainers.base._save:721] [PID:796] Saving model checkpoint to ./outputs/qlora-out/checkpoint-315
[2026-01-25 18:28:33,025] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/_optim_utils.py:1190: UserWarning: `_get_pg_default_device` will be deprecated, it only stays for backward-compatiblity reason. If you need to find a device for object collectives, please use `_get_object_coll_device`. If you need to query the device types supported by group, please use `_device_capability(group)`. 
  device = _get_pg_default_device(group)

[2026-01-25 18:28:33,026] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/_optim_utils.py:1190: UserWarning: Multiple backends are registered with this ProcessGroup. We cannot determine which one is the default. Returning cpu. Please consider using other APIs.
  device = _get_pg_default_device(group)

 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                      | 316/496 [1:37:49<1:58:18, 39.44s/it]                                                                                                                                                                                                                                             {'loss': '1.249', 'grad_norm': '1.308', 'learning_rate': '5.883e-05', 'ppl': '3.487', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '254.6', 'tokens/total': 647168, 'tokens/trainable': 639396, 'epoch': '4.065'}
 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                      | 316/496 [1:37:49<1:58:18, 39.44s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                      | 317/496 [1:37:56<1:29:11, 29.90s/it]                                                                                                                                                                                                                                             {'loss': '1.153', 'grad_norm': '1.326', 'learning_rate': '5.825e-05', 'ppl': '3.168', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '265.8', 'tokens/total': 649216, 'tokens/trainable': 641426, 'epoch': '4.067'}
 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                      | 317/496 [1:37:56<1:29:11, 29.90s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                     | 318/496 [1:38:04<1:08:59, 23.25s/it]                                                                                                                                                                                                                                             {'loss': '1.267', 'grad_norm': '1.449', 'learning_rate': '5.767e-05', 'ppl': '3.55', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262.3', 'tokens/total': 651264, 'tokens/trainable': 643458, 'epoch': '4.069'}
 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                     | 318/496 [1:38:04<1:08:59, 23.25s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                      | 319/496 [1:38:12<54:49, 18.59s/it]                                                                                                                                                                                                                                             {'loss': '1.062', 'grad_norm': '1.408', 'learning_rate': '5.71e-05', 'ppl': '2.892', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '263', 'tokens/total': 653312, 'tokens/trainable': 645481, 'epoch': '4.071'}
 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                      | 319/496 [1:38:12<54:49, 18.59s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                     | 320/496 [1:38:20<44:56, 15.32s/it]                                                                                                                                                                                                                                             {'loss': '1.279', 'grad_norm': '1.421', 'learning_rate': '5.653e-05', 'ppl': '3.593', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264.3', 'tokens/total': 655360, 'tokens/trainable': 647514, 'epoch': '4.073'}
 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                     | 320/496 [1:38:20<44:56, 15.32s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                     | 321/496 [1:38:27<38:02, 13.04s/it]                                                                                                                                                                                                                                             {'loss': '1.419', 'grad_norm': '1.496', 'learning_rate': '5.596e-05', 'ppl': '4.132', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264.9', 'tokens/total': 657408, 'tokens/trainable': 649562, 'epoch': '4.075'}
 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                     | 321/496 [1:38:27<38:02, 13.04s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                    | 322/496 [1:38:35<33:11, 11.44s/it]                                                                                                                                                                                                                                             {'loss': '1.686', 'grad_norm': '1.534', 'learning_rate': '5.539e-05', 'ppl': '5.396', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264.2', 'tokens/total': 659456, 'tokens/trainable': 651599, 'epoch': '4.077'}
 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                    | 322/496 [1:38:35<33:11, 11.44s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                    | 323/496 [1:38:43<29:46, 10.33s/it]                                                                                                                                                                                                                                             {'loss': '1.578', 'grad_norm': '1.442', 'learning_rate': '5.483e-05', 'ppl': '4.847', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '265', 'tokens/total': 661504, 'tokens/trainable': 653646, 'epoch': '4.079'}
 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                    | 323/496 [1:38:43<29:46, 10.33s/it] 65%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                    | 324/496 [1:38:50<27:23,  9.56s/it]                                                                                                                                                                                                                                             {'loss': '1.631', 'grad_norm': '1.542', 'learning_rate': '5.426e-05', 'ppl': '5.11', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262.6', 'tokens/total': 663552, 'tokens/trainable': 655681, 'epoch': '4.081'}
 65%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                    | 324/496 [1:38:50<27:23,  9.56s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                   | 325/496 [1:38:58<25:41,  9.02s/it]                                                                                                                                                                                                                                             {'loss': '1.576', 'grad_norm': '1.625', 'learning_rate': '5.37e-05', 'ppl': '4.836', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262.3', 'tokens/total': 665600, 'tokens/trainable': 657716, 'epoch': '4.083'}
 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                   | 325/496 [1:38:58<25:41,  9.02s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 326/496 [1:39:06<24:27,  8.63s/it]                                                                                                                                                                                                                                             {'loss': '1.213', 'grad_norm': '1.564', 'learning_rate': '5.314e-05', 'ppl': '3.364', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '260.5', 'tokens/total': 667648, 'tokens/trainable': 659728, 'epoch': '4.085'}
 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 326/496 [1:39:06<24:27,  8.63s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                  | 327/496 [1:39:14<23:39,  8.40s/it]                                                                                                                                                                                                                                             {'loss': '1.085', 'grad_norm': '1.287', 'learning_rate': '5.258e-05', 'ppl': '2.959', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '257.3', 'tokens/total': 669696, 'tokens/trainable': 661749, 'epoch': '4.087'}
 66%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                  | 327/496 [1:39:14<23:39,  8.40s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                  | 328/496 [1:39:21<22:51,  8.16s/it]                                                                                                                                                                                                                                             {'loss': '1.311', 'grad_norm': '1.399', 'learning_rate': '5.202e-05', 'ppl': '3.71', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '267.9', 'tokens/total': 671744, 'tokens/trainable': 663790, 'epoch': '4.089'}
 66%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                  | 328/496 [1:39:21<22:51,  8.16s/it] 66%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                  | 329/496 [1:39:29<22:14,  7.99s/it]                                                                                                                                                                                                                                             {'loss': '1.142', 'grad_norm': '1.243', 'learning_rate': '5.147e-05', 'ppl': '3.132', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '266.3', 'tokens/total': 673792, 'tokens/trainable': 665811, 'epoch': '4.091'}
 66%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                  | 329/496 [1:39:29<22:14,  7.99s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 330/496 [1:39:37<21:53,  7.91s/it]                                                                                                                                                                                                                                             {'loss': '1.152', 'grad_norm': '1.293', 'learning_rate': '5.092e-05', 'ppl': '3.164', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264', 'tokens/total': 675840, 'tokens/trainable': 667848, 'epoch': '4.093'}
 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 330/496 [1:39:37<21:53,  7.91s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                 | 331/496 [1:39:44<21:31,  7.83s/it]                                                                                                                                                                                                                                             {'loss': '1.43', 'grad_norm': '1.507', 'learning_rate': '5.037e-05', 'ppl': '4.18', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '266.8', 'tokens/total': 677888, 'tokens/trainable': 669886, 'epoch': '4.095'}
 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                 | 331/496 [1:39:44<21:31,  7.83s/it] 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                | 332/496 [1:39:52<21:16,  7.78s/it]                                                                                                                                                                                                                                             {'loss': '1.34', 'grad_norm': '1.312', 'learning_rate': '4.982e-05', 'ppl': '3.819', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '266.2', 'tokens/total': 679936, 'tokens/trainable': 671928, 'epoch': '4.097'}
 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                | 332/496 [1:39:52<21:16,  7.78s/it] 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                | 333/496 [1:40:00<21:01,  7.74s/it]                                                                                                                                                                                                                                             {'loss': '1.424', 'grad_norm': '1.338', 'learning_rate': '4.927e-05', 'ppl': '4.152', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264.5', 'tokens/total': 681984, 'tokens/trainable': 673948, 'epoch': '4.099'}
 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                | 333/496 [1:40:00<21:01,  7.74s/it] 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                | 334/496 [1:40:07<20:55,  7.75s/it]                                                                                                                                                                                                                                             {'loss': '1.109', 'grad_norm': '1.311', 'learning_rate': '4.873e-05', 'ppl': '3.031', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '260.7', 'tokens/total': 684032, 'tokens/trainable': 675973, 'epoch': '4.101'}
 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                | 334/496 [1:40:07<20:55,  7.75s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                               | 335/496 [1:40:15<21:01,  7.83s/it]                                                                                                                                                                                                                                             {'loss': '1.243', 'grad_norm': '1.454', 'learning_rate': '4.818e-05', 'ppl': '3.466', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '253.6', 'tokens/total': 686080, 'tokens/trainable': 678009, 'epoch': '4.103'}
 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                               | 335/496 [1:40:15<21:01,  7.83s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                               | 336/496 [1:40:23<20:48,  7.81s/it]                                                                                                                                                                                                                                             {'loss': '1.492', 'grad_norm': '1.488', 'learning_rate': '4.764e-05', 'ppl': '4.446', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '263.8', 'tokens/total': 688128, 'tokens/trainable': 680047, 'epoch': '4.105'}
 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                               | 336/496 [1:40:23<20:48,  7.81s/it] 68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                              | 337/496 [1:40:31<20:36,  7.77s/it]                                                                                                                                                                                                                                             {'loss': '1.367', 'grad_norm': '1.486', 'learning_rate': '4.71e-05', 'ppl': '3.924', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264.3', 'tokens/total': 690176, 'tokens/trainable': 682082, 'epoch': '4.107'}
 68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                              | 337/496 [1:40:31<20:36,  7.77s/it] 68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                              | 338/496 [1:40:39<20:23,  7.75s/it]                                                                                                                                                                                                                                             {'loss': '1.28', 'grad_norm': '1.544', 'learning_rate': '4.657e-05', 'ppl': '3.597', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '263.4', 'tokens/total': 692224, 'tokens/trainable': 684104, 'epoch': '4.109'}
 68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                              | 338/496 [1:40:39<20:23,  7.75s/it] 68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                              | 339/496 [1:40:46<20:10,  7.71s/it]                                                                                                                                                                                                                                             {'loss': '1.544', 'grad_norm': '1.569', 'learning_rate': '4.603e-05', 'ppl': '4.681', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '266.3', 'tokens/total': 694272, 'tokens/trainable': 686136, 'epoch': '4.111'}
 68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                              | 339/496 [1:40:46<20:10,  7.71s/it] 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                             | 340/496 [1:40:54<19:56,  7.67s/it]                                                                                                                                                                                                                                             {'loss': '1.068', 'grad_norm': '1.375', 'learning_rate': '4.55e-05', 'ppl': '2.908', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '269.5', 'tokens/total': 696320, 'tokens/trainable': 688177, 'epoch': '4.113'}
 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                             | 340/496 [1:40:54<19:56,  7.67s/it] 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                             | 341/496 [1:41:01<19:46,  7.66s/it]                                                                                                                                                                                                                                             {'loss': '1.16', 'grad_norm': '1.692', 'learning_rate': '4.497e-05', 'ppl': '3.189', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264.8', 'tokens/total': 698368, 'tokens/trainable': 690191, 'epoch': '4.115'}
 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                             | 341/496 [1:41:01<19:46,  7.66s/it] 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 342/496 [1:41:09<19:46,  7.71s/it]                                                                                                                                                                                                                                             {'loss': '1.553', 'grad_norm': '1.511', 'learning_rate': '4.444e-05', 'ppl': '4.723', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '259.5', 'tokens/total': 700416, 'tokens/trainable': 692221, 'epoch': '4.117'}
 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 342/496 [1:41:09<19:46,  7.71s/it] 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                            | 343/496 [1:41:17<19:49,  7.78s/it]                                                                                                                                                                                                                                             {'loss': '1.606', 'grad_norm': '1.63', 'learning_rate': '4.392e-05', 'ppl': '4.981', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '253.6', 'tokens/total': 702464, 'tokens/trainable': 694233, 'epoch': '4.119'}
 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                            | 343/496 [1:41:17<19:49,  7.78s/it] 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                            | 344/496 [1:41:25<19:48,  7.82s/it]                                                                                                                                                                                                                                             {'loss': '1.365', 'grad_norm': '1.424', 'learning_rate': '4.339e-05', 'ppl': '3.916', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '258.4', 'tokens/total': 704512, 'tokens/trainable': 696278, 'epoch': '4.121'}
 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                            | 344/496 [1:41:25<19:48,  7.82s/it] 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                           | 345/496 [1:41:33<19:39,  7.81s/it]                                                                                                                                                                                                                                             {'loss': '1.771', 'grad_norm': '1.619', 'learning_rate': '4.287e-05', 'ppl': '5.875', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '261.6', 'tokens/total': 706560, 'tokens/trainable': 698318, 'epoch': '4.123'}
 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                           | 345/496 [1:41:33<19:39,  7.81s/it] 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                           | 346/496 [1:41:41<19:33,  7.82s/it]                                                                                                                                                                                                                                             {'loss': '1.205', 'grad_norm': '1.405', 'learning_rate': '4.235e-05', 'ppl': '3.336', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '258.8', 'tokens/total': 708608, 'tokens/trainable': 700346, 'epoch': '4.125'}
 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                           | 346/496 [1:41:41<19:33,  7.82s/it] 70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                           | 347/496 [1:41:49<19:24,  7.82s/it]                                                                                                                                                                                                                                             {'loss': '2.005', 'grad_norm': '1.78', 'learning_rate': '4.184e-05', 'ppl': '7.43', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '258.8', 'tokens/total': 710656, 'tokens/trainable': 702366, 'epoch': '4.127'}
 70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                           | 347/496 [1:41:49<19:24,  7.82s/it] 70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 348/496 [1:41:56<19:17,  7.82s/it]                                                                                                                                                                                                                                             {'loss': '1.165', 'grad_norm': '1.339', 'learning_rate': '4.132e-05', 'ppl': '3.205', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '255.7', 'tokens/total': 712704, 'tokens/trainable': 704367, 'epoch': '4.129'}
 70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 348/496 [1:41:56<19:17,  7.82s/it] 70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                          | 349/496 [1:42:04<19:11,  7.83s/it]                                                                                                                                                                                                                                             {'loss': '1.142', 'grad_norm': '1.276', 'learning_rate': '4.081e-05', 'ppl': '3.135', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '257.9', 'tokens/total': 714752, 'tokens/trainable': 706393, 'epoch': '4.131'}
 70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                          | 349/496 [1:42:04<19:11,  7.83s/it] 71%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                         | 350/496 [1:42:12<19:02,  7.82s/it]                                                                                                                                                                                                                                             {'loss': '1.41', 'grad_norm': '1.41', 'learning_rate': '4.03e-05', 'ppl': '4.094', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '257.1', 'tokens/total': 716800, 'tokens/trainable': 708399, 'epoch': '4.133'}
 71%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                         | 350/496 [1:42:12<19:02,  7.82s/it] 71%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                         | 351/496 [1:42:20<18:49,  7.79s/it]                                                                                                                                                                                                                                             {'loss': '1.317', 'grad_norm': '1.315', 'learning_rate': '3.98e-05', 'ppl': '3.731', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262.6', 'tokens/total': 718848, 'tokens/trainable': 710426, 'epoch': '4.135'}
 71%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                         | 351/496 [1:42:20<18:49,  7.79s/it] 71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                         | 352/496 [1:42:27<18:39,  7.78s/it]                                                                                                                                                                                                                                             {'loss': '1.356', 'grad_norm': '1.353', 'learning_rate': '3.929e-05', 'ppl': '3.881', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '258.3', 'tokens/total': 720896, 'tokens/trainable': 712423, 'epoch': '4.137'}
 71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                         | 352/496 [1:42:27<18:39,  7.78s/it] 71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                        | 353/496 [1:42:35<18:30,  7.77s/it]                                                                                                                                                                                                                                             {'loss': '1.267', 'grad_norm': '1.363', 'learning_rate': '3.879e-05', 'ppl': '3.55', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '261.5', 'tokens/total': 722944, 'tokens/trainable': 714448, 'epoch': '4.139'}
 71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                        | 353/496 [1:42:35<18:30,  7.77s/it] 71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                        | 354/496 [1:42:43<18:25,  7.78s/it]                                                                                                                                                                                                                                             {'loss': '1.553', 'grad_norm': '1.336', 'learning_rate': '3.829e-05', 'ppl': '4.726', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '254.3', 'tokens/total': 724992, 'tokens/trainable': 716436, 'epoch': '4.141'}
 71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                        | 354/496 [1:42:43<18:25,  7.78s/it] 72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                       | 355/496 [1:42:51<18:36,  7.92s/it]                                                                                                                                                                                                                                             {'loss': '1.342', 'grad_norm': '1.565', 'learning_rate': '3.779e-05', 'ppl': '3.825', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '205.7', 'tokens/total': 727040, 'tokens/trainable': 718064, 'epoch': '4.143'}
 72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                       | 355/496 [1:42:51<18:36,  7.92s/it][2026-01-25 18:33:43,906] [WARNING] [datasets.iterable_dataset._iter_pytorch:2405] [PID:3332] Too many dataloader workers: 2 (max is dataset.num_shards=1). Stopping 1 dataloader workers.
[2026-01-25 18:33:44,063] [WARNING] [datasets.iterable_dataset._iter_pytorch:2405] [PID:3338] Too many dataloader workers: 2 (max is dataset.num_shards=1). Stopping 1 dataloader workers.
[2026-01-25 18:33:44,168] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:3332] Loading dataset: Guilherme34/Dataset-for-updating-llm-to-be-aware-of-the-situation with base_type: pretrain and prompt_style: None
[2026-01-25 18:33:44,321] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:3338] Loading dataset: Guilherme34/Dataset-for-updating-llm-to-be-aware-of-the-situation with base_type: pretrain and prompt_style: None
Tokenizing Prompts (num_proc=54):   0%|                                                                                                                                                                       | 0/949 [00:00<?, ? examples/s]
Tokenizing Prompts (num_proc=54):   0%|                                                                                                                                                                       | 0/949 [00:00<?, ? examples/s][ATokenizing Prompts (num_proc=54):   2%|██▉                                                                                                                                                           | 18/949 [00:03<03:00,  5.16 examples/s]Tokenizing Prompts (num_proc=54):   4%|█████▉                                                                                                                                                        | 36/949 [00:03<01:17, 11.85 examples/s]Tokenizing Prompts (num_proc=54):   6%|████████▉                                                                                                                                                     | 54/949 [00:03<00:44, 20.10 examples/s]Tokenizing Prompts (num_proc=54):   8%|███████████▉                                                                                                                                                  | 72/949 [00:03<00:29, 29.63 examples/s]Tokenizing Prompts (num_proc=54):   9%|██████████████▉                                                                                                                                               | 90/949 [00:04<00:20, 40.98 examples/s]Tokenizing Prompts (num_proc=54):  11%|█████████████████▊                                                                                                                                           | 108/949 [00:04<00:15, 52.80 examples/s]Tokenizing Prompts (num_proc=54):  13%|████████████████████▊                                                                                                                                        | 126/949 [00:04<00:12, 65.07 examples/s]Tokenizing Prompts (num_proc=54):  15%|███████████████████████▊                                                                                                                                     | 144/949 [00:04<00:10, 75.85 examples/s]Tokenizing Prompts (num_proc=54):  17%|██████████████████████████▊                                                                                                                                  | 162/949 [00:04<00:09, 85.88 examples/s]Tokenizing Prompts (num_proc=54):  19%|█████████████████████████████▊                                                                                                                               | 180/949 [00:04<00:08, 93.82 examples/s]Tokenizing Prompts (num_proc=54):  21%|████████████████████████████████▌                                                                                                                           | 198/949 [00:04<00:07, 102.48 examples/s]Tokenizing Prompts (num_proc=54):  23%|███████████████████████████████████▌                                                                                                                        | 216/949 [00:05<00:06, 105.49 examples/s]Tokenizing Prompts (num_proc=54):  25%|██████████████████████████████████████▍                                                                                                                     | 234/949 [00:05<00:06, 109.19 examples/s]Tokenizing Prompts (num_proc=54):  27%|█████████████████████████████████████████▍                                                                                                                  | 252/949 [00:05<00:06, 115.83 examples/s]Tokenizing Prompts (num_proc=54):  28%|████████████████████████████████████████████▍                                                                                                               | 270/949 [00:05<00:05, 118.16 examples/s]Tokenizing Prompts (num_proc=54):  30%|███████████████████████████████████████████████▎                                                                                                            | 288/949 [00:05<00:05, 118.40 examples/s]Tokenizing Prompts (num_proc=54):  32%|██████████████████████████████████████████████████▎                                                                                                         | 306/949 [00:05<00:05, 121.73 examples/s]Tokenizing Prompts (num_proc=54):  34%|█████████████████████████████████████████████████████▎                                                                                                      | 324/949 [00:05<00:05, 123.96 examples/s]Tokenizing Prompts (num_proc=54):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 342/949 [00:06<00:04, 126.93 examples/s]Tokenizing Prompts (num_proc=54):  38%|███████████████████████████████████████████████████████████▏                                                                                                | 360/949 [00:06<00:04, 126.91 examples/s]Tokenizing Prompts (num_proc=54):  40%|██████████████████████████████████████████████████████████████▏                                                                                             | 378/949 [00:06<00:04, 129.25 examples/s]Tokenizing Prompts (num_proc=54):  42%|█████████████████████████████████████████████████████████████████                                                                                           | 396/949 [00:06<00:04, 131.27 examples/s]Tokenizing Prompts (num_proc=54):  44%|████████████████████████████████████████████████████████████████████                                                                                        | 414/949 [00:06<00:04, 128.86 examples/s]Tokenizing Prompts (num_proc=54):  46%|███████████████████████████████████████████████████████████████████████                                                                                     | 432/949 [00:06<00:03, 129.74 examples/s]Tokenizing Prompts (num_proc=54):  47%|█████████████████████████████████████████████████████████████████████████▉                                                                                  | 450/949 [00:06<00:03, 127.44 examples/s]Tokenizing Prompts (num_proc=54):  49%|████████████████████████████████████████████████████████████████████████████▉                                                                               | 468/949 [00:07<00:03, 125.97 examples/s]Tokenizing Prompts (num_proc=54):  51%|███████████████████████████████████████████████████████████████████████████████▉                                                                            | 486/949 [00:07<00:03, 123.95 examples/s]Tokenizing Prompts (num_proc=54):  53%|██████████████████████████████████████████████████████████████████████████████████▊                                                                         | 504/949 [00:07<00:03, 122.27 examples/s]Tokenizing Prompts (num_proc=54):  55%|█████████████████████████████████████████████████████████████████████████████████████▊                                                                      | 522/949 [00:07<00:03, 120.01 examples/s]
Tokenizing Prompts (num_proc=54):   2%|██▉                                                                                                                                                           | 18/949 [00:07<06:23,  2.43 examples/s][ATokenizing Prompts (num_proc=54):  57%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 540/949 [00:07<00:03, 120.42 examples/s]
Tokenizing Prompts (num_proc=54):   4%|█████▉                                                                                                                                                        | 36/949 [00:07<02:39,  5.73 examples/s][ATokenizing Prompts (num_proc=54):  59%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                                | 558/949 [00:07<00:03, 121.01 examples/s]
Tokenizing Prompts (num_proc=54):   6%|████████▉                                                                                                                                                     | 54/949 [00:07<01:28, 10.08 examples/s][ATokenizing Prompts (num_proc=54):  61%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                             | 575/949 [00:08<00:03, 117.83 examples/s]
Tokenizing Prompts (num_proc=54):   8%|███████████▉                                                                                                                                                  | 72/949 [00:07<00:56, 15.65 examples/s][ATokenizing Prompts (num_proc=54):  62%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 592/949 [00:08<00:03, 116.73 examples/s]
Tokenizing Prompts (num_proc=54):   9%|██████████████▉                                                                                                                                               | 90/949 [00:08<00:38, 22.58 examples/s][ATokenizing Prompts (num_proc=54):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 609/949 [00:08<00:02, 116.08 examples/s]
Tokenizing Prompts (num_proc=54):  11%|█████████████████▊                                                                                                                                           | 108/949 [00:08<00:27, 30.76 examples/s][ATokenizing Prompts (num_proc=54):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 626/949 [00:08<00:02, 118.47 examples/s]Tokenizing Prompts (num_proc=54):  68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 643/949 [00:08<00:02, 116.33 examples/s]
Tokenizing Prompts (num_proc=54):  13%|████████████████████▊                                                                                                                                        | 126/949 [00:08<00:20, 40.20 examples/s][ATokenizing Prompts (num_proc=54):  70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 660/949 [00:08<00:02, 116.65 examples/s]
Tokenizing Prompts (num_proc=54):  15%|███████████████████████▊                                                                                                                                     | 144/949 [00:08<00:16, 49.94 examples/s][ATokenizing Prompts (num_proc=54):  71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 677/949 [00:08<00:02, 115.02 examples/s]
Tokenizing Prompts (num_proc=54):  17%|██████████████████████████▊                                                                                                                                  | 162/949 [00:08<00:13, 59.65 examples/s][ATokenizing Prompts (num_proc=54):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                          | 694/949 [00:09<00:02, 112.27 examples/s]
Tokenizing Prompts (num_proc=54):  19%|█████████████████████████████▊                                                                                                                               | 180/949 [00:08<00:11, 68.07 examples/s][ATokenizing Prompts (num_proc=54):  75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 711/949 [00:09<00:02, 110.99 examples/s]
Tokenizing Prompts (num_proc=54):  21%|████████████████████████████████▊                                                                                                                            | 198/949 [00:09<00:09, 76.35 examples/s][ATokenizing Prompts (num_proc=54):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 728/949 [00:09<00:01, 113.08 examples/s]
Tokenizing Prompts (num_proc=54):  23%|███████████████████████████████████▋                                                                                                                         | 216/949 [00:09<00:08, 83.13 examples/s][ATokenizing Prompts (num_proc=54):  79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 745/949 [00:09<00:01, 114.78 examples/s]
Tokenizing Prompts (num_proc=54):  25%|██████████████████████████████████████▋                                                                                                                      | 234/949 [00:09<00:07, 89.78 examples/s][ATokenizing Prompts (num_proc=54):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 762/949 [00:09<00:01, 112.59 examples/s]Tokenizing Prompts (num_proc=54):  82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 779/949 [00:09<00:01, 112.08 examples/s]
Tokenizing Prompts (num_proc=54):  27%|█████████████████████████████████████████▋                                                                                                                   | 252/949 [00:09<00:07, 93.10 examples/s][ATokenizing Prompts (num_proc=54):  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 796/949 [00:09<00:01, 112.40 examples/s]
Tokenizing Prompts (num_proc=54):  28%|████████████████████████████████████████████▋                                                                                                                | 270/949 [00:09<00:07, 94.99 examples/s][ATokenizing Prompts (num_proc=54):  86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                      | 813/949 [00:10<00:01, 112.41 examples/s]
Tokenizing Prompts (num_proc=54):  30%|███████████████████████████████████████████████▋                                                                                                             | 288/949 [00:09<00:06, 97.90 examples/s][ATokenizing Prompts (num_proc=54):  87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 830/949 [00:10<00:01, 111.37 examples/s]
Tokenizing Prompts (num_proc=54):  32%|██████████████████████████████████████████████████▎                                                                                                         | 306/949 [00:10<00:06, 100.61 examples/s][ATokenizing Prompts (num_proc=54):  89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 847/949 [00:10<00:00, 110.04 examples/s]
Tokenizing Prompts (num_proc=54):  34%|█████████████████████████████████████████████████████▎                                                                                                      | 324/949 [00:10<00:06, 101.82 examples/s][ATokenizing Prompts (num_proc=54):  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 864/949 [00:10<00:00, 109.75 examples/s]
Tokenizing Prompts (num_proc=54):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 342/949 [00:10<00:05, 103.95 examples/s][ATokenizing Prompts (num_proc=54):  93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 881/949 [00:10<00:00, 106.50 examples/s]
Tokenizing Prompts (num_proc=54):  38%|███████████████████████████████████████████████████████████▏                                                                                                | 360/949 [00:10<00:05, 103.74 examples/s][ATokenizing Prompts (num_proc=54):  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 915/949 [00:10<00:00, 127.24 examples/s]
Tokenizing Prompts (num_proc=54):  40%|██████████████████████████████████████████████████████████████▏                                                                                             | 378/949 [00:10<00:05, 106.83 examples/s][ATokenizing Prompts (num_proc=54):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 932/949 [00:11<00:00, 121.27 examples/s]
Tokenizing Prompts (num_proc=54):  42%|█████████████████████████████████████████████████████████████████                                                                                           | 396/949 [00:10<00:04, 111.84 examples/s][ATokenizing Prompts (num_proc=54): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:11<00:00, 120.17 examples/s]
Tokenizing Prompts (num_proc=54):  44%|████████████████████████████████████████████████████████████████████                                                                                        | 414/949 [00:11<00:04, 113.78 examples/s][A
Tokenizing Prompts (num_proc=54):  46%|███████████████████████████████████████████████████████████████████████                                                                                     | 432/949 [00:11<00:04, 111.90 examples/s][A
Tokenizing Prompts (num_proc=54):  47%|█████████████████████████████████████████████████████████████████████████▉                                                                                  | 450/949 [00:11<00:04, 102.42 examples/s][ATokenizing Prompts (num_proc=54): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:11<00:00, 80.12 examples/s]
Dropping Long Sequences:   0%|                                                                                                                                                                                | 0/949 [00:00<?, ? examples/s]
Tokenizing Prompts (num_proc=54):  49%|█████████████████████████████████████████████████████████████████████████████▍                                                                               | 468/949 [00:11<00:05, 93.17 examples/s][A
Tokenizing Prompts (num_proc=54):  53%|███████████████████████████████████████████████████████████████████████████████████▍                                                                         | 504/949 [00:12<00:04, 96.90 examples/s][A
Tokenizing Prompts (num_proc=54):  55%|█████████████████████████████████████████████████████████████████████████████████████▊                                                                      | 522/949 [00:12<00:04, 100.16 examples/s][ADropping Long Sequences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:00<00:00, 1510.04 examples/s]Dropping Long Sequences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:00<00:00, 1449.25 examples/s]
Tokenizing Prompts (num_proc=54):  57%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 540/949 [00:12<00:03, 108.37 examples/s][A
Tokenizing Prompts (num_proc=54):  59%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                                | 558/949 [00:12<00:03, 114.63 examples/s][A
Tokenizing Prompts (num_proc=54):  61%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                             | 575/949 [00:12<00:03, 111.79 examples/s][A
Tokenizing Prompts (num_proc=54):  62%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 592/949 [00:12<00:03, 114.48 examples/s][A
Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                    | 0/936 [00:00<?, ? examples/s]
Tokenizing Prompts (num_proc=54):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 609/949 [00:12<00:03, 112.46 examples/s][A
Tokenizing Prompts (num_proc=54):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 626/949 [00:13<00:02, 111.47 examples/s][A
Tokenizing Prompts (num_proc=54):  68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 643/949 [00:13<00:02, 110.07 examples/s][A
Tokenizing Prompts (num_proc=54):  70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 660/949 [00:13<00:02, 116.32 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 936/936 [00:00<00:00, 1618.43 examples/s]Add position_id column (Pretraining Sample Packing): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 936/936 [00:00<00:00, 1535.56 examples/s]
Tokenizing Prompts (num_proc=54):  71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 677/949 [00:13<00:02, 114.01 examples/s][A
Tokenizing Prompts (num_proc=54):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                          | 694/949 [00:13<00:02, 112.32 examples/s][A
Tokenizing Prompts (num_proc=54):  75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 711/949 [00:13<00:02, 111.02 examples/s][A
Tokenizing Prompts (num_proc=54):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 728/949 [00:14<00:02, 109.26 examples/s][A
Tokenizing Prompts (num_proc=54):  79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 745/949 [00:14<00:01, 108.13 examples/s][A
Tokenizing Prompts (num_proc=54):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 762/949 [00:14<00:01, 109.35 examples/s][A
[2026-01-25 18:33:58,907] [WARNING] [py.warnings._showwarnmsg:110] [PID:3332] /apool/venvi/lib/python3.13/site-packages/datasets/formatting/torch_formatter.py:222: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.detach().clone() or sourceTensor.detach().clone().requires_grad_(True), rather than torch.tensor(sourceTensor).
  return torch.tensor(value, **{**default_dtype, **self.torch_tensor_kwargs})


Tokenizing Prompts (num_proc=54):  82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 779/949 [00:14<00:01, 110.29 examples/s][A
Tokenizing Prompts (num_proc=54):  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 796/949 [00:14<00:01, 109.60 examples/s][A
Tokenizing Prompts (num_proc=54):  86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                      | 813/949 [00:14<00:01, 110.25 examples/s][A
Tokenizing Prompts (num_proc=54):  87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 830/949 [00:14<00:01, 110.88 examples/s][A
Tokenizing Prompts (num_proc=54):  89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 847/949 [00:15<00:00, 113.21 examples/s][A
Tokenizing Prompts (num_proc=54):  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 864/949 [00:15<00:00, 112.49 examples/s][A
Tokenizing Prompts (num_proc=54):  93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 881/949 [00:15<00:00, 111.01 examples/s][A
Tokenizing Prompts (num_proc=54):  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 915/949 [00:15<00:00, 129.66 examples/s][A
Tokenizing Prompts (num_proc=54):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 932/949 [00:15<00:00, 120.43 examples/s][A
Tokenizing Prompts (num_proc=54): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:15<00:00, 123.10 examples/s][ATokenizing Prompts (num_proc=54): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:16<00:00, 57.21 examples/s]

Dropping Long Sequences:   0%|                                                                                                                                                                                | 0/949 [00:00<?, ? examples/s][A
Dropping Long Sequences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:00<00:00, 1418.38 examples/s][ADropping Long Sequences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:00<00:00, 1380.37 examples/s]

Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                    | 0/936 [00:00<?, ? examples/s][A
Add position_id column (Pretraining Sample Packing): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 936/936 [00:00<00:00, 1495.66 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 936/936 [00:00<00:00, 1429.59 examples/s]
[2026-01-25 18:34:03,063] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:3338] Using single process for pack_parallel, running sequentially.
[2026-01-25 18:34:04,351] [WARNING] [py.warnings._showwarnmsg:110] [PID:3338] /apool/venvi/lib/python3.13/site-packages/datasets/formatting/torch_formatter.py:222: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.detach().clone() or sourceTensor.detach().clone().requires_grad_(True), rather than torch.tensor(sourceTensor).
  return torch.tensor(value, **{**default_dtype, **self.torch_tensor_kwargs})

 72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                       | 356/496 [1:43:20<32:55, 14.11s/it]                                                                                                                                                                                                                                             {'loss': '1.651', 'grad_norm': '1.532', 'learning_rate': '3.73e-05', 'ppl': '5.212', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '257', 'tokens/total': 729088, 'tokens/trainable': 720105, 'epoch': '5.002'}
 72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                       | 356/496 [1:43:20<32:55, 14.11s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                       | 357/496 [1:43:28<28:34, 12.33s/it]                                                                                                                                                                                                                                             {'loss': '1.42', 'grad_norm': '1.29', 'learning_rate': '3.681e-05', 'ppl': '4.139', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '247.5', 'tokens/total': 731136, 'tokens/trainable': 722129, 'epoch': '5.004'}
 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                       | 357/496 [1:43:28<28:34, 12.33s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                      | 358/496 [1:43:36<25:18, 11.00s/it]                                                                                                                                                                                                                                             {'loss': '1.418', 'grad_norm': '1.366', 'learning_rate': '3.632e-05', 'ppl': '4.129', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '258.8', 'tokens/total': 733184, 'tokens/trainable': 724173, 'epoch': '5.006'}
 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                      | 358/496 [1:43:36<25:18, 11.00s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                      | 359/496 [1:43:44<22:52, 10.02s/it]                                                                                                                                                                                                                                             {'loss': '1.353', 'grad_norm': '1.304', 'learning_rate': '3.583e-05', 'ppl': '3.868', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262.9', 'tokens/total': 735232, 'tokens/trainable': 726202, 'epoch': '5.008'}
 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                      | 359/496 [1:43:44<22:52, 10.02s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                     | 360/496 [1:43:51<21:05,  9.30s/it]                                                                                                                                                                                                                                             {'loss': '1.656', 'grad_norm': '1.38', 'learning_rate': '3.534e-05', 'ppl': '5.241', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '266.7', 'tokens/total': 737280, 'tokens/trainable': 728239, 'epoch': '5.01'}
 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                     | 360/496 [1:43:51<21:05,  9.30s/it][2026-01-25 18:34:43,796] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:822: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  prev_state_dict_settings = FullyShardedDataParallel.set_state_dict_type(

[2026-01-25 18:35:33,557] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:829: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  FullyShardedDataParallel.set_state_dict_type(

[2026-01-25 18:35:33,566] [INFO] [axolotl.core.trainers.base._save:721] [PID:796] Saving model checkpoint to ./outputs/qlora-out/checkpoint-360
[2026-01-25 18:36:36,925] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/_optim_utils.py:1190: UserWarning: `_get_pg_default_device` will be deprecated, it only stays for backward-compatiblity reason. If you need to find a device for object collectives, please use `_get_object_coll_device`. If you need to query the device types supported by group, please use `_device_capability(group)`. 
  device = _get_pg_default_device(group)

[2026-01-25 18:36:36,925] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/_optim_utils.py:1190: UserWarning: Multiple backends are registered with this ProcessGroup. We cannot determine which one is the default. Returning cpu. Please consider using other APIs.
  device = _get_pg_default_device(group)

 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 361/496 [1:45:53<1:36:53, 43.06s/it]                                                                                                                                                                                                                                             {'loss': '1.554', 'grad_norm': '1.627', 'learning_rate': '3.486e-05', 'ppl': '4.73', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '240.8', 'tokens/total': 739328, 'tokens/trainable': 730281, 'epoch': '5.012'}
 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 361/496 [1:45:53<1:36:53, 43.06s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                    | 362/496 [1:46:01<1:12:29, 32.46s/it]                                                                                                                                                                                                                                             {'loss': '1.3', 'grad_norm': '1.455', 'learning_rate': '3.438e-05', 'ppl': '3.669', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264.4', 'tokens/total': 741376, 'tokens/trainable': 732325, 'epoch': '5.014'}
 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                    | 362/496 [1:46:01<1:12:29, 32.46s/it] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                    | 363/496 [1:46:09<55:32, 25.06s/it]                                                                                                                                                                                                                                             {'loss': '0.786', 'grad_norm': '1.174', 'learning_rate': '3.391e-05', 'ppl': '2.195', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '261.9', 'tokens/total': 743424, 'tokens/trainable': 734363, 'epoch': '5.016'}
 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                    | 363/496 [1:46:09<55:32, 25.06s/it] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                    | 364/496 [1:46:16<43:41, 19.86s/it]                                                                                                                                                                                                                                             {'loss': '1.341', 'grad_norm': '1.513', 'learning_rate': '3.343e-05', 'ppl': '3.822', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264.6', 'tokens/total': 745472, 'tokens/trainable': 736408, 'epoch': '5.018'}
 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                    | 364/496 [1:46:16<43:41, 19.86s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                   | 365/496 [1:46:24<35:26, 16.23s/it]                                                                                                                                                                                                                                             {'loss': '1.151', 'grad_norm': '1.488', 'learning_rate': '3.296e-05', 'ppl': '3.162', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '261.7', 'tokens/total': 747520, 'tokens/trainable': 738441, 'epoch': '5.02'}
 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                   | 365/496 [1:46:24<35:26, 16.23s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                   | 366/496 [1:46:32<29:38, 13.68s/it]                                                                                                                                                                                                                                             {'loss': '1.377', 'grad_norm': '1.606', 'learning_rate': '3.249e-05', 'ppl': '3.964', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '263.1', 'tokens/total': 749568, 'tokens/trainable': 740472, 'epoch': '5.022'}
 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                   | 366/496 [1:46:32<29:38, 13.68s/it] 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                   | 367/496 [1:46:40<25:32, 11.88s/it]                                                                                                                                                                                                                                             {'loss': '1.319', 'grad_norm': '1.539', 'learning_rate': '3.203e-05', 'ppl': '3.738', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '263.8', 'tokens/total': 751616, 'tokens/trainable': 742500, 'epoch': '5.024'}
 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                   | 367/496 [1:46:40<25:32, 11.88s/it] 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                  | 368/496 [1:46:47<22:42, 10.64s/it]                                                                                                                                                                                                                                             {'loss': '1.343', 'grad_norm': '1.58', 'learning_rate': '3.156e-05', 'ppl': '3.83', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '261.5', 'tokens/total': 753664, 'tokens/trainable': 744527, 'epoch': '5.026'}
 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                  | 368/496 [1:46:47<22:42, 10.64s/it] 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                  | 369/496 [1:46:55<20:41,  9.77s/it]                                                                                                                                                                                                                                             {'loss': '1.214', 'grad_norm': '1.64', 'learning_rate': '3.11e-05', 'ppl': '3.368', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '261.3', 'tokens/total': 755712, 'tokens/trainable': 746548, 'epoch': '5.028'}
 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                  | 369/496 [1:46:55<20:41,  9.77s/it] 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                 | 370/496 [1:47:03<19:12,  9.15s/it]                                                                                                                                                                                                                                             {'loss': '1.452', 'grad_norm': '1.611', 'learning_rate': '3.065e-05', 'ppl': '4.27', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '266.1', 'tokens/total': 757760, 'tokens/trainable': 748593, 'epoch': '5.03'}
 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                 | 370/496 [1:47:03<19:12,  9.15s/it] 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                 | 371/496 [1:47:10<18:10,  8.73s/it]                                                                                                                                                                                                                                             {'loss': '1.398', 'grad_norm': '1.549', 'learning_rate': '3.019e-05', 'ppl': '4.047', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262.1', 'tokens/total': 759808, 'tokens/trainable': 750622, 'epoch': '5.032'}
 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                 | 371/496 [1:47:10<18:10,  8.73s/it] 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 372/496 [1:47:18<17:22,  8.41s/it]                                                                                                                                                                                                                                             {'loss': '1.34', 'grad_norm': '1.498', 'learning_rate': '2.974e-05', 'ppl': '3.82', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '266.6', 'tokens/total': 761856, 'tokens/trainable': 752664, 'epoch': '5.034'}
 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 372/496 [1:47:18<17:22,  8.41s/it] 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                | 373/496 [1:47:26<16:49,  8.21s/it]                                                                                                                                                                                                                                             {'loss': '1.009', 'grad_norm': '1.426', 'learning_rate': '2.929e-05', 'ppl': '2.742', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262.6', 'tokens/total': 763904, 'tokens/trainable': 754695, 'epoch': '5.036'}
 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                | 373/496 [1:47:26<16:49,  8.21s/it] 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                | 374/496 [1:47:34<16:22,  8.06s/it]                                                                                                                                                                                                                                             {'loss': '1.039', 'grad_norm': '1.344', 'learning_rate': '2.884e-05', 'ppl': '2.828', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '265.2', 'tokens/total': 765952, 'tokens/trainable': 756738, 'epoch': '5.038'}
 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                | 374/496 [1:47:34<16:22,  8.06s/it] 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                               | 375/496 [1:47:41<16:02,  7.95s/it]                                                                                                                                                                                                                                             {'loss': '1.482', 'grad_norm': '1.644', 'learning_rate': '2.84e-05', 'ppl': '4.403', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '263.7', 'tokens/total': 768000, 'tokens/trainable': 758772, 'epoch': '5.04'}
 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                               | 375/496 [1:47:41<16:02,  7.95s/it] 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                               | 376/496 [1:47:49<15:45,  7.88s/it]                                                                                                                                                                                                                                             {'loss': '1.195', 'grad_norm': '1.446', 'learning_rate': '2.796e-05', 'ppl': '3.303', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '265.6', 'tokens/total': 770048, 'tokens/trainable': 760817, 'epoch': '5.042'}
 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                               | 376/496 [1:47:49<15:45,  7.88s/it] 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                               | 377/496 [1:47:57<15:32,  7.84s/it]                                                                                                                                                                                                                                             {'loss': '1', 'grad_norm': '1.353', 'learning_rate': '2.752e-05', 'ppl': '2.719', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264', 'tokens/total': 772096, 'tokens/trainable': 762861, 'epoch': '5.044'}
 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                               | 377/496 [1:47:57<15:32,  7.84s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                              | 378/496 [1:48:04<15:19,  7.79s/it]                                                                                                                                                                                                                                             {'loss': '1.143', 'grad_norm': '1.37', 'learning_rate': '2.709e-05', 'ppl': '3.136', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264.5', 'tokens/total': 774144, 'tokens/trainable': 764893, 'epoch': '5.046'}
 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                              | 378/496 [1:48:04<15:19,  7.79s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 379/496 [1:48:12<15:18,  7.85s/it]                                                                                                                                                                                                                                             {'loss': '1.198', 'grad_norm': '1.474', 'learning_rate': '2.665e-05', 'ppl': '3.313', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '256.2', 'tokens/total': 776192, 'tokens/trainable': 766940, 'epoch': '5.048'}
 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 379/496 [1:48:12<15:18,  7.85s/it] 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                             | 380/496 [1:48:20<15:03,  7.79s/it]                                                                                                                                                                                                                                             {'loss': '1.513', 'grad_norm': '1.464', 'learning_rate': '2.622e-05', 'ppl': '4.538', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '268.4', 'tokens/total': 778240, 'tokens/trainable': 768987, 'epoch': '5.05'}
 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                             | 380/496 [1:48:20<15:03,  7.79s/it] 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                             | 381/496 [1:48:28<14:48,  7.72s/it]                                                                                                                                                                                                                                             {'loss': '1.212', 'grad_norm': '1.456', 'learning_rate': '2.58e-05', 'ppl': '3.361', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '268.1', 'tokens/total': 780288, 'tokens/trainable': 771017, 'epoch': '5.052'}
 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                             | 381/496 [1:48:28<14:48,  7.72s/it] 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                             | 382/496 [1:48:35<14:36,  7.69s/it]                                                                                                                                                                                                                                             {'loss': '1.19', 'grad_norm': '1.427', 'learning_rate': '2.538e-05', 'ppl': '3.286', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '268.8', 'tokens/total': 782336, 'tokens/trainable': 773063, 'epoch': '5.054'}
 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                             | 382/496 [1:48:35<14:36,  7.69s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 383/496 [1:48:43<14:31,  7.71s/it]                                                                                                                                                                                                                                             {'loss': '0.8469', 'grad_norm': '1.551', 'learning_rate': '2.496e-05', 'ppl': '2.333', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '260.7', 'tokens/total': 784384, 'tokens/trainable': 775084, 'epoch': '5.056'}
 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 383/496 [1:48:43<14:31,  7.71s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                            | 384/496 [1:48:51<14:25,  7.73s/it]                                                                                                                                                                                                                                             {'loss': '1.301', 'grad_norm': '1.53', 'learning_rate': '2.454e-05', 'ppl': '3.672', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '260.7', 'tokens/total': 786432, 'tokens/trainable': 777109, 'epoch': '5.058'}
 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                            | 384/496 [1:48:51<14:25,  7.73s/it] 78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 385/496 [1:48:58<14:17,  7.72s/it]                                                                                                                                                                                                                                             {'loss': '1.396', 'grad_norm': '1.673', 'learning_rate': '2.412e-05', 'ppl': '4.04', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264.5', 'tokens/total': 788480, 'tokens/trainable': 779147, 'epoch': '5.06'}
 78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 385/496 [1:48:58<14:17,  7.72s/it] 78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                           | 386/496 [1:49:06<14:10,  7.74s/it]                                                                                                                                                                                                                                             {'loss': '1.113', 'grad_norm': '1.487', 'learning_rate': '2.371e-05', 'ppl': '3.044', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262.5', 'tokens/total': 790528, 'tokens/trainable': 781185, 'epoch': '5.062'}
 78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                           | 386/496 [1:49:06<14:10,  7.74s/it] 78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 387/496 [1:49:14<14:03,  7.74s/it]                                                                                                                                                                                                                                             {'loss': '0.9814', 'grad_norm': '1.26', 'learning_rate': '2.331e-05', 'ppl': '2.668', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '263.7', 'tokens/total': 792576, 'tokens/trainable': 783227, 'epoch': '5.065'}
 78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 387/496 [1:49:14<14:03,  7.74s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                          | 388/496 [1:49:22<13:55,  7.74s/it]                                                                                                                                                                                                                                             {'loss': '1.224', 'grad_norm': '1.64', 'learning_rate': '2.29e-05', 'ppl': '3.4', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262.8', 'tokens/total': 794624, 'tokens/trainable': 785258, 'epoch': '5.067'}
 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                          | 388/496 [1:49:22<13:55,  7.74s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 389/496 [1:49:29<13:47,  7.74s/it]                                                                                                                                                                                                                                             {'loss': '1.04', 'grad_norm': '1.483', 'learning_rate': '2.25e-05', 'ppl': '2.829', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '261.9', 'tokens/total': 796672, 'tokens/trainable': 787284, 'epoch': '5.069'}
 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 389/496 [1:49:29<13:47,  7.74s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                          | 390/496 [1:49:37<13:40,  7.74s/it]                                                                                                                                                                                                                                             {'loss': '0.9927', 'grad_norm': '1.562', 'learning_rate': '2.21e-05', 'ppl': '2.698', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262.8', 'tokens/total': 798720, 'tokens/trainable': 789319, 'epoch': '5.071'}
 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                          | 390/496 [1:49:37<13:40,  7.74s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                         | 391/496 [1:49:45<13:30,  7.72s/it]                                                                                                                                                                                                                                             {'loss': '1.267', 'grad_norm': '1.946', 'learning_rate': '2.17e-05', 'ppl': '3.551', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '265.3', 'tokens/total': 800768, 'tokens/trainable': 791355, 'epoch': '5.073'}
 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                         | 391/496 [1:49:45<13:30,  7.72s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 392/496 [1:49:53<13:27,  7.77s/it]                                                                                                                                                                                                                                             {'loss': '1.175', 'grad_norm': '1.592', 'learning_rate': '2.131e-05', 'ppl': '3.24', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '258.4', 'tokens/total': 802816, 'tokens/trainable': 793389, 'epoch': '5.075'}
 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 392/496 [1:49:53<13:27,  7.77s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                        | 393/496 [1:50:00<13:16,  7.73s/it]                                                                                                                                                                                                                                             {'loss': '1.432', 'grad_norm': '1.821', 'learning_rate': '2.092e-05', 'ppl': '4.186', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '266.3', 'tokens/total': 804864, 'tokens/trainable': 795424, 'epoch': '5.077'}
 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                        | 393/496 [1:50:00<13:16,  7.73s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                        | 394/496 [1:50:08<13:01,  7.66s/it]                                                                                                                                                                                                                                             {'loss': '1.785', 'grad_norm': '1.726', 'learning_rate': '2.054e-05', 'ppl': '5.959', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '270.1', 'tokens/total': 806912, 'tokens/trainable': 797452, 'epoch': '5.079'}
 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                        | 394/496 [1:50:08<13:01,  7.66s/it] 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                        | 395/496 [1:50:15<12:51,  7.64s/it]                                                                                                                                                                                                                                             {'loss': '1.233', 'grad_norm': '1.501', 'learning_rate': '2.015e-05', 'ppl': '3.432', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '267', 'tokens/total': 808960, 'tokens/trainable': 799477, 'epoch': '5.081'}
 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                        | 395/496 [1:50:15<12:51,  7.64s/it] 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                       | 396/496 [1:50:23<12:45,  7.66s/it]                                                                                                                                                                                                                                             {'loss': '1.465', 'grad_norm': '1.488', 'learning_rate': '1.977e-05', 'ppl': '4.326', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '265.6', 'tokens/total': 811008, 'tokens/trainable': 801522, 'epoch': '5.083'}
 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                       | 396/496 [1:50:23<12:45,  7.66s/it] 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 397/496 [1:50:31<12:39,  7.67s/it]                                                                                                                                                                                                                                             {'loss': '1.271', 'grad_norm': '1.52', 'learning_rate': '1.94e-05', 'ppl': '3.563', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '265.8', 'tokens/total': 813056, 'tokens/trainable': 803563, 'epoch': '5.085'}
 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 397/496 [1:50:31<12:39,  7.67s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 398/496 [1:50:39<12:34,  7.70s/it]                                                                                                                                                                                                                                             {'loss': '1.422', 'grad_norm': '1.594', 'learning_rate': '1.902e-05', 'ppl': '4.145', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262', 'tokens/total': 815104, 'tokens/trainable': 805600, 'epoch': '5.087'}
 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 398/496 [1:50:39<12:34,  7.70s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                      | 399/496 [1:50:46<12:27,  7.70s/it]                                                                                                                                                                                                                                             {'loss': '1.542', 'grad_norm': '1.591', 'learning_rate': '1.865e-05', 'ppl': '4.675', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '263', 'tokens/total': 817152, 'tokens/trainable': 807629, 'epoch': '5.089'}
 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                      | 399/496 [1:50:46<12:27,  7.70s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                      | 400/496 [1:50:54<12:27,  7.79s/it]                                                                                                                                                                                                                                             {'loss': '1.175', 'grad_norm': '1.53', 'learning_rate': '1.829e-05', 'ppl': '3.237', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '256.1', 'tokens/total': 819200, 'tokens/trainable': 809674, 'epoch': '5.091'}
 81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                      | 400/496 [1:50:54<12:27,  7.79s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                     | 401/496 [1:51:02<12:19,  7.78s/it]                                                                                                                                                                                                                                             {'loss': '1.737', 'grad_norm': '1.806', 'learning_rate': '1.792e-05', 'ppl': '5.679', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262.8', 'tokens/total': 821248, 'tokens/trainable': 811712, 'epoch': '5.093'}
 81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                     | 401/496 [1:51:02<12:19,  7.78s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                     | 402/496 [1:51:10<12:08,  7.75s/it]                                                                                                                                                                                                                                             {'loss': '1.432', 'grad_norm': '1.546', 'learning_rate': '1.756e-05', 'ppl': '4.189', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '265.5', 'tokens/total': 823296, 'tokens/trainable': 813752, 'epoch': '5.095'}
 81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                     | 402/496 [1:51:10<12:08,  7.75s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 403/496 [1:51:18<12:00,  7.75s/it]                                                                                                                                                                                                                                             {'loss': '1.112', 'grad_norm': '1.5', 'learning_rate': '1.721e-05', 'ppl': '3.04', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262.3', 'tokens/total': 825344, 'tokens/trainable': 815783, 'epoch': '5.097'}
 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 403/496 [1:51:18<12:00,  7.75s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 404/496 [1:51:25<11:52,  7.74s/it]                                                                                                                                                                                                                                             {'loss': '1.464', 'grad_norm': '1.578', 'learning_rate': '1.685e-05', 'ppl': '4.325', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262', 'tokens/total': 827392, 'tokens/trainable': 817804, 'epoch': '5.099'}
 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 404/496 [1:51:25<11:52,  7.74s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                    | 405/496 [1:51:33<11:42,  7.72s/it]                                                                                                                                                                                                                                             {'loss': '1.364', 'grad_norm': '1.684', 'learning_rate': '1.65e-05', 'ppl': '3.913', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '265.9', 'tokens/total': 829440, 'tokens/trainable': 819840, 'epoch': '5.101'}
 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                    | 405/496 [1:51:33<11:42,  7.72s/it][2026-01-25 18:42:25,439] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:822: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  prev_state_dict_settings = FullyShardedDataParallel.set_state_dict_type(

[2026-01-25 18:43:11,948] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:829: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  FullyShardedDataParallel.set_state_dict_type(

[2026-01-25 18:43:11,959] [INFO] [axolotl.core.trainers.base._save:721] [PID:796] Saving model checkpoint to ./outputs/qlora-out/checkpoint-405
[2026-01-25 18:44:10,062] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/_optim_utils.py:1190: UserWarning: `_get_pg_default_device` will be deprecated, it only stays for backward-compatiblity reason. If you need to find a device for object collectives, please use `_get_object_coll_device`. If you need to query the device types supported by group, please use `_device_capability(group)`. 
  device = _get_pg_default_device(group)

[2026-01-25 18:44:10,063] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/_optim_utils.py:1190: UserWarning: Multiple backends are registered with this ProcessGroup. We cannot determine which one is the default. Returning cpu. Please consider using other APIs.
  device = _get_pg_default_device(group)

 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                   | 406/496 [1:53:26<59:05, 39.40s/it]                                                                                                                                                                                                                                             {'loss': '1.345', 'grad_norm': '1.412', 'learning_rate': '1.616e-05', 'ppl': '3.838', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '241.7', 'tokens/total': 831488, 'tokens/trainable': 821884, 'epoch': '5.103'}
 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                   | 406/496 [1:53:26<59:05, 39.40s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 407/496 [1:53:34<44:20, 29.89s/it]                                                                                                                                                                                                                                             {'loss': '1.023', 'grad_norm': '1.389', 'learning_rate': '1.581e-05', 'ppl': '2.781', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264.1', 'tokens/total': 833536, 'tokens/trainable': 823919, 'epoch': '5.105'}
 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 407/496 [1:53:34<44:20, 29.89s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                  | 408/496 [1:53:42<34:05, 23.24s/it]                                                                                                                                                                                                                                             {'loss': '1.36', 'grad_norm': '1.373', 'learning_rate': '1.547e-05', 'ppl': '3.895', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '261.2', 'tokens/total': 835584, 'tokens/trainable': 825935, 'epoch': '5.107'}
 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                  | 408/496 [1:53:42<34:05, 23.24s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 409/496 [1:53:49<26:58, 18.60s/it]                                                                                                                                                                                                                                             {'loss': '1.179', 'grad_norm': '1.651', 'learning_rate': '1.514e-05', 'ppl': '3.252', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '258.2', 'tokens/total': 837632, 'tokens/trainable': 827942, 'epoch': '5.109'}
 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 409/496 [1:53:49<26:58, 18.60s/it] 83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                  | 410/496 [1:53:57<21:59, 15.34s/it]                                                                                                                                                                                                                                             {'loss': '0.835', 'grad_norm': '1.409', 'learning_rate': '1.48e-05', 'ppl': '2.305', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264.1', 'tokens/total': 839680, 'tokens/trainable': 829984, 'epoch': '5.111'}
 83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                  | 410/496 [1:53:57<21:59, 15.34s/it] 83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 411/496 [1:54:05<18:27, 13.03s/it]                                                                                                                                                                                                                                             {'loss': '1.36', 'grad_norm': '1.682', 'learning_rate': '1.447e-05', 'ppl': '3.898', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '265.6', 'tokens/total': 841728, 'tokens/trainable': 832012, 'epoch': '5.113'}
 83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 411/496 [1:54:05<18:27, 13.03s/it] 83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                 | 412/496 [1:54:12<15:59, 11.42s/it]                                                                                                                                                                                                                                             {'loss': '1.516', 'grad_norm': '1.654', 'learning_rate': '1.415e-05', 'ppl': '4.554', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '266.4', 'tokens/total': 843776, 'tokens/trainable': 834049, 'epoch': '5.115'}
 83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                 | 412/496 [1:54:12<15:59, 11.42s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 413/496 [1:54:20<14:14, 10.29s/it]                                                                                                                                                                                                                                             {'loss': '1.271', 'grad_norm': '1.528', 'learning_rate': '1.382e-05', 'ppl': '3.565', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '266.8', 'tokens/total': 845824, 'tokens/trainable': 836094, 'epoch': '5.117'}
 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 413/496 [1:54:20<14:14, 10.29s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                | 414/496 [1:54:28<12:58,  9.49s/it]                                                                                                                                                                                                                                             {'loss': '1.495', 'grad_norm': '1.468', 'learning_rate': '1.35e-05', 'ppl': '4.459', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '266.1', 'tokens/total': 847872, 'tokens/trainable': 838120, 'epoch': '5.119'}
 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                | 414/496 [1:54:28<12:58,  9.49s/it] 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                | 415/496 [1:54:35<12:03,  8.94s/it]                                                                                                                                                                                                                                             {'loss': '1.321', 'grad_norm': '1.688', 'learning_rate': '1.319e-05', 'ppl': '3.746', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '267', 'tokens/total': 849920, 'tokens/trainable': 840163, 'epoch': '5.121'}
 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                | 415/496 [1:54:35<12:03,  8.94s/it] 84%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                               | 416/496 [1:54:43<11:25,  8.57s/it]                                                                                                                                                                                                                                             {'loss': '1.271', 'grad_norm': '1.554', 'learning_rate': '1.287e-05', 'ppl': '3.564', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '263.1', 'tokens/total': 851968, 'tokens/trainable': 842189, 'epoch': '5.123'}
 84%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                               | 416/496 [1:54:43<11:25,  8.57s/it] 84%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                               | 417/496 [1:54:51<10:55,  8.30s/it]                                                                                                                                                                                                                                             {'loss': '1.199', 'grad_norm': '1.572', 'learning_rate': '1.257e-05', 'ppl': '3.317', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264.8', 'tokens/total': 854016, 'tokens/trainable': 844219, 'epoch': '5.125'}
 84%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                               | 417/496 [1:54:51<10:55,  8.30s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                              | 418/496 [1:54:59<10:34,  8.14s/it]                                                                                                                                                                                                                                             {'loss': '1.147', 'grad_norm': '1.45', 'learning_rate': '1.226e-05', 'ppl': '3.148', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '263.3', 'tokens/total': 856064, 'tokens/trainable': 846264, 'epoch': '5.127'}
 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                              | 418/496 [1:54:59<10:34,  8.14s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 419/496 [1:55:06<10:17,  8.02s/it]                                                                                                                                                                                                                                             {'loss': '1.036', 'grad_norm': '1.326', 'learning_rate': '1.196e-05', 'ppl': '2.818', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262', 'tokens/total': 858112, 'tokens/trainable': 848290, 'epoch': '5.129'}
 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 419/496 [1:55:06<10:17,  8.02s/it] 85%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                              | 420/496 [1:55:14<10:03,  7.94s/it]                                                                                                                                                                                                                                             {'loss': '1.638', 'grad_norm': '1.634', 'learning_rate': '1.166e-05', 'ppl': '5.144', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262.7', 'tokens/total': 860160, 'tokens/trainable': 850331, 'epoch': '5.131'}
 85%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                              | 420/496 [1:55:14<10:03,  7.94s/it] 85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                             | 421/496 [1:55:22<09:50,  7.87s/it]                                                                                                                                                                                                                                             {'loss': '1.313', 'grad_norm': '1.505', 'learning_rate': '1.136e-05', 'ppl': '3.718', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '261.3', 'tokens/total': 862208, 'tokens/trainable': 852343, 'epoch': '5.133'}
 85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                             | 421/496 [1:55:22<09:50,  7.87s/it] 85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 422/496 [1:55:30<09:39,  7.83s/it]                                                                                                                                                                                                                                             {'loss': '1.11', 'grad_norm': '1.523', 'learning_rate': '1.107e-05', 'ppl': '3.033', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '261.2', 'tokens/total': 864256, 'tokens/trainable': 854363, 'epoch': '5.135'}
 85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 422/496 [1:55:30<09:39,  7.83s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                            | 423/496 [1:55:37<09:29,  7.80s/it]                                                                                                                                                                                                                                             {'loss': '1.208', 'grad_norm': '1.463', 'learning_rate': '1.078e-05', 'ppl': '3.345', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264.6', 'tokens/total': 866304, 'tokens/trainable': 856406, 'epoch': '5.137'}
 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                            | 423/496 [1:55:37<09:29,  7.80s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                            | 424/496 [1:55:45<09:16,  7.73s/it]                                                                                                                                                                                                                                             {'loss': '1.066', 'grad_norm': '1.624', 'learning_rate': '1.05e-05', 'ppl': '2.905', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '268.6', 'tokens/total': 868352, 'tokens/trainable': 858442, 'epoch': '5.139'}
 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                            | 424/496 [1:55:45<09:16,  7.73s/it] 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                            | 425/496 [1:55:52<09:06,  7.70s/it]                                                                                                                                                                                                                                             {'loss': '1.444', 'grad_norm': '1.549', 'learning_rate': '1.022e-05', 'ppl': '4.238', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '266.9', 'tokens/total': 870400, 'tokens/trainable': 860471, 'epoch': '5.141'}
 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                            | 425/496 [1:55:52<09:06,  7.70s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                           | 426/496 [1:56:00<09:03,  7.76s/it]                                                                                                                                                                                                                                             {'loss': '1.877', 'grad_norm': '2.102', 'learning_rate': '9.942e-06', 'ppl': '6.532', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '240.2', 'tokens/total': 872448, 'tokens/trainable': 862294, 'epoch': '5.143'}
 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                           | 426/496 [1:56:00<09:03,  7.76s/it][2026-01-25 18:46:52,929] [WARNING] [datasets.iterable_dataset._iter_pytorch:2405] [PID:3806] Too many dataloader workers: 2 (max is dataset.num_shards=1). Stopping 1 dataloader workers.
[2026-01-25 18:46:53,084] [WARNING] [datasets.iterable_dataset._iter_pytorch:2405] [PID:3812] Too many dataloader workers: 2 (max is dataset.num_shards=1). Stopping 1 dataloader workers.
[2026-01-25 18:46:53,185] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:3806] Loading dataset: Guilherme34/Dataset-for-updating-llm-to-be-aware-of-the-situation with base_type: pretrain and prompt_style: None
Tokenizing Prompts (num_proc=54):   0%|                                                                                                                                                                       | 0/949 [00:00<?, ? examples/s][2026-01-25 18:46:53,339] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:3812] Loading dataset: Guilherme34/Dataset-for-updating-llm-to-be-aware-of-the-situation with base_type: pretrain and prompt_style: None

Tokenizing Prompts (num_proc=54):   0%|                                                                                                                                                                       | 0/949 [00:00<?, ? examples/s][ATokenizing Prompts (num_proc=54):   2%|██▉                                                                                                                                                           | 18/949 [00:03<02:49,  5.51 examples/s]Tokenizing Prompts (num_proc=54):   4%|█████▉                                                                                                                                                        | 36/949 [00:03<01:12, 12.56 examples/s]Tokenizing Prompts (num_proc=54):   6%|████████▉                                                                                                                                                     | 54/949 [00:03<00:41, 21.40 examples/s]Tokenizing Prompts (num_proc=54):   8%|███████████▉                                                                                                                                                  | 72/949 [00:03<00:27, 31.63 examples/s]Tokenizing Prompts (num_proc=54):   9%|██████████████▉                                                                                                                                               | 90/949 [00:03<00:19, 43.40 examples/s]Tokenizing Prompts (num_proc=54):  11%|█████████████████▊                                                                                                                                           | 108/949 [00:03<00:14, 57.24 examples/s]Tokenizing Prompts (num_proc=54):  13%|████████████████████▊                                                                                                                                        | 126/949 [00:04<00:11, 71.15 examples/s]Tokenizing Prompts (num_proc=54):  15%|███████████████████████▊                                                                                                                                     | 144/949 [00:04<00:09, 83.56 examples/s]Tokenizing Prompts (num_proc=54):  17%|██████████████████████████▊                                                                                                                                  | 162/949 [00:04<00:08, 90.07 examples/s]Tokenizing Prompts (num_proc=54):  19%|█████████████████████████████▌                                                                                                                              | 180/949 [00:04<00:07, 103.53 examples/s]Tokenizing Prompts (num_proc=54):  21%|████████████████████████████████▌                                                                                                                           | 198/949 [00:04<00:06, 110.57 examples/s]Tokenizing Prompts (num_proc=54):  23%|███████████████████████████████████▌                                                                                                                        | 216/949 [00:04<00:06, 115.83 examples/s]Tokenizing Prompts (num_proc=54):  25%|██████████████████████████████████████▍                                                                                                                     | 234/949 [00:04<00:05, 122.33 examples/s]Tokenizing Prompts (num_proc=54):  27%|█████████████████████████████████████████▍                                                                                                                  | 252/949 [00:05<00:05, 123.93 examples/s]Tokenizing Prompts (num_proc=54):  28%|████████████████████████████████████████████▍                                                                                                               | 270/949 [00:05<00:05, 127.73 examples/s]Tokenizing Prompts (num_proc=54):  30%|███████████████████████████████████████████████▎                                                                                                            | 288/949 [00:05<00:04, 132.93 examples/s]Tokenizing Prompts (num_proc=54):  32%|██████████████████████████████████████████████████▎                                                                                                         | 306/949 [00:05<00:04, 134.59 examples/s]Tokenizing Prompts (num_proc=54):  34%|█████████████████████████████████████████████████████▎                                                                                                      | 324/949 [00:05<00:04, 131.85 examples/s]Tokenizing Prompts (num_proc=54):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 342/949 [00:05<00:04, 128.01 examples/s]Tokenizing Prompts (num_proc=54):  38%|███████████████████████████████████████████████████████████▏                                                                                                | 360/949 [00:05<00:04, 132.45 examples/s]Tokenizing Prompts (num_proc=54):  40%|██████████████████████████████████████████████████████████████▏                                                                                             | 378/949 [00:05<00:04, 133.71 examples/s]Tokenizing Prompts (num_proc=54):  42%|█████████████████████████████████████████████████████████████████                                                                                           | 396/949 [00:06<00:04, 133.81 examples/s]Tokenizing Prompts (num_proc=54):  44%|████████████████████████████████████████████████████████████████████                                                                                        | 414/949 [00:06<00:03, 134.49 examples/s]Tokenizing Prompts (num_proc=54):  46%|███████████████████████████████████████████████████████████████████████                                                                                     | 432/949 [00:06<00:03, 135.54 examples/s]Tokenizing Prompts (num_proc=54):  47%|█████████████████████████████████████████████████████████████████████████▉                                                                                  | 450/949 [00:06<00:03, 132.10 examples/s]Tokenizing Prompts (num_proc=54):  49%|████████████████████████████████████████████████████████████████████████████▉                                                                               | 468/949 [00:06<00:03, 131.34 examples/s]Tokenizing Prompts (num_proc=54):  51%|███████████████████████████████████████████████████████████████████████████████▉                                                                            | 486/949 [00:06<00:03, 128.43 examples/s]Tokenizing Prompts (num_proc=54):  53%|██████████████████████████████████████████████████████████████████████████████████▊                                                                         | 504/949 [00:06<00:03, 131.63 examples/s]Tokenizing Prompts (num_proc=54):  55%|█████████████████████████████████████████████████████████████████████████████████████▊                                                                      | 522/949 [00:07<00:03, 131.47 examples/s]Tokenizing Prompts (num_proc=54):  57%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 540/949 [00:07<00:03, 129.60 examples/s]Tokenizing Prompts (num_proc=54):  59%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                                | 558/949 [00:07<00:02, 131.27 examples/s]Tokenizing Prompts (num_proc=54):  61%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                             | 575/949 [00:07<00:02, 126.84 examples/s]Tokenizing Prompts (num_proc=54):  62%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 592/949 [00:07<00:02, 123.83 examples/s]
Tokenizing Prompts (num_proc=54):   2%|██▉                                                                                                                                                           | 18/949 [00:07<06:31,  2.38 examples/s][ATokenizing Prompts (num_proc=54):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 609/949 [00:07<00:02, 121.53 examples/s]
Tokenizing Prompts (num_proc=54):   4%|█████▉                                                                                                                                                        | 36/949 [00:07<02:42,  5.62 examples/s][ATokenizing Prompts (num_proc=54):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 626/949 [00:07<00:02, 117.95 examples/s]
Tokenizing Prompts (num_proc=54):   6%|████████▉                                                                                                                                                     | 54/949 [00:07<01:29,  9.95 examples/s][ATokenizing Prompts (num_proc=54):  68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 643/949 [00:08<00:02, 115.21 examples/s]
Tokenizing Prompts (num_proc=54):   8%|███████████▉                                                                                                                                                  | 72/949 [00:08<00:56, 15.63 examples/s][ATokenizing Prompts (num_proc=54):  70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 660/949 [00:08<00:02, 115.45 examples/s]
Tokenizing Prompts (num_proc=54):   9%|██████████████▉                                                                                                                                               | 90/949 [00:08<00:37, 22.77 examples/s][ATokenizing Prompts (num_proc=54):  71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 677/949 [00:08<00:02, 112.94 examples/s]
Tokenizing Prompts (num_proc=54):  11%|█████████████████▊                                                                                                                                           | 108/949 [00:08<00:27, 30.88 examples/s][ATokenizing Prompts (num_proc=54):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                          | 694/949 [00:08<00:02, 113.32 examples/s]
Tokenizing Prompts (num_proc=54):  13%|████████████████████▊                                                                                                                                        | 126/949 [00:08<00:19, 41.67 examples/s][ATokenizing Prompts (num_proc=54):  75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 711/949 [00:08<00:02, 112.72 examples/s]
Tokenizing Prompts (num_proc=54):  15%|███████████████████████▊                                                                                                                                     | 144/949 [00:08<00:15, 53.65 examples/s][ATokenizing Prompts (num_proc=54):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 728/949 [00:08<00:01, 114.46 examples/s]
Tokenizing Prompts (num_proc=54):  17%|██████████████████████████▊                                                                                                                                  | 162/949 [00:08<00:12, 64.00 examples/s][ATokenizing Prompts (num_proc=54):  79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 745/949 [00:09<00:01, 111.38 examples/s]Tokenizing Prompts (num_proc=54):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 762/949 [00:09<00:01, 111.45 examples/s]
Tokenizing Prompts (num_proc=54):  19%|█████████████████████████████▊                                                                                                                               | 180/949 [00:09<00:12, 62.80 examples/s][ATokenizing Prompts (num_proc=54):  82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 779/949 [00:09<00:01, 112.66 examples/s]
Tokenizing Prompts (num_proc=54):  23%|███████████████████████████████████▋                                                                                                                         | 216/949 [00:09<00:07, 97.23 examples/s][ATokenizing Prompts (num_proc=54):  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 796/949 [00:09<00:01, 112.84 examples/s]
Tokenizing Prompts (num_proc=54):  25%|██████████████████████████████████████▍                                                                                                                     | 234/949 [00:09<00:06, 103.24 examples/s][ATokenizing Prompts (num_proc=54):  86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                      | 813/949 [00:09<00:01, 113.15 examples/s]
Tokenizing Prompts (num_proc=54):  27%|█████████████████████████████████████████▍                                                                                                                  | 252/949 [00:09<00:06, 108.84 examples/s][ATokenizing Prompts (num_proc=54):  87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 830/949 [00:09<00:01, 114.30 examples/s]
Tokenizing Prompts (num_proc=54):  28%|████████████████████████████████████████████▍                                                                                                               | 270/949 [00:09<00:06, 111.65 examples/s][ATokenizing Prompts (num_proc=54):  89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 847/949 [00:09<00:00, 114.52 examples/s]
Tokenizing Prompts (num_proc=54):  30%|███████████████████████████████████████████████▎                                                                                                            | 288/949 [00:09<00:05, 114.66 examples/s][ATokenizing Prompts (num_proc=54):  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 864/949 [00:10<00:00, 113.57 examples/s]
Tokenizing Prompts (num_proc=54):  32%|██████████████████████████████████████████████████▎                                                                                                         | 306/949 [00:09<00:05, 117.13 examples/s][ATokenizing Prompts (num_proc=54):  93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 881/949 [00:10<00:00, 113.97 examples/s]
Tokenizing Prompts (num_proc=54):  34%|█████████████████████████████████████████████████████▎                                                                                                      | 324/949 [00:10<00:05, 117.34 examples/s][A
Tokenizing Prompts (num_proc=54):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 342/949 [00:10<00:05, 118.95 examples/s][ATokenizing Prompts (num_proc=54):  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 915/949 [00:10<00:00, 131.27 examples/s]
Tokenizing Prompts (num_proc=54):  38%|███████████████████████████████████████████████████████████▏                                                                                                | 360/949 [00:10<00:04, 118.57 examples/s][ATokenizing Prompts (num_proc=54):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 932/949 [00:10<00:00, 124.30 examples/s]
Tokenizing Prompts (num_proc=54):  40%|██████████████████████████████████████████████████████████████▏                                                                                             | 378/949 [00:10<00:04, 122.36 examples/s][ATokenizing Prompts (num_proc=54): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:10<00:00, 128.60 examples/s]
Tokenizing Prompts (num_proc=54):  42%|█████████████████████████████████████████████████████████████████                                                                                           | 396/949 [00:10<00:04, 121.89 examples/s][A
Tokenizing Prompts (num_proc=54):  44%|████████████████████████████████████████████████████████████████████▍                                                                                        | 414/949 [00:10<00:05, 93.61 examples/s][ATokenizing Prompts (num_proc=54): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:11<00:00, 84.32 examples/s]
Dropping Long Sequences:   0%|                                                                                                                                                                                | 0/949 [00:00<?, ? examples/s]
Tokenizing Prompts (num_proc=54):  47%|█████████████████████████████████████████████████████████████████████████▉                                                                                  | 450/949 [00:11<00:04, 116.58 examples/s][A
Tokenizing Prompts (num_proc=54):  49%|█████████████████████████████████████████████████████████████████████████████▍                                                                               | 468/949 [00:11<00:05, 93.88 examples/s][A
Tokenizing Prompts (num_proc=54):  51%|███████████████████████████████████████████████████████████████████████████████▉                                                                            | 486/949 [00:11<00:04, 101.15 examples/s][A
Tokenizing Prompts (num_proc=54):  53%|██████████████████████████████████████████████████████████████████████████████████▊                                                                         | 504/949 [00:11<00:04, 106.94 examples/s][ADropping Long Sequences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:00<00:00, 1431.54 examples/s]Dropping Long Sequences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:00<00:00, 1379.01 examples/s]
Tokenizing Prompts (num_proc=54):  55%|█████████████████████████████████████████████████████████████████████████████████████▊                                                                      | 522/949 [00:11<00:03, 112.81 examples/s][A
Tokenizing Prompts (num_proc=54):  57%|█████████████████████████████████████████████████████████████████████████████████████████▎                                                                   | 540/949 [00:12<00:04, 95.07 examples/s][A
Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                    | 0/936 [00:00<?, ? examples/s]
Tokenizing Prompts (num_proc=54):  61%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                             | 575/949 [00:12<00:02, 126.99 examples/s][A
Tokenizing Prompts (num_proc=54):  62%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 592/949 [00:12<00:02, 122.70 examples/s][A
Tokenizing Prompts (num_proc=54):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 609/949 [00:12<00:02, 120.36 examples/s][A
Tokenizing Prompts (num_proc=54):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 626/949 [00:12<00:02, 119.12 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 936/936 [00:00<00:00, 1598.76 examples/s]Add position_id column (Pretraining Sample Packing): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 936/936 [00:00<00:00, 1533.83 examples/s]
Tokenizing Prompts (num_proc=54):  68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 643/949 [00:12<00:02, 119.81 examples/s][A
Tokenizing Prompts (num_proc=54):  70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 660/949 [00:13<00:02, 122.65 examples/s][A
Tokenizing Prompts (num_proc=54):  71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 677/949 [00:13<00:02, 118.10 examples/s][A
Tokenizing Prompts (num_proc=54):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                          | 694/949 [00:13<00:02, 119.74 examples/s][A
Tokenizing Prompts (num_proc=54):  75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 711/949 [00:13<00:01, 120.23 examples/s][A
Tokenizing Prompts (num_proc=54):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 728/949 [00:13<00:01, 118.83 examples/s][A
Tokenizing Prompts (num_proc=54):  79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 745/949 [00:13<00:01, 120.04 examples/s][A
Tokenizing Prompts (num_proc=54):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 762/949 [00:13<00:01, 124.29 examples/s][A
Tokenizing Prompts (num_proc=54):  82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 779/949 [00:14<00:01, 126.80 examples/s][A
[2026-01-25 18:47:07,575] [WARNING] [py.warnings._showwarnmsg:110] [PID:3806] /apool/venvi/lib/python3.13/site-packages/datasets/formatting/torch_formatter.py:222: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.detach().clone() or sourceTensor.detach().clone().requires_grad_(True), rather than torch.tensor(sourceTensor).
  return torch.tensor(value, **{**default_dtype, **self.torch_tensor_kwargs})


Tokenizing Prompts (num_proc=54):  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 796/949 [00:14<00:01, 125.54 examples/s][A
Tokenizing Prompts (num_proc=54):  86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                      | 813/949 [00:14<00:01, 125.86 examples/s][A
Tokenizing Prompts (num_proc=54):  87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 830/949 [00:14<00:00, 125.79 examples/s][A
Tokenizing Prompts (num_proc=54):  89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 847/949 [00:14<00:00, 124.62 examples/s][A
Tokenizing Prompts (num_proc=54):  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉              | 864/949 [00:14<00:00, 94.98 examples/s][A
Tokenizing Prompts (num_proc=54):  95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 898/949 [00:14<00:00, 135.80 examples/s][A
Tokenizing Prompts (num_proc=54):  96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 915/949 [00:15<00:00, 130.44 examples/s][A
Tokenizing Prompts (num_proc=54):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 932/949 [00:15<00:00, 129.99 examples/s][A
Tokenizing Prompts (num_proc=54): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:15<00:00, 130.66 examples/s][ATokenizing Prompts (num_proc=54): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:16<00:00, 59.19 examples/s]

Dropping Long Sequences:   0%|                                                                                                                                                                                | 0/949 [00:00<?, ? examples/s][A
Dropping Long Sequences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:00<00:00, 1539.50 examples/s][ADropping Long Sequences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 949/949 [00:00<00:00, 1488.56 examples/s]

Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                    | 0/936 [00:00<?, ? examples/s][A
Add position_id column (Pretraining Sample Packing): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 936/936 [00:00<00:00, 1592.02 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 936/936 [00:00<00:00, 1533.80 examples/s]
[2026-01-25 18:47:11,234] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:3812] Using single process for pack_parallel, running sequentially.
[2026-01-25 18:47:12,143] [WARNING] [py.warnings._showwarnmsg:110] [PID:3812] /apool/venvi/lib/python3.13/site-packages/datasets/formatting/torch_formatter.py:222: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.detach().clone() or sourceTensor.detach().clone().requires_grad_(True), rather than torch.tensor(sourceTensor).
  return torch.tensor(value, **{**default_dtype, **self.torch_tensor_kwargs})

 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                           | 427/496 [1:56:27<15:36, 13.57s/it]                                                                                                                                                                                                                                             {'loss': '1.375', 'grad_norm': '1.649', 'learning_rate': '9.669e-06', 'ppl': '3.954', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262.4', 'tokens/total': 874496, 'tokens/trainable': 864332, 'epoch': '6.002'}
 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                           | 427/496 [1:56:27<15:36, 13.57s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 428/496 [1:56:35<13:23, 11.81s/it]                                                                                                                                                                                                                                             {'loss': '1.206', 'grad_norm': '1.463', 'learning_rate': '9.399e-06', 'ppl': '3.34', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '266', 'tokens/total': 876544, 'tokens/trainable': 866379, 'epoch': '6.004'}
 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 428/496 [1:56:35<13:23, 11.81s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                          | 429/496 [1:56:43<11:49, 10.59s/it]                                                                                                                                                                                                                                             {'loss': '1.322', 'grad_norm': '1.689', 'learning_rate': '9.133e-06', 'ppl': '3.752', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264.4', 'tokens/total': 878592, 'tokens/trainable': 868422, 'epoch': '6.006'}
 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                          | 429/496 [1:56:43<11:49, 10.59s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                          | 430/496 [1:56:51<10:41,  9.72s/it]                                                                                                                                                                                                                                             {'loss': '1.265', 'grad_norm': '1.511', 'learning_rate': '8.87e-06', 'ppl': '3.543', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264.4', 'tokens/total': 880640, 'tokens/trainable': 870460, 'epoch': '6.008'}
 87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                          | 430/496 [1:56:51<10:41,  9.72s/it] 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                         | 431/496 [1:56:58<09:53,  9.12s/it]                                                                                                                                                                                                                                             {'loss': '0.9504', 'grad_norm': '1.385', 'learning_rate': '8.611e-06', 'ppl': '2.587', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '263.4', 'tokens/total': 882688, 'tokens/trainable': 872494, 'epoch': '6.01'}
 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                         | 431/496 [1:56:58<09:53,  9.12s/it] 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                         | 432/496 [1:57:06<09:16,  8.70s/it]                                                                                                                                                                                                                                             {'loss': '0.8241', 'grad_norm': '1.403', 'learning_rate': '8.356e-06', 'ppl': '2.28', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '265.2', 'tokens/total': 884736, 'tokens/trainable': 874539, 'epoch': '6.012'}
 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                         | 432/496 [1:57:06<09:16,  8.70s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                         | 433/496 [1:57:14<08:48,  8.40s/it]                                                                                                                                                                                                                                             {'loss': '1.351', 'grad_norm': '1.829', 'learning_rate': '8.104e-06', 'ppl': '3.863', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '265.8', 'tokens/total': 886784, 'tokens/trainable': 876581, 'epoch': '6.014'}
 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                         | 433/496 [1:57:14<08:48,  8.40s/it] 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 434/496 [1:57:21<08:28,  8.20s/it]                                                                                                                                                                                                                                             {'loss': '1.326', 'grad_norm': '1.597', 'learning_rate': '7.856e-06', 'ppl': '3.767', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '263.3', 'tokens/total': 888832, 'tokens/trainable': 878618, 'epoch': '6.016'}
 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 434/496 [1:57:21<08:28,  8.20s/it] 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                        | 435/496 [1:57:29<08:09,  8.02s/it]                                                                                                                                                                                                                                             {'loss': '1.611', 'grad_norm': '1.683', 'learning_rate': '7.612e-06', 'ppl': '5.006', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '268', 'tokens/total': 890880, 'tokens/trainable': 880656, 'epoch': '6.018'}
 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                        | 435/496 [1:57:29<08:09,  8.02s/it] 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                       | 436/496 [1:57:37<07:53,  7.89s/it]                                                                                                                                                                                                                                             {'loss': '1.361', 'grad_norm': '1.645', 'learning_rate': '7.372e-06', 'ppl': '3.901', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '267', 'tokens/total': 892928, 'tokens/trainable': 882679, 'epoch': '6.02'}
 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                       | 436/496 [1:57:37<07:53,  7.89s/it] 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 437/496 [1:57:44<07:41,  7.82s/it]                                                                                                                                                                                                                                             {'loss': '1.009', 'grad_norm': '1.705', 'learning_rate': '7.135e-06', 'ppl': '2.743', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '266.1', 'tokens/total': 894976, 'tokens/trainable': 884713, 'epoch': '6.022'}
 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 437/496 [1:57:44<07:41,  7.82s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                       | 438/496 [1:57:52<07:29,  7.75s/it]                                                                                                                                                                                                                                             {'loss': '1.271', 'grad_norm': '1.556', 'learning_rate': '6.902e-06', 'ppl': '3.564', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '267.2', 'tokens/total': 897024, 'tokens/trainable': 886742, 'epoch': '6.024'}
 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                       | 438/496 [1:57:52<07:29,  7.75s/it] 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                      | 439/496 [1:58:00<07:20,  7.73s/it]                                                                                                                                                                                                                                             {'loss': '1.082', 'grad_norm': '1.522', 'learning_rate': '6.672e-06', 'ppl': '2.951', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '263.3', 'tokens/total': 899072, 'tokens/trainable': 888768, 'epoch': '6.026'}
 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                      | 439/496 [1:58:00<07:20,  7.73s/it] 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                      | 440/496 [1:58:07<07:12,  7.73s/it]                                                                                                                                                                                                                                             {'loss': '1.214', 'grad_norm': '1.478', 'learning_rate': '6.447e-06', 'ppl': '3.366', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '265.5', 'tokens/total': 901120, 'tokens/trainable': 890814, 'epoch': '6.028'}
 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                      | 440/496 [1:58:07<07:12,  7.73s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                     | 441/496 [1:58:15<07:04,  7.72s/it]                                                                                                                                                                                                                                             {'loss': '1.265', 'grad_norm': '1.475', 'learning_rate': '6.225e-06', 'ppl': '3.543', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '265.3', 'tokens/total': 903168, 'tokens/trainable': 892856, 'epoch': '6.03'}
 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                     | 441/496 [1:58:15<07:04,  7.72s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                     | 442/496 [1:58:23<06:57,  7.72s/it]                                                                                                                                                                                                                                             {'loss': '1.276', 'grad_norm': '1.557', 'learning_rate': '6.007e-06', 'ppl': '3.583', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264.7', 'tokens/total': 905216, 'tokens/trainable': 894903, 'epoch': '6.032'}
 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                     | 442/496 [1:58:23<06:57,  7.72s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                     | 443/496 [1:58:30<06:48,  7.71s/it]                                                                                                                                                                                                                                             {'loss': '1.078', 'grad_norm': '1.535', 'learning_rate': '5.792e-06', 'ppl': '2.939', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '265.3', 'tokens/total': 907264, 'tokens/trainable': 896943, 'epoch': '6.034'}
 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                     | 443/496 [1:58:30<06:48,  7.71s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                    | 444/496 [1:58:39<06:47,  7.83s/it]                                                                                                                                                                                                                                             {'loss': '1.476', 'grad_norm': '1.539', 'learning_rate': '5.582e-06', 'ppl': '4.375', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '250.7', 'tokens/total': 909312, 'tokens/trainable': 898972, 'epoch': '6.036'}
 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                    | 444/496 [1:58:39<06:47,  7.83s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                    | 445/496 [1:58:46<06:37,  7.80s/it]                                                                                                                                                                                                                                             {'loss': '1.625', 'grad_norm': '1.826', 'learning_rate': '5.375e-06', 'ppl': '5.077', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '263.3', 'tokens/total': 911360, 'tokens/trainable': 901008, 'epoch': '6.038'}
 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                    | 445/496 [1:58:46<06:37,  7.80s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 446/496 [1:58:54<06:28,  7.77s/it]                                                                                                                                                                                                                                             {'loss': '1.137', 'grad_norm': '1.561', 'learning_rate': '5.172e-06', 'ppl': '3.117', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264.3', 'tokens/total': 913408, 'tokens/trainable': 903044, 'epoch': '6.04'}
 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 446/496 [1:58:54<06:28,  7.77s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                   | 447/496 [1:59:02<06:19,  7.75s/it]                                                                                                                                                                                                                                             {'loss': '1.505', 'grad_norm': '1.556', 'learning_rate': '4.973e-06', 'ppl': '4.506', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '266', 'tokens/total': 915456, 'tokens/trainable': 905091, 'epoch': '6.042'}
 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                   | 447/496 [1:59:02<06:19,  7.75s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                   | 448/496 [1:59:09<06:09,  7.71s/it]                                                                                                                                                                                                                                             {'loss': '1.229', 'grad_norm': '1.547', 'learning_rate': '4.778e-06', 'ppl': '3.418', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '266.4', 'tokens/total': 917504, 'tokens/trainable': 907117, 'epoch': '6.044'}
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                   | 448/496 [1:59:09<06:09,  7.71s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                  | 449/496 [1:59:17<06:00,  7.67s/it]                                                                                                                                                                                                                                             {'loss': '1.375', 'grad_norm': '1.525', 'learning_rate': '4.586e-06', 'ppl': '3.956', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '268.8', 'tokens/total': 919552, 'tokens/trainable': 909154, 'epoch': '6.046'}
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                  | 449/496 [1:59:17<06:00,  7.67s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                  | 450/496 [1:59:25<05:52,  7.67s/it]                                                                                                                                                                                                                                             {'loss': '1.178', 'grad_norm': '1.479', 'learning_rate': '4.398e-06', 'ppl': '3.248', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '266.9', 'tokens/total': 921600, 'tokens/trainable': 911199, 'epoch': '6.048'}
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                  | 450/496 [1:59:25<05:52,  7.67s/it][2026-01-25 18:50:17,015] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:822: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  prev_state_dict_settings = FullyShardedDataParallel.set_state_dict_type(

[2026-01-25 18:51:06,024] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:829: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  FullyShardedDataParallel.set_state_dict_type(

[2026-01-25 18:51:06,033] [INFO] [axolotl.core.trainers.base._save:721] [PID:796] Saving model checkpoint to ./outputs/qlora-out/checkpoint-450
[2026-01-25 18:52:04,132] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/_optim_utils.py:1190: UserWarning: `_get_pg_default_device` will be deprecated, it only stays for backward-compatiblity reason. If you need to find a device for object collectives, please use `_get_object_coll_device`. If you need to query the device types supported by group, please use `_device_capability(group)`. 
  device = _get_pg_default_device(group)

[2026-01-25 18:52:04,132] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/_optim_utils.py:1190: UserWarning: Multiple backends are registered with this ProcessGroup. We cannot determine which one is the default. Returning cpu. Please consider using other APIs.
  device = _get_pg_default_device(group)

 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 451/496 [2:01:20<30:05, 40.13s/it]                                                                                                                                                                                                                                             {'loss': '1.071', 'grad_norm': '1.467', 'learning_rate': '4.215e-06', 'ppl': '2.918', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '237.7', 'tokens/total': 923648, 'tokens/trainable': 913234, 'epoch': '6.05'}
 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 451/496 [2:01:20<30:05, 40.13s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 452/496 [2:01:28<22:17, 30.40s/it]                                                                                                                                                                                                                                             {'loss': '1.225', 'grad_norm': '1.628', 'learning_rate': '4.034e-06', 'ppl': '3.406', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '263.4', 'tokens/total': 925696, 'tokens/trainable': 915260, 'epoch': '6.052'}
 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 452/496 [2:01:28<22:17, 30.40s/it] 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                 | 453/496 [2:01:36<16:55, 23.61s/it]                                                                                                                                                                                                                                             {'loss': '1.479', 'grad_norm': '1.613', 'learning_rate': '3.858e-06', 'ppl': '4.389', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '263', 'tokens/total': 927744, 'tokens/trainable': 917301, 'epoch': '6.054'}
 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                 | 453/496 [2:01:36<16:55, 23.61s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                | 454/496 [2:01:44<13:11, 18.84s/it]                                                                                                                                                                                                                                             {'loss': '1.169', 'grad_norm': '1.499', 'learning_rate': '3.686e-06', 'ppl': '3.218', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '263.2', 'tokens/total': 929792, 'tokens/trainable': 919333, 'epoch': '6.056'}
 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                | 454/496 [2:01:44<13:11, 18.84s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                | 455/496 [2:01:51<10:36, 15.53s/it]                                                                                                                                                                                                                                             {'loss': '0.9762', 'grad_norm': '1.793', 'learning_rate': '3.518e-06', 'ppl': '2.654', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '259.4', 'tokens/total': 931840, 'tokens/trainable': 921354, 'epoch': '6.058'}
 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                | 455/496 [2:01:51<10:36, 15.53s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 456/496 [2:01:59<08:46, 13.17s/it]                                                                                                                                                                                                                                             {'loss': '1.088', 'grad_norm': '1.494', 'learning_rate': '3.353e-06', 'ppl': '2.968', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '265.3', 'tokens/total': 933888, 'tokens/trainable': 923386, 'epoch': '6.06'}
 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 456/496 [2:01:59<08:46, 13.17s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 457/496 [2:02:07<07:30, 11.54s/it]                                                                                                                                                                                                                                             {'loss': '1.27', 'grad_norm': '1.695', 'learning_rate': '3.192e-06', 'ppl': '3.559', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '263.3', 'tokens/total': 935936, 'tokens/trainable': 925425, 'epoch': '6.062'}
 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 457/496 [2:02:07<07:30, 11.54s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 458/496 [2:02:14<06:34, 10.37s/it]                                                                                                                                                                                                                                             {'loss': '1.382', 'grad_norm': '1.549', 'learning_rate': '3.035e-06', 'ppl': '3.985', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '266.8', 'tokens/total': 937984, 'tokens/trainable': 927463, 'epoch': '6.065'}
 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 458/496 [2:02:14<06:34, 10.37s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 459/496 [2:02:22<05:52,  9.53s/it]                                                                                                                                                                                                                                             {'loss': '0.9915', 'grad_norm': '1.445', 'learning_rate': '2.883e-06', 'ppl': '2.695', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '268.7', 'tokens/total': 940032, 'tokens/trainable': 929496, 'epoch': '6.067'}
 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 459/496 [2:02:22<05:52,  9.53s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 460/496 [2:02:30<05:21,  8.94s/it]                                                                                                                                                                                                                                             {'loss': '1.085', 'grad_norm': '1.714', 'learning_rate': '2.734e-06', 'ppl': '2.96', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '269.7', 'tokens/total': 942080, 'tokens/trainable': 931535, 'epoch': '6.069'}
 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 460/496 [2:02:30<05:21,  8.94s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏             | 461/496 [2:02:37<04:59,  8.57s/it]                                                                                                                                                                                                                                             {'loss': '1.159', 'grad_norm': '1.52', 'learning_rate': '2.588e-06', 'ppl': '3.186', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '263.4', 'tokens/total': 944128, 'tokens/trainable': 933563, 'epoch': '6.071'}
 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏             | 461/496 [2:02:37<04:59,  8.57s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 462/496 [2:02:45<04:42,  8.30s/it]                                                                                                                                                                                                                                             {'loss': '1.203', 'grad_norm': '1.507', 'learning_rate': '2.447e-06', 'ppl': '3.331', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262.4', 'tokens/total': 946176, 'tokens/trainable': 935573, 'epoch': '6.073'}
 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 462/496 [2:02:45<04:42,  8.30s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 463/496 [2:02:53<04:27,  8.12s/it]                                                                                                                                                                                                                                             {'loss': '1.314', 'grad_norm': '1.501', 'learning_rate': '2.31e-06', 'ppl': '3.72', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '265.4', 'tokens/total': 948224, 'tokens/trainable': 937616, 'epoch': '6.075'}
 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 463/496 [2:02:53<04:27,  8.12s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 464/496 [2:03:00<04:15,  8.00s/it]                                                                                                                                                                                                                                             {'loss': '1.356', 'grad_norm': '1.436', 'learning_rate': '2.176e-06', 'ppl': '3.879', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264.7', 'tokens/total': 950272, 'tokens/trainable': 939657, 'epoch': '6.077'}
 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 464/496 [2:03:00<04:15,  8.00s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 465/496 [2:03:08<04:05,  7.92s/it]                                                                                                                                                                                                                                             {'loss': '1.199', 'grad_norm': '1.551', 'learning_rate': '2.047e-06', 'ppl': '3.317', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262.5', 'tokens/total': 952320, 'tokens/trainable': 941683, 'epoch': '6.079'}
 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 465/496 [2:03:08<04:05,  7.92s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 466/496 [2:03:16<03:56,  7.88s/it]                                                                                                                                                                                                                                             {'loss': '0.8819', 'grad_norm': '1.316', 'learning_rate': '1.921e-06', 'ppl': '2.415', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '260.8', 'tokens/total': 954368, 'tokens/trainable': 943714, 'epoch': '6.081'}
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 466/496 [2:03:16<03:56,  7.88s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 467/496 [2:03:24<03:47,  7.85s/it]                                                                                                                                                                                                                                             {'loss': '1.016', 'grad_norm': '1.494', 'learning_rate': '1.8e-06', 'ppl': '2.762', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '261', 'tokens/total': 956416, 'tokens/trainable': 945740, 'epoch': '6.083'}
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 467/496 [2:03:24<03:47,  7.85s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 468/496 [2:03:31<03:38,  7.81s/it]                                                                                                                                                                                                                                             {'loss': '1.506', 'grad_norm': '1.536', 'learning_rate': '1.682e-06', 'ppl': '4.511', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262.6', 'tokens/total': 958464, 'tokens/trainable': 947766, 'epoch': '6.085'}
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 468/496 [2:03:31<03:38,  7.81s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 469/496 [2:03:39<03:29,  7.77s/it]                                                                                                                                                                                                                                             {'loss': '1.215', 'grad_norm': '1.412', 'learning_rate': '1.568e-06', 'ppl': '3.369', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '263.4', 'tokens/total': 960512, 'tokens/trainable': 949792, 'epoch': '6.087'}
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 469/496 [2:03:39<03:29,  7.77s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 470/496 [2:03:47<03:23,  7.82s/it]                                                                                                                                                                                                                                             {'loss': '1.267', 'grad_norm': '1.611', 'learning_rate': '1.459e-06', 'ppl': '3.549', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '257.1', 'tokens/total': 962560, 'tokens/trainable': 951831, 'epoch': '6.089'}
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 470/496 [2:03:47<03:23,  7.82s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 471/496 [2:03:55<03:14,  7.80s/it]                                                                                                                                                                                                                                             {'loss': '1.09', 'grad_norm': '1.418', 'learning_rate': '1.353e-06', 'ppl': '2.973', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '261.3', 'tokens/total': 964608, 'tokens/trainable': 953854, 'epoch': '6.091'}
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 471/496 [2:03:55<03:14,  7.80s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 472/496 [2:04:02<03:05,  7.75s/it]                                                                                                                                                                                                                                             {'loss': '1.218', 'grad_norm': '1.551', 'learning_rate': '1.251e-06', 'ppl': '3.381', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '265.9', 'tokens/total': 966656, 'tokens/trainable': 955880, 'epoch': '6.093'}
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 472/496 [2:04:02<03:05,  7.75s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 473/496 [2:04:10<02:57,  7.71s/it]                                                                                                                                                                                                                                             {'loss': '0.9717', 'grad_norm': '1.419', 'learning_rate': '1.153e-06', 'ppl': '2.643', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '266.3', 'tokens/total': 968704, 'tokens/trainable': 957910, 'epoch': '6.095'}
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 473/496 [2:04:10<02:57,  7.71s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 474/496 [2:04:18<02:48,  7.66s/it]                                                                                                                                                                                                                                             {'loss': '0.9439', 'grad_norm': '1.432', 'learning_rate': '1.059e-06', 'ppl': '2.57', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '269.9', 'tokens/total': 970752, 'tokens/trainable': 959949, 'epoch': '6.097'}
 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 474/496 [2:04:18<02:48,  7.66s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 475/496 [2:04:25<02:40,  7.66s/it]                                                                                                                                                                                                                                             {'loss': '1.123', 'grad_norm': '1.477', 'learning_rate': '9.693e-07', 'ppl': '3.075', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264.7', 'tokens/total': 972800, 'tokens/trainable': 961975, 'epoch': '6.099'}
 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 475/496 [2:04:25<02:40,  7.66s/it] 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████        | 476/496 [2:04:33<02:33,  7.67s/it]                                                                                                                                                                                                                                             {'loss': '1.082', 'grad_norm': '1.704', 'learning_rate': '8.833e-07', 'ppl': '2.951', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '265.2', 'tokens/total': 974848, 'tokens/trainable': 964014, 'epoch': '6.101'}
 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████        | 476/496 [2:04:33<02:33,  7.67s/it] 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 477/496 [2:04:41<02:25,  7.67s/it]                                                                                                                                                                                                                                             {'loss': '1.154', 'grad_norm': '1.452', 'learning_rate': '8.013e-07', 'ppl': '3.171', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264.1', 'tokens/total': 976896, 'tokens/trainable': 966040, 'epoch': '6.103'}
 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 477/496 [2:04:41<02:25,  7.67s/it] 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 478/496 [2:04:48<02:18,  7.67s/it]                                                                                                                                                                                                                                             {'loss': '1.54', 'grad_norm': '1.463', 'learning_rate': '7.233e-07', 'ppl': '4.665', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '263.8', 'tokens/total': 978944, 'tokens/trainable': 968062, 'epoch': '6.105'}
 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 478/496 [2:04:48<02:18,  7.67s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 479/496 [2:04:56<02:10,  7.69s/it]                                                                                                                                                                                                                                             {'loss': '1.061', 'grad_norm': '1.489', 'learning_rate': '6.492e-07', 'ppl': '2.888', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '261.9', 'tokens/total': 980992, 'tokens/trainable': 970090, 'epoch': '6.107'}
 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 479/496 [2:04:56<02:10,  7.69s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 480/496 [2:05:04<02:03,  7.71s/it]                                                                                                                                                                                                                                             {'loss': '1.205', 'grad_norm': '1.621', 'learning_rate': '5.791e-07', 'ppl': '3.338', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '261.8', 'tokens/total': 983040, 'tokens/trainable': 972122, 'epoch': '6.109'}
 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 480/496 [2:05:04<02:03,  7.71s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████      | 481/496 [2:05:11<01:55,  7.71s/it]                                                                                                                                                                                                                                             {'loss': '0.9542', 'grad_norm': '1.476', 'learning_rate': '5.131e-07', 'ppl': '2.597', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264.8', 'tokens/total': 985088, 'tokens/trainable': 974163, 'epoch': '6.111'}
 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████      | 481/496 [2:05:11<01:55,  7.71s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 482/496 [2:05:19<01:48,  7.71s/it]                                                                                                                                                                                                                                             {'loss': '1.733', 'grad_norm': '2.085', 'learning_rate': '4.51e-07', 'ppl': '5.656', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '261.4', 'tokens/total': 987136, 'tokens/trainable': 976180, 'epoch': '6.113'}
 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 482/496 [2:05:19<01:48,  7.71s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 483/496 [2:05:27<01:40,  7.72s/it]                                                                                                                                                                                                                                             {'loss': '1.299', 'grad_norm': '1.545', 'learning_rate': '3.929e-07', 'ppl': '3.665', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '260.6', 'tokens/total': 989184, 'tokens/trainable': 978196, 'epoch': '6.115'}
 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 483/496 [2:05:27<01:40,  7.72s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 484/496 [2:05:35<01:32,  7.72s/it]                                                                                                                                                                                                                                             {'loss': '0.9415', 'grad_norm': '1.357', 'learning_rate': '3.388e-07', 'ppl': '2.564', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '262.3', 'tokens/total': 991232, 'tokens/trainable': 980221, 'epoch': '6.117'}
 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 484/496 [2:05:35<01:32,  7.72s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 485/496 [2:05:42<01:24,  7.71s/it]                                                                                                                                                                                                                                             {'loss': '1.221', 'grad_norm': '1.489', 'learning_rate': '2.887e-07', 'ppl': '3.392', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264.2', 'tokens/total': 993280, 'tokens/trainable': 982248, 'epoch': '6.119'}
 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 485/496 [2:05:42<01:24,  7.71s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 486/496 [2:05:50<01:16,  7.69s/it]                                                                                                                                                                                                                                             {'loss': '1.195', 'grad_norm': '1.396', 'learning_rate': '2.426e-07', 'ppl': '3.305', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '265.9', 'tokens/total': 995328, 'tokens/trainable': 984282, 'epoch': '6.121'}
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 486/496 [2:05:50<01:16,  7.69s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 487/496 [2:05:58<01:08,  7.66s/it]                                                                                                                                                                                                                                             {'loss': '1.469', 'grad_norm': '1.684', 'learning_rate': '2.005e-07', 'ppl': '4.346', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '265.1', 'tokens/total': 997376, 'tokens/trainable': 986294, 'epoch': '6.123'}
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 487/496 [2:05:58<01:08,  7.66s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 488/496 [2:06:05<01:01,  7.63s/it]                                                                                                                                                                                                                                             {'loss': '1.216', 'grad_norm': '1.67', 'learning_rate': '1.624e-07', 'ppl': '3.372', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264.5', 'tokens/total': 999424, 'tokens/trainable': 988292, 'epoch': '6.125'}
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 488/496 [2:06:05<01:01,  7.63s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 489/496 [2:06:13<00:53,  7.65s/it]                                                                                                                                                                                                                                             {'loss': '1.177', 'grad_norm': '1.615', 'learning_rate': '1.283e-07', 'ppl': '3.243', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '260', 'tokens/total': 1001472, 'tokens/trainable': 990294, 'epoch': '6.127'}
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 489/496 [2:06:13<00:53,  7.65s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 490/496 [2:06:20<00:45,  7.66s/it]                                                                                                                                                                                                                                             {'loss': '1.386', 'grad_norm': '1.817', 'learning_rate': '9.827e-08', 'ppl': '4', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '263.4', 'tokens/total': 1003520, 'tokens/trainable': 992320, 'epoch': '6.129'}
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 490/496 [2:06:20<00:45,  7.66s/it] 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 491/496 [2:06:28<00:38,  7.68s/it]                                                                                                                                                                                                                                             {'loss': '1.159', 'grad_norm': '1.47', 'learning_rate': '7.22e-08', 'ppl': '3.187', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '264.2', 'tokens/total': 1005568, 'tokens/trainable': 994352, 'epoch': '6.131'}
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 491/496 [2:06:28<00:38,  7.68s/it] 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 492/496 [2:06:36<00:30,  7.67s/it]                                                                                                                                                                                                                                             {'loss': '1.26', 'grad_norm': '1.592', 'learning_rate': '5.014e-08', 'ppl': '3.526', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '267.5', 'tokens/total': 1007616, 'tokens/trainable': 996398, 'epoch': '6.133'}
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 492/496 [2:06:36<00:30,  7.67s/it] 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 493/496 [2:06:44<00:23,  7.70s/it]                                                                                                                                                                                                                                             {'loss': '0.8666', 'grad_norm': '1.406', 'learning_rate': '3.209e-08', 'ppl': '2.379', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '259.7', 'tokens/total': 1009664, 'tokens/trainable': 998413, 'epoch': '6.135'}
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 493/496 [2:06:44<00:23,  7.70s/it]100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 494/496 [2:06:51<00:15,  7.73s/it]                                                                                                                                                                                                                                             {'loss': '1.276', 'grad_norm': '1.503', 'learning_rate': '1.805e-08', 'ppl': '3.582', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '259', 'tokens/total': 1011712, 'tokens/trainable': 1000435, 'epoch': '6.137'}
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 494/496 [2:06:51<00:15,  7.73s/it]100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 495/496 [2:06:59<00:07,  7.74s/it]                                                                                                                                                                                                                                             {'loss': '1.604', 'grad_norm': '1.766', 'learning_rate': '8.023e-09', 'ppl': '4.973', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '260.7', 'tokens/total': 1013760, 'tokens/trainable': 1002455, 'epoch': '6.139'}
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 495/496 [2:06:59<00:07,  7.74s/it][2026-01-25 18:57:51,648] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:822: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  prev_state_dict_settings = FullyShardedDataParallel.set_state_dict_type(

[2026-01-25 18:58:39,888] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:829: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  FullyShardedDataParallel.set_state_dict_type(

[2026-01-25 18:58:39,897] [INFO] [axolotl.core.trainers.base._save:721] [PID:796] Saving model checkpoint to ./outputs/qlora-out/checkpoint-495
[2026-01-25 18:59:37,675] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/_optim_utils.py:1190: UserWarning: `_get_pg_default_device` will be deprecated, it only stays for backward-compatiblity reason. If you need to find a device for object collectives, please use `_get_object_coll_device`. If you need to query the device types supported by group, please use `_device_capability(group)`. 
  device = _get_pg_default_device(group)

[2026-01-25 18:59:37,675] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/_optim_utils.py:1190: UserWarning: Multiple backends are registered with this ProcessGroup. We cannot determine which one is the default. Returning cpu. Please consider using other APIs.
  device = _get_pg_default_device(group)

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 496/496 [2:08:54<00:00, 39.84s/it]                                                                                                                                                                                                                                             {'loss': '1.17', 'grad_norm': '1.614', 'learning_rate': '2.006e-09', 'ppl': '3.222', 'memory/max_active (GiB)': '4.41', 'memory/max_allocated (GiB)': '4.34', 'memory/device_reserved (GiB)': '8.46', 'tokens/train_per_sec_per_gpu': '222.8', 'tokens/total': 1015808, 'tokens/trainable': 1004346, 'epoch': '6.141'}
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 496/496 [2:08:54<00:00, 39.84s/it][2026-01-25 18:59:46,390] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:822: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  prev_state_dict_settings = FullyShardedDataParallel.set_state_dict_type(

[2026-01-25 19:00:33,721] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:829: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  FullyShardedDataParallel.set_state_dict_type(

[2026-01-25 19:00:33,730] [INFO] [axolotl.core.trainers.base._save:721] [PID:796] Saving model checkpoint to ./outputs/qlora-out/checkpoint-496
[2026-01-25 19:01:32,273] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/_optim_utils.py:1190: UserWarning: `_get_pg_default_device` will be deprecated, it only stays for backward-compatiblity reason. If you need to find a device for object collectives, please use `_get_object_coll_device`. If you need to query the device types supported by group, please use `_device_capability(group)`. 
  device = _get_pg_default_device(group)

[2026-01-25 19:01:32,273] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/_optim_utils.py:1190: UserWarning: Multiple backends are registered with this ProcessGroup. We cannot determine which one is the default. Returning cpu. Please consider using other APIs.
  device = _get_pg_default_device(group)

                                                                                                                                                                                                                                             {'train_runtime': '7840', 'train_samples_per_second': '0.127', 'train_steps_per_second': '0.063', 'train_loss': '1.631', 'memory/max_active (GiB)': '1.79', 'memory/max_allocated (GiB)': '1.79', 'memory/device_reserved (GiB)': '8.46', 'epoch': '6.141', 'tokens/train_per_sec_per_gpu': '0'}
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 496/496 [2:10:40<00:00, 39.84s/it]100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 496/496 [2:10:40<00:00, 15.81s/it]
[2026-01-25 19:01:32,937] [INFO] [axolotl.train.save_trained_model:233] [PID:796] Training completed! Saving trained model to ./outputs/qlora-out.
[2026-01-25 19:01:32,944] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:822: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  prev_state_dict_settings = FullyShardedDataParallel.set_state_dict_type(

[2026-01-25 19:02:23,820] [WARNING] [py.warnings._showwarnmsg:110] [PID:796] /apool/venvi/lib/python3.13/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:829: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  FullyShardedDataParallel.set_state_dict_type(

[2026-01-25 19:02:23,829] [INFO] [axolotl.core.trainers.base._save:721] [PID:796] Saving model checkpoint to ./outputs/qlora-out
[2026-01-25 19:02:27,832] [INFO] [axolotl.train.save_trained_model:351] [PID:796] Model successfully saved to ./outputs/qlora-out