[2026-02-08 23:19:24,226] [WARNING] [axolotl.utils.trainer.prepare_optim_env:658] [PID:31858] P2P support not detected, setting `NCCL_P2P_DISABLE=1`
[2026-02-08 23:19:24,227] [DEBUG] [axolotl.utils.config.resolve_dtype:66] [PID:31858] bf16 support detected, enabling for this configuration.
[2026-02-08 23:19:24,357] [DEBUG] [axolotl.utils.config.log_gpu_memory_usage:127] [PID:31858] baseline 0.000GB ()
[2026-02-08 23:19:24,357] [INFO] [axolotl.cli.config.load_cfg:259] [PID:31858] config:
{
  "activation_offloading": true,
  "axolotl_config_path": "train.yml",
  "base_model": "Nanbeige/Nanbeige4-3B-Thinking-2511",
  "base_model_config": "Nanbeige/Nanbeige4-3B-Thinking-2511",
  "batch_size": 16,
  "bf16": true,
  "capabilities": {
    "bf16": true,
    "compute_capability": "sm_89",
    "fp8": false,
    "n_gpu": 4,
    "n_node": 1
  },
  "chat_template": "tokenizer_default",
  "context_parallel_size": 1,
  "cosine_min_lr_ratio": 0.1,
  "dataloader_num_workers": 4,
  "dataloader_pin_memory": true,
  "dataloader_prefetch_factor": 256,
  "dataset_num_proc": 32,
  "dataset_prepared_path": "last_run_prepared",
  "datasets": [
    {
      "chat_template": "tokenizer_default",
      "message_property_mappings": {
        "content": "content",
        "role": "role"
      },
      "path": "WokeAI/polititune-tankie-warmup-3",
      "split": "train",
      "trust_remote_code": false,
      "type": "chat_template"
    }
  ],
  "ddp": true,
  "device": "cuda:0",
  "device_map": {
    "": 0
  },
  "dion_rank_fraction": 1.0,
  "dion_rank_multiple_of": 1,
  "eaft_alpha": 1.0,
  "eaft_k": 20,
  "env_capabilities": {
    "torch_version": "2.8.0"
  },
  "eval_batch_size": 2,
  "eval_causal_lm_metrics": [
    "sacrebleu",
    "comet",
    "ter",
    "chrf"
  ],
  "eval_max_new_tokens": 128,
  "eval_sample_packing": true,
  "eval_table_size": 0,
  "experimental_skip_move_to_device": true,
  "flash_attention": true,
  "fp16": false,
  "fsdp": [
    "auto_wrap",
    "full_shard"
  ],
  "fsdp_config": {
    "activation_checkpointing": true,
    "auto_wrap_policy": "TRANSFORMER_BASED_WRAP",
    "cpu_ram_efficient_loading": true,
    "fsdp_version": 2,
    "offload_params": false,
    "reshard_after_forward": true,
    "state_dict_type": "SHARDED_STATE_DICT",
    "transformer_layer_cls_to_wrap": "LlamaDecoderLayer"
  },
  "fsdp_version": 2,
  "gradient_accumulation_steps": 2,
  "gradient_checkpointing": true,
  "gradient_checkpointing_kwargs": {
    "use_reentrant": true
  },
  "group_by_length": false,
  "include_tkps": true,
  "is_llama_derived_model": true,
  "learning_rate": 5e-05,
  "lisa_layers_attribute": "model.layers",
  "load_best_model_at_end": false,
  "load_in_4bit": false,
  "load_in_8bit": false,
  "local_rank": 0,
  "logging_steps": 1,
  "lora_dropout": 0.0,
  "loraplus_lr_embedding": 1e-06,
  "lr_scheduler": "constant",
  "max_grad_norm": 0.1,
  "mean_resizing_embeddings": false,
  "micro_batch_size": 2,
  "model_config_type": "llama",
  "num_epochs": 4.0,
  "optimizer": "adamw_torch_8bit",
  "otel_metrics_host": "localhost",
  "otel_metrics_port": 8000,
  "output_dir": "./model-output",
  "pad_to_sequence_len": true,
  "pretrain_multipack_attn": true,
  "profiler_steps_start": 0,
  "qlora_sharded_model_loading": false,
  "ray_num_workers": 1,
  "resources_per_worker": {
    "GPU": 1
  },
  "sample_packing": true,
  "sample_packing_bin_size": 200,
  "sample_packing_group_size": 100000,
  "save_only_model": false,
  "save_safetensors": true,
  "save_steps": 0.25,
  "saves_per_epoch": 1,
  "sequence_len": 2048,
  "shuffle_before_merging_datasets": false,
  "shuffle_merged_datasets": true,
  "skip_prepare_dataset": false,
  "streaming_multipack_buffer_size": 10000,
  "strict": false,
  "tensor_parallel_size": 1,
  "tiled_mlp_use_original_mlp": true,
  "tokenizer_config": "Nanbeige/Nanbeige4-3B-Thinking-2511",
  "tokenizer_save_jinja_files": true,
  "torch_dtype": "torch.bfloat16",
  "train_on_inputs": false,
  "trl": {
    "log_completions": false,
    "mask_truncated_completions": false,
    "ref_model_mixup_alpha": 0.9,
    "ref_model_sync_steps": 64,
    "scale_rewards": true,
    "sync_ref_model": false,
    "use_vllm": false,
    "vllm_server_host": "0.0.0.0",
    "vllm_server_port": 8000
  },
  "trust_remote_code": false,
  "use_otel_metrics": false,
  "use_ray": false,
  "use_wandb": true,
  "val_set_size": 0.0,
  "vllm": {
    "device": "auto",
    "dtype": "auto",
    "gpu_memory_utilization": 0.9,
    "host": "0.0.0.0",
    "port": 8000
  },
  "wandb_project": "polititune-3-wip-warmup",
  "warmup_ratio": 0.2,
  "weight_decay": 0.001,
  "world_size": 4
}
[2026-02-08 23:19:25,836] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:285] [PID:31858] EOS: 166101 / <|im_end|>
[2026-02-08 23:19:25,837] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:286] [PID:31858] BOS: 166100 / <|im_start|>
[2026-02-08 23:19:25,838] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:287] [PID:31858] PAD: 0 / <unk>
[2026-02-08 23:19:25,839] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:288] [PID:31858] UNK: 0 / <unk>
[2026-02-08 23:19:25,842] [INFO] [axolotl.utils.data.shared.load_preprocessed_dataset:475] [PID:31858] Loading prepared dataset from disk at last_run_prepared/22d86a2984af8d0d207033404eb271ea...
[2026-02-08 23:19:25,851] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:417] [PID:31858] total_num_tokens: 999_041
[2026-02-08 23:19:25,861] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:435] [PID:31858] `total_supervised_tokens: 807_335`
[2026-02-08 23:19:25,875] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:31858] Using single process for pack_parallel, running sequentially.
[2026-02-08 23:19:26,396] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:31858] Using single process for pack_parallel, running sequentially.
[2026-02-08 23:19:26,646] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:31858] generate_batches time: 0.2507505416870117
[2026-02-08 23:19:27,223] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:31858] gather_len_batches: [246, 246, 246, 246]
[2026-02-08 23:19:27,225] [WARNING] [py.warnings._showwarnmsg:110] [PID:31858] /root/axolotl/.venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2026-02-08 23:19:27,291] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:494] [PID:31858] data_loader_len: 30
[2026-02-08 23:19:27,297] [INFO] [axolotl.utils.trainer.calc_sample_packing_eff_est:510] [PID:31858] sample_packing_eff_est across ranks: [0.9955366849899292, 0.991489827632904, 0.991489827632904, 0.991489827632904]
[2026-02-08 23:19:27,297] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:522] [PID:31858] sample_packing_eff_est: 1.0
[2026-02-08 23:19:27,297] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:533] [PID:31858] total_num_steps: 120
[2026-02-08 23:19:27,297] [INFO] [axolotl.utils.data.sft._prepare_standard_dataset:121] [PID:31858] Maximum number of steps set at 120
[2026-02-08 23:19:27,340] [DEBUG] [axolotl.train.setup_model_and_tokenizer:70] [PID:31858] loading tokenizer... Nanbeige/Nanbeige4-3B-Thinking-2511
[2026-02-08 23:19:28,851] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:285] [PID:31858] EOS: 166101 / <|im_end|>
[2026-02-08 23:19:28,852] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:286] [PID:31858] BOS: 166100 / <|im_start|>
[2026-02-08 23:19:28,853] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:287] [PID:31858] PAD: 0 / <unk>
[2026-02-08 23:19:28,854] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:288] [PID:31858] UNK: 0 / <unk>
[2026-02-08 23:19:28,856] [DEBUG] [axolotl.train.setup_model_and_tokenizer:82] [PID:31858] Loading model
[2026-02-08 23:19:28,933] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_evaluation_loop:87] [PID:31858] Patched Trainer.evaluation_loop with nanmean loss calculation
[2026-02-08 23:19:28,934] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_maybe_log_save_evaluate:138] [PID:31858] Patched Trainer._maybe_log_save_evaluate with nanmean loss calculation
[2026-02-08 23:19:28,935] [INFO] [axolotl.loaders.patch_manager._apply_multipack_patches:338] [PID:31858] Applying multipack dataloader patch for sample packing...
Loading weights:   0%|                                                                                                                                                                    | 0/291 [00:00<?, ?it/s]Loading weights:   0%|▍                                                                                                                    | 1/291 [00:00<00:00, 18808.54it/s, Materializing param=lm_head.weight]Loading weights:   0%|▍                                                                                                                     | 1/291 [00:00<00:00, 5426.01it/s, Materializing param=lm_head.weight]Loading weights:   1%|▋                                                                                                          | 2/291 [00:00<00:00, 3679.21it/s, Materializing param=model.embed_tokens.weight]Loading weights:   1%|▋                                                                                                          | 2/291 [00:00<00:00, 2155.90it/s, Materializing param=model.embed_tokens.weight]Loading weights:   1%|▉                                                                                              | 3/291 [00:00<00:00, 2350.63it/s, Materializing param=model.layers.0.input_layernorm.weight]Loading weights:   1%|▉                                                                                              | 3/291 [00:00<00:00, 2081.54it/s, Materializing param=model.layers.0.input_layernorm.weight]Loading weights:   1%|█▎                                                                                               | 4/291 [00:00<00:00, 2313.46it/s, Materializing param=model.layers.0.mlp.down_proj.weight]Loading weights:   1%|█▎                                                                                               | 4/291 [00:00<00:00, 2088.28it/s, Materializing param=model.layers.0.mlp.down_proj.weight]Loading weights:   2%|█▋                                                                                               | 5/291 [00:00<00:00, 2272.10it/s, Materializing param=model.layers.0.mlp.gate_proj.weight]Loading weights:   2%|█▋                                                                                               | 5/291 [00:00<00:00, 1947.40it/s, Materializing param=model.layers.0.mlp.gate_proj.weight]Loading weights:   2%|██                                                                                                 | 6/291 [00:00<00:00, 2217.25it/s, Materializing param=model.layers.0.mlp.up_proj.weight]Loading weights:   2%|██                                                                                                 | 6/291 [00:00<00:00, 2081.37it/s, Materializing param=model.layers.0.mlp.up_proj.weight]Loading weights:   2%|██                                                                                    | 7/291 [00:00<00:00, 2002.33it/s, Materializing param=model.layers.0.post_attention_layernorm.weight]Loading weights:   2%|██                                                                                    | 7/291 [00:00<00:00, 1869.00it/s, Materializing param=model.layers.0.post_attention_layernorm.weight]Loading weights:   3%|██▌                                                                                           | 8/291 [00:00<00:00, 2012.50it/s, Materializing param=model.layers.0.self_attn.k_proj.weight]Loading weights:   3%|██▌                                                                                           | 8/291 [00:00<00:00, 1914.55it/s, Materializing param=model.layers.0.self_attn.k_proj.weight]Loading weights:   3%|██▉                                                                                           | 9/291 [00:00<00:00, 2034.20it/s, Materializing param=model.layers.0.self_attn.o_proj.weight]Loading weights:   3%|██▉                                                                                           | 9/291 [00:00<00:00, 1920.27it/s, Materializing param=model.layers.0.self_attn.o_proj.weight]Loading weights:   3%|███▏                                                                                         | 10/291 [00:00<00:00, 1930.46it/s, Materializing param=model.layers.0.self_attn.q_proj.weight]Loading weights:   3%|███▏                                                                                         | 10/291 [00:00<00:00, 1856.46it/s, Materializing param=model.layers.0.self_attn.q_proj.weight]Loading weights:   4%|███▌                                                                                         | 11/291 [00:00<00:00, 1914.49it/s, Materializing param=model.layers.0.self_attn.v_proj.weight]Loading weights:   4%|███▌                                                                                         | 11/291 [00:00<00:00, 1799.99it/s, Materializing param=model.layers.0.self_attn.v_proj.weight]Loading weights:   4%|███▉                                                                                          | 12/291 [00:00<00:00, 1869.74it/s, Materializing param=model.layers.1.input_layernorm.weight]Loading weights:   4%|███▉                                                                                          | 12/291 [00:00<00:00, 1787.98it/s, Materializing param=model.layers.1.input_layernorm.weight]Loading weights:   4%|████▎                                                                                           | 13/291 [00:00<00:00, 1867.97it/s, Materializing param=model.layers.1.mlp.down_proj.weight]Loading weights:   4%|████▎                                                                                           | 13/291 [00:00<00:00, 1792.85it/s, Materializing param=model.layers.1.mlp.down_proj.weight]Loading weights:   5%|████▌                                                                                           | 14/291 [00:00<00:00, 1835.18it/s, Materializing param=model.layers.1.mlp.gate_proj.weight]Loading weights:   5%|████▌                                                                                           | 14/291 [00:00<00:00, 1805.94it/s, Materializing param=model.layers.1.mlp.gate_proj.weight]Loading weights:   5%|█████                                                                                             | 15/291 [00:00<00:00, 1860.00it/s, Materializing param=model.layers.1.mlp.up_proj.weight]Loading weights:   5%|█████                                                                                             | 15/291 [00:00<00:00, 1841.60it/s, Materializing param=model.layers.1.mlp.up_proj.weight]Loading weights:   5%|████▋                                                                                | 16/291 [00:00<00:00, 1898.04it/s, Materializing param=model.layers.1.post_attention_layernorm.weight]Loading weights:   5%|████▋                                                                                | 16/291 [00:00<00:00, 1820.05it/s, Materializing param=model.layers.1.post_attention_layernorm.weight]Loading weights:   6%|█████▍                                                                                       | 17/291 [00:00<00:00, 1836.57it/s, Materializing param=model.layers.1.self_attn.k_proj.weight]Loading weights:   6%|█████▍                                                                                       | 17/291 [00:00<00:00, 1763.01it/s, Materializing param=model.layers.1.self_attn.k_proj.weight]Loading weights:   6%|█████▊                                                                                       | 18/291 [00:00<00:00, 1792.86it/s, Materializing param=model.layers.1.self_attn.o_proj.weight]Loading weights:   6%|█████▊                                                                                       | 18/291 [00:00<00:00, 1755.84it/s, Materializing param=model.layers.1.self_attn.o_proj.weight]Loading weights:   7%|██████                                                                                       | 19/291 [00:00<00:00, 1801.23it/s, Materializing param=model.layers.1.self_attn.q_proj.weight]Loading weights:   7%|██████                                                                                       | 19/291 [00:00<00:00, 1759.82it/s, Materializing param=model.layers.1.self_attn.q_proj.weight]Loading weights:   7%|██████▍                                                                                      | 20/291 [00:00<00:00, 1816.66it/s, Materializing param=model.layers.1.self_attn.v_proj.weight]Loading weights:   7%|██████▍                                                                                      | 20/291 [00:00<00:00, 1783.22it/s, Materializing param=model.layers.1.self_attn.v_proj.weight]Loading weights:   7%|██████▊                                                                                       | 21/291 [00:00<00:00, 1841.61it/s, Materializing param=model.layers.2.input_layernorm.weight]Loading weights:   7%|██████▊                                                                                       | 21/291 [00:00<00:00, 1796.64it/s, Materializing param=model.layers.2.input_layernorm.weight]Loading weights:   8%|███████▎                                                                                        | 22/291 [00:00<00:00, 1844.20it/s, Materializing param=model.layers.2.mlp.down_proj.weight]Loading weights:   8%|███████▎                                                                                        | 22/291 [00:00<00:00, 1812.68it/s, Materializing param=model.layers.2.mlp.down_proj.weight]Loading weights:   8%|███████▌                                                                                        | 23/291 [00:00<00:00, 1848.06it/s, Materializing param=model.layers.2.mlp.gate_proj.weight]Loading weights:   8%|███████▌                                                                                        | 23/291 [00:00<00:00, 1826.27it/s, Materializing param=model.layers.2.mlp.gate_proj.weight]Loading weights:   8%|████████                                                                                          | 24/291 [00:00<00:00, 1868.91it/s, Materializing param=model.layers.2.mlp.up_proj.weight]Loading weights:   8%|████████                                                                                          | 24/291 [00:00<00:00, 1829.18it/s, Materializing param=model.layers.2.mlp.up_proj.weight]Loading weights:   9%|███████▎                                                                             | 25/291 [00:00<00:00, 1884.57it/s, Materializing param=model.layers.2.post_attention_layernorm.weight]Loading weights:   9%|███████▎                                                                             | 25/291 [00:00<00:00, 1851.43it/s, Materializing param=model.layers.2.post_attention_layernorm.weight]Loading weights:   9%|████████▎                                                                                    | 26/291 [00:00<00:00, 1906.00it/s, Materializing param=model.layers.2.self_attn.k_proj.weight]Loading weights:   9%|████████▎                                                                                    | 26/291 [00:00<00:00, 1874.68it/s, Materializing param=model.layers.2.self_attn.k_proj.weight]Loading weights:   9%|████████▋                                                                                    | 27/291 [00:00<00:00, 1885.83it/s, Materializing param=model.layers.2.self_attn.o_proj.weight]Loading weights:   9%|████████▋                                                                                    | 27/291 [00:00<00:00, 1876.27it/s, Materializing param=model.layers.2.self_attn.o_proj.weight]Loading weights:  10%|████████▉                                                                                    | 28/291 [00:00<00:00, 1927.37it/s, Materializing param=model.layers.2.self_attn.q_proj.weight]Loading weights:  10%|████████▉                                                                                    | 28/291 [00:00<00:00, 1900.12it/s, Materializing param=model.layers.2.self_attn.q_proj.weight]Loading weights:  10%|█████████▎                                                                                   | 29/291 [00:00<00:00, 1948.40it/s, Materializing param=model.layers.2.self_attn.v_proj.weight]Loading weights:  10%|█████████▎                                                                                   | 29/291 [00:00<00:00, 1938.93it/s, Materializing param=model.layers.2.self_attn.v_proj.weight]Loading weights:  10%|█████████▋                                                                                    | 30/291 [00:00<00:00, 1982.31it/s, Materializing param=model.layers.3.input_layernorm.weight]Loading weights:  10%|█████████▋                                                                                    | 30/291 [00:00<00:00, 1923.20it/s, Materializing param=model.layers.3.input_layernorm.weight]Loading weights:  11%|██████████▏                                                                                     | 31/291 [00:00<00:00, 1968.74it/s, Materializing param=model.layers.3.mlp.down_proj.weight]Loading weights:  11%|██████████▏                                                                                     | 31/291 [00:00<00:00, 1934.50it/s, Materializing param=model.layers.3.mlp.down_proj.weight]Loading weights:  11%|██████████▌                                                                                     | 32/291 [00:00<00:00, 1958.33it/s, Materializing param=model.layers.3.mlp.gate_proj.weight]Loading weights:  11%|██████████▌                                                                                     | 32/291 [00:00<00:00, 1949.82it/s, Materializing param=model.layers.3.mlp.gate_proj.weight]Loading weights:  11%|███████████                                                                                       | 33/291 [00:00<00:00, 1951.33it/s, Materializing param=model.layers.3.mlp.up_proj.weight]Loading weights:  11%|███████████                                                                                       | 33/291 [00:00<00:00, 1905.53it/s, Materializing param=model.layers.3.mlp.up_proj.weight]Loading weights:  12%|█████████▉                                                                           | 34/291 [00:00<00:00, 1942.10it/s, Materializing param=model.layers.3.post_attention_layernorm.weight]Loading weights:  12%|█████████▉                                                                           | 34/291 [00:00<00:00, 1913.59it/s, Materializing param=model.layers.3.post_attention_layernorm.weight]Loading weights:  12%|███████████▏                                                                                 | 35/291 [00:00<00:00, 1957.24it/s, Materializing param=model.layers.3.self_attn.k_proj.weight]Loading weights:  12%|███████████▏                                                                                 | 35/291 [00:00<00:00, 1940.42it/s, Materializing param=model.layers.3.self_attn.k_proj.weight]Loading weights:  12%|███████████▌                                                                                 | 36/291 [00:00<00:00, 1984.56it/s, Materializing param=model.layers.3.self_attn.o_proj.weight]Loading weights:  12%|███████████▌                                                                                 | 36/291 [00:00<00:00, 1977.10it/s, Materializing param=model.layers.3.self_attn.o_proj.weight]Loading weights:  13%|███████████▊                                                                                 | 37/291 [00:00<00:00, 2020.61it/s, Materializing param=model.layers.3.self_attn.q_proj.weight]Loading weights:  13%|███████████▊                                                                                 | 37/291 [00:00<00:00, 2013.17it/s, Materializing param=model.layers.3.self_attn.q_proj.weight]Loading weights:  13%|████████████▏                                                                                | 38/291 [00:00<00:00, 2056.85it/s, Materializing param=model.layers.3.self_attn.v_proj.weight]Loading weights:  13%|████████████▏                                                                                | 38/291 [00:00<00:00, 2049.42it/s, Materializing param=model.layers.3.self_attn.v_proj.weight]Loading weights:  13%|████████████▌                                                                                 | 39/291 [00:00<00:00, 2092.75it/s, Materializing param=model.layers.4.input_layernorm.weight]Loading weights:  13%|████████████▌                                                                                 | 39/291 [00:00<00:00, 2085.44it/s, Materializing param=model.layers.4.input_layernorm.weight]Loading weights:  14%|█████████████▏                                                                                  | 40/291 [00:00<00:00, 2128.28it/s, Materializing param=model.layers.4.mlp.down_proj.weight]Loading weights:  14%|█████████████▏                                                                                  | 40/291 [00:00<00:00, 2120.75it/s, Materializing param=model.layers.4.mlp.down_proj.weight]Loading weights:  14%|█████████████▌                                                                                  | 41/291 [00:00<00:00, 2163.02it/s, Materializing param=model.layers.4.mlp.gate_proj.weight]Loading weights:  14%|█████████████▌                                                                                  | 41/291 [00:00<00:00, 2155.40it/s, Materializing param=model.layers.4.mlp.gate_proj.weight]Loading weights:  14%|██████████████▏                                                                                   | 42/291 [00:00<00:00, 2197.04it/s, Materializing param=model.layers.4.mlp.up_proj.weight]Loading weights:  14%|██████████████▏                                                                                   | 42/291 [00:00<00:00, 2189.34it/s, Materializing param=model.layers.4.mlp.up_proj.weight]Loading weights:  15%|████████████▌                                                                        | 43/291 [00:00<00:00, 2230.74it/s, Materializing param=model.layers.4.post_attention_layernorm.weight]Loading weights:  15%|████████████▌                                                                        | 43/291 [00:00<00:00, 2223.07it/s, Materializing param=model.layers.4.post_attention_layernorm.weight]Loading weights:  15%|██████████████                                                                               | 44/291 [00:00<00:00, 2263.88it/s, Materializing param=model.layers.4.self_attn.k_proj.weight]Loading weights:  15%|██████████████                                                                               | 44/291 [00:00<00:00, 2256.30it/s, Materializing param=model.layers.4.self_attn.k_proj.weight]Loading weights:  15%|██████████████▍                                                                              | 45/291 [00:00<00:00, 2296.65it/s, Materializing param=model.layers.4.self_attn.o_proj.weight]Loading weights:  15%|██████████████▍                                                                              | 45/291 [00:00<00:00, 2288.41it/s, Materializing param=model.layers.4.self_attn.o_proj.weight]Loading weights:  16%|██████████████▋                                                                              | 46/291 [00:00<00:00, 2327.98it/s, Materializing param=model.layers.4.self_attn.q_proj.weight]Loading weights:  16%|██████████████▋                                                                              | 46/291 [00:00<00:00, 2320.33it/s, Materializing param=model.layers.4.self_attn.q_proj.weight]Loading weights:  16%|███████████████                                                                              | 47/291 [00:00<00:00, 2359.68it/s, Materializing param=model.layers.4.self_attn.v_proj.weight]Loading weights:  16%|███████████████                                                                              | 47/291 [00:00<00:00, 2351.91it/s, Materializing param=model.layers.4.self_attn.v_proj.weight]Loading weights:  16%|███████████████▌                                                                              | 48/291 [00:00<00:00, 2390.80it/s, Materializing param=model.layers.5.input_layernorm.weight]Loading weights:  16%|███████████████▌                                                                              | 48/291 [00:00<00:00, 2382.99it/s, Materializing param=model.layers.5.input_layernorm.weight]Loading weights:  17%|████████████████▏                                                                               | 49/291 [00:00<00:00, 2421.65it/s, Materializing param=model.layers.5.mlp.down_proj.weight]Loading weights:  17%|████████████████▏                                                                               | 49/291 [00:00<00:00, 2413.78it/s, Materializing param=model.layers.5.mlp.down_proj.weight]Loading weights:  17%|████████████████▍                                                                               | 50/291 [00:00<00:00, 2451.89it/s, Materializing param=model.layers.5.mlp.gate_proj.weight]Loading weights:  17%|████████████████▍                                                                               | 50/291 [00:00<00:00, 2444.18it/s, Materializing param=model.layers.5.mlp.gate_proj.weight]Loading weights:  18%|█████████████████▏                                                                                | 51/291 [00:00<00:00, 2481.98it/s, Materializing param=model.layers.5.mlp.up_proj.weight]Loading weights:  18%|█████████████████▏                                                                                | 51/291 [00:00<00:00, 2474.06it/s, Materializing param=model.layers.5.mlp.up_proj.weight]Loading weights:  18%|███████████████▏                                                                     | 52/291 [00:00<00:00, 2511.41it/s, Materializing param=model.layers.5.post_attention_layernorm.weight]Loading weights:  18%|███████████████▏                                                                     | 52/291 [00:00<00:00, 2503.46it/s, Materializing param=model.layers.5.post_attention_layernorm.weight]Loading weights:  18%|████████████████▉                                                                            | 53/291 [00:00<00:00, 2540.09it/s, Materializing param=model.layers.5.self_attn.k_proj.weight]Loading weights:  18%|████████████████▉                                                                            | 53/291 [00:00<00:00, 2532.04it/s, Materializing param=model.layers.5.self_attn.k_proj.weight]Loading weights:  19%|█████████████████▎                                                                           | 54/291 [00:00<00:00, 2567.74it/s, Materializing param=model.layers.5.self_attn.o_proj.weight]Loading weights:  19%|█████████████████▎                                                                           | 54/291 [00:00<00:00, 2559.76it/s, Materializing param=model.layers.5.self_attn.o_proj.weight]Loading weights:  19%|█████████████████▌                                                                           | 55/291 [00:00<00:00, 2595.75it/s, Materializing param=model.layers.5.self_attn.q_proj.weight]Loading weights:  19%|█████████████████▌                                                                           | 55/291 [00:00<00:00, 2587.74it/s, Materializing param=model.layers.5.self_attn.q_proj.weight]Loading weights:  19%|█████████████████▉                                                                           | 56/291 [00:00<00:00, 2623.31it/s, Materializing param=model.layers.5.self_attn.v_proj.weight]Loading weights:  19%|█████████████████▉                                                                           | 56/291 [00:00<00:00, 2615.19it/s, Materializing param=model.layers.5.self_attn.v_proj.weight]Loading weights:  20%|██████████████████▍                                                                           | 57/291 [00:00<00:00, 2650.56it/s, Materializing param=model.layers.6.input_layernorm.weight]Loading weights:  20%|██████████████████▍                                                                           | 57/291 [00:00<00:00, 2642.45it/s, Materializing param=model.layers.6.input_layernorm.weight]Loading weights:  20%|███████████████████▏                                                                            | 58/291 [00:00<00:00, 2675.06it/s, Materializing param=model.layers.6.mlp.down_proj.weight]Loading weights:  20%|███████████████████▏                                                                            | 58/291 [00:00<00:00, 2666.70it/s, Materializing param=model.layers.6.mlp.down_proj.weight]Loading weights:  20%|███████████████████▍                                                                            | 59/291 [00:00<00:00, 2700.89it/s, Materializing param=model.layers.6.mlp.gate_proj.weight]Loading weights:  20%|███████████████████▍                                                                            | 59/291 [00:00<00:00, 2692.84it/s, Materializing param=model.layers.6.mlp.gate_proj.weight]Loading weights:  21%|████████████████████▏                                                                             | 60/291 [00:00<00:00, 2726.91it/s, Materializing param=model.layers.6.mlp.up_proj.weight]Loading weights:  21%|████████████████████▏                                                                             | 60/291 [00:00<00:00, 2718.90it/s, Materializing param=model.layers.6.mlp.up_proj.weight]Loading weights:  21%|█████████████████▊                                                                   | 61/291 [00:00<00:00, 2752.52it/s, Materializing param=model.layers.6.post_attention_layernorm.weight]Loading weights:  21%|█████████████████▊                                                                   | 61/291 [00:00<00:00, 2744.23it/s, Materializing param=model.layers.6.post_attention_layernorm.weight]Loading weights:  21%|███████████████████▊                                                                         | 62/291 [00:00<00:00, 2776.85it/s, Materializing param=model.layers.6.self_attn.k_proj.weight]Loading weights:  21%|███████████████████▊                                                                         | 62/291 [00:00<00:00, 2768.49it/s, Materializing param=model.layers.6.self_attn.k_proj.weight]Loading weights:  22%|████████████████████▏                                                                        | 63/291 [00:00<00:00, 2801.69it/s, Materializing param=model.layers.6.self_attn.o_proj.weight]Loading weights:  22%|████████████████████▏                                                                        | 63/291 [00:00<00:00, 2793.60it/s, Materializing param=model.layers.6.self_attn.o_proj.weight]Loading weights:  22%|████████████████████▍                                                                        | 64/291 [00:00<00:00, 2826.56it/s, Materializing param=model.layers.6.self_attn.q_proj.weight]Loading weights:  22%|████████████████████▍                                                                        | 64/291 [00:00<00:00, 2818.49it/s, Materializing param=model.layers.6.self_attn.q_proj.weight]Loading weights:  22%|████████████████████▊                                                                        | 65/291 [00:00<00:00, 2850.88it/s, Materializing param=model.layers.6.self_attn.v_proj.weight]Loading weights:  22%|████████████████████▊                                                                        | 65/291 [00:00<00:00, 2842.56it/s, Materializing param=model.layers.6.self_attn.v_proj.weight]Loading weights:  23%|█████████████████████▎                                                                        | 66/291 [00:00<00:00, 2874.63it/s, Materializing param=model.layers.7.input_layernorm.weight]Loading weights:  23%|█████████████████████▎                                                                        | 66/291 [00:00<00:00, 2866.42it/s, Materializing param=model.layers.7.input_layernorm.weight]Loading weights:  23%|██████████████████████                                                                          | 67/291 [00:00<00:00, 2898.32it/s, Materializing param=model.layers.7.mlp.down_proj.weight]Loading weights:  23%|██████████████████████                                                                          | 67/291 [00:00<00:00, 2890.21it/s, Materializing param=model.layers.7.mlp.down_proj.weight]Loading weights:  23%|██████████████████████▍                                                                         | 68/291 [00:00<00:00, 2921.69it/s, Materializing param=model.layers.7.mlp.gate_proj.weight]Loading weights:  23%|██████████████████████▍                                                                         | 68/291 [00:00<00:00, 2913.40it/s, Materializing param=model.layers.7.mlp.gate_proj.weight]Loading weights:  24%|███████████████████████▏                                                                          | 69/291 [00:00<00:00, 2944.42it/s, Materializing param=model.layers.7.mlp.up_proj.weight]Loading weights:  24%|███████████████████████▏                                                                          | 69/291 [00:00<00:00, 2936.20it/s, Materializing param=model.layers.7.mlp.up_proj.weight]Loading weights:  24%|████████████████████▍                                                                | 70/291 [00:00<00:00, 2966.42it/s, Materializing param=model.layers.7.post_attention_layernorm.weight]Loading weights:  24%|████████████████████▍                                                                | 70/291 [00:00<00:00, 2958.08it/s, Materializing param=model.layers.7.post_attention_layernorm.weight]Loading weights:  24%|██████████████████████▋                                                                      | 71/291 [00:00<00:00, 2988.57it/s, Materializing param=model.layers.7.self_attn.k_proj.weight]Loading weights:  24%|██████████████████████▋                                                                      | 71/291 [00:00<00:00, 2980.25it/s, Materializing param=model.layers.7.self_attn.k_proj.weight]Loading weights:  25%|███████████████████████                                                                      | 72/291 [00:00<00:00, 3010.51it/s, Materializing param=model.layers.7.self_attn.o_proj.weight]Loading weights:  25%|███████████████████████                                                                      | 72/291 [00:00<00:00, 3002.16it/s, Materializing param=model.layers.7.self_attn.o_proj.weight]Loading weights:  25%|███████████████████████▎                                                                     | 73/291 [00:00<00:00, 3032.10it/s, Materializing param=model.layers.7.self_attn.q_proj.weight]Loading weights:  25%|███████████████████████▎                                                                     | 73/291 [00:00<00:00, 3023.83it/s, Materializing param=model.layers.7.self_attn.q_proj.weight]Loading weights:  25%|███████████████████████▋                                                                     | 74/291 [00:00<00:00, 3053.46it/s, Materializing param=model.layers.7.self_attn.v_proj.weight]Loading weights:  25%|███████████████████████▋                                                                     | 74/291 [00:00<00:00, 3045.26it/s, Materializing param=model.layers.7.self_attn.v_proj.weight]Loading weights:  26%|████████████████████████▏                                                                     | 75/291 [00:00<00:00, 3074.64it/s, Materializing param=model.layers.8.input_layernorm.weight]Loading weights:  26%|████████████████████████▏                                                                     | 75/291 [00:00<00:00, 3066.31it/s, Materializing param=model.layers.8.input_layernorm.weight]Loading weights:  26%|█████████████████████████                                                                       | 76/291 [00:00<00:00, 3095.40it/s, Materializing param=model.layers.8.mlp.down_proj.weight]Loading weights:  26%|█████████████████████████                                                                       | 76/291 [00:00<00:00, 3087.12it/s, Materializing param=model.layers.8.mlp.down_proj.weight]Loading weights:  26%|█████████████████████████▍                                                                      | 77/291 [00:00<00:00, 3116.03it/s, Materializing param=model.layers.8.mlp.gate_proj.weight]Loading weights:  26%|█████████████████████████▍                                                                      | 77/291 [00:00<00:00, 3107.61it/s, Materializing param=model.layers.8.mlp.gate_proj.weight]Loading weights:  27%|██████████████████████████▎                                                                       | 78/291 [00:00<00:00, 3135.36it/s, Materializing param=model.layers.8.mlp.up_proj.weight]Loading weights:  27%|██████████████████████████▎                                                                       | 78/291 [00:00<00:00, 3127.06it/s, Materializing param=model.layers.8.mlp.up_proj.weight]Loading weights:  27%|███████████████████████                                                              | 79/291 [00:00<00:00, 3155.32it/s, Materializing param=model.layers.8.post_attention_layernorm.weight]Loading weights:  27%|███████████████████████                                                              | 79/291 [00:00<00:00, 3146.84it/s, Materializing param=model.layers.8.post_attention_layernorm.weight]Loading weights:  27%|█████████████████████████▌                                                                   | 80/291 [00:00<00:00, 3174.38it/s, Materializing param=model.layers.8.self_attn.k_proj.weight]Loading weights:  27%|█████████████████████████▌                                                                   | 80/291 [00:00<00:00, 3165.63it/s, Materializing param=model.layers.8.self_attn.k_proj.weight]Loading weights:  28%|█████████████████████████▉                                                                   | 81/291 [00:00<00:00, 3193.21it/s, Materializing param=model.layers.8.self_attn.o_proj.weight]Loading weights:  28%|█████████████████████████▉                                                                   | 81/291 [00:00<00:00, 3184.80it/s, Materializing param=model.layers.8.self_attn.o_proj.weight]Loading weights:  28%|██████████████████████████▏                                                                  | 82/291 [00:00<00:00, 3212.25it/s, Materializing param=model.layers.8.self_attn.q_proj.weight]Loading weights:  28%|██████████████████████████▏                                                                  | 82/291 [00:00<00:00, 3203.91it/s, Materializing param=model.layers.8.self_attn.q_proj.weight]Loading weights:  29%|██████████████████████████▌                                                                  | 83/291 [00:00<00:00, 3228.57it/s, Materializing param=model.layers.8.self_attn.v_proj.weight]Loading weights:  29%|██████████████████████████▌                                                                  | 83/291 [00:00<00:00, 3220.00it/s, Materializing param=model.layers.8.self_attn.v_proj.weight]Loading weights:  29%|███████████████████████████▏                                                                  | 84/291 [00:00<00:00, 3246.99it/s, Materializing param=model.layers.9.input_layernorm.weight]Loading weights:  29%|███████████████████████████▏                                                                  | 84/291 [00:00<00:00, 3238.46it/s, Materializing param=model.layers.9.input_layernorm.weight]Loading weights:  29%|████████████████████████████                                                                    | 85/291 [00:00<00:00, 3265.28it/s, Materializing param=model.layers.9.mlp.down_proj.weight]Loading weights:  29%|████████████████████████████                                                                    | 85/291 [00:00<00:00, 3257.07it/s, Materializing param=model.layers.9.mlp.down_proj.weight]Loading weights:  30%|████████████████████████████▎                                                                   | 86/291 [00:00<00:00, 3282.79it/s, Materializing param=model.layers.9.mlp.gate_proj.weight]Loading weights:  30%|████████████████████████████▎                                                                   | 86/291 [00:00<00:00, 3274.45it/s, Materializing param=model.layers.9.mlp.gate_proj.weight]Loading weights:  30%|█████████████████████████████▎                                                                    | 87/291 [00:00<00:00, 3301.05it/s, Materializing param=model.layers.9.mlp.up_proj.weight]Loading weights:  30%|█████████████████████████████▎                                                                    | 87/291 [00:00<00:00, 3292.92it/s, Materializing param=model.layers.9.mlp.up_proj.weight]Loading weights:  30%|█████████████████████████▋                                                           | 88/291 [00:00<00:00, 3319.23it/s, Materializing param=model.layers.9.post_attention_layernorm.weight]Loading weights:  30%|█████████████████████████▋                                                           | 88/291 [00:00<00:00, 3310.84it/s, Materializing param=model.layers.9.post_attention_layernorm.weight]Loading weights:  31%|████████████████████████████▍                                                                | 89/291 [00:00<00:00, 3336.70it/s, Materializing param=model.layers.9.self_attn.k_proj.weight]Loading weights:  31%|████████████████████████████▍                                                                | 89/291 [00:00<00:00, 3328.34it/s, Materializing param=model.layers.9.self_attn.k_proj.weight]Loading weights:  31%|████████████████████████████▊                                                                | 90/291 [00:00<00:00, 3353.98it/s, Materializing param=model.layers.9.self_attn.o_proj.weight]Loading weights:  31%|████████████████████████████▊                                                                | 90/291 [00:00<00:00, 3345.60it/s, Materializing param=model.layers.9.self_attn.o_proj.weight]Loading weights:  31%|█████████████████████████████                                                                | 91/291 [00:00<00:00, 3371.03it/s, Materializing param=model.layers.9.self_attn.q_proj.weight]Loading weights:  31%|█████████████████████████████                                                                | 91/291 [00:00<00:00, 3362.60it/s, Materializing param=model.layers.9.self_attn.q_proj.weight]Loading weights:  32%|█████████████████████████████▍                                                               | 92/291 [00:00<00:00, 3387.82it/s, Materializing param=model.layers.9.self_attn.v_proj.weight]Loading weights:  32%|█████████████████████████████▍                                                               | 92/291 [00:00<00:00, 3379.27it/s, Materializing param=model.layers.9.self_attn.v_proj.weight]Loading weights:  32%|█████████████████████████████▋                                                               | 93/291 [00:00<00:00, 3404.26it/s, Materializing param=model.layers.10.input_layernorm.weight]Loading weights:  32%|█████████████████████████████▋                                                               | 93/291 [00:00<00:00, 3395.37it/s, Materializing param=model.layers.10.input_layernorm.weight]Loading weights:  32%|██████████████████████████████▋                                                                | 94/291 [00:00<00:00, 3419.65it/s, Materializing param=model.layers.10.mlp.down_proj.weight]Loading weights:  32%|██████████████████████████████▋                                                                | 94/291 [00:00<00:00, 3411.21it/s, Materializing param=model.layers.10.mlp.down_proj.weight]Loading weights:  33%|███████████████████████████████                                                                | 95/291 [00:00<00:00, 3435.79it/s, Materializing param=model.layers.10.mlp.gate_proj.weight]Loading weights:  33%|███████████████████████████████                                                                | 95/291 [00:00<00:00, 3427.75it/s, Materializing param=model.layers.10.mlp.gate_proj.weight]Loading weights:  33%|████████████████████████████████                                                                 | 96/291 [00:00<00:00, 3452.22it/s, Materializing param=model.layers.10.mlp.up_proj.weight]Loading weights:  33%|████████████████████████████████                                                                 | 96/291 [00:00<00:00, 3444.13it/s, Materializing param=model.layers.10.mlp.up_proj.weight]Loading weights:  33%|████████████████████████████                                                        | 97/291 [00:00<00:00, 3468.55it/s, Materializing param=model.layers.10.post_attention_layernorm.weight]Loading weights:  33%|████████████████████████████                                                        | 97/291 [00:00<00:00, 3460.26it/s, Materializing param=model.layers.10.post_attention_layernorm.weight]Loading weights:  34%|██████████████████████████████▉                                                             | 98/291 [00:00<00:00, 3484.47it/s, Materializing param=model.layers.10.self_attn.k_proj.weight]Loading weights:  34%|██████████████████████████████▉                                                             | 98/291 [00:00<00:00, 3476.10it/s, Materializing param=model.layers.10.self_attn.k_proj.weight]Loading weights:  34%|███████████████████████████████▎                                                            | 99/291 [00:00<00:00, 3500.09it/s, Materializing param=model.layers.10.self_attn.o_proj.weight]Loading weights:  34%|███████████████████████████████▎                                                            | 99/291 [00:00<00:00, 3491.76it/s, Materializing param=model.layers.10.self_attn.o_proj.weight]Loading weights:  34%|███████████████████████████████▎                                                           | 100/291 [00:00<00:00, 3515.64it/s, Materializing param=model.layers.10.self_attn.q_proj.weight]Loading weights:  34%|███████████████████████████████▎                                                           | 100/291 [00:00<00:00, 3507.56it/s, Materializing param=model.layers.10.self_attn.q_proj.weight]Loading weights:  35%|███████████████████████████████▌                                                           | 101/291 [00:00<00:00, 3530.32it/s, Materializing param=model.layers.10.self_attn.v_proj.weight]Loading weights:  35%|███████████████████████████████▌                                                           | 101/291 [00:00<00:00, 3522.02it/s, Materializing param=model.layers.10.self_attn.v_proj.weight]Loading weights:  35%|████████████████████████████████▏                                                           | 102/291 [00:00<00:00, 3545.36it/s, Materializing param=model.layers.11.input_layernorm.weight]Loading weights:  35%|████████████████████████████████▏                                                           | 102/291 [00:00<00:00, 3537.21it/s, Materializing param=model.layers.11.input_layernorm.weight]Loading weights:  35%|█████████████████████████████████▎                                                            | 103/291 [00:00<00:00, 3560.47it/s, Materializing param=model.layers.11.mlp.down_proj.weight]Loading weights:  35%|█████████████████████████████████▎                                                            | 103/291 [00:00<00:00, 3552.42it/s, Materializing param=model.layers.11.mlp.down_proj.weight]Loading weights:  36%|█████████████████████████████████▌                                                            | 104/291 [00:00<00:00, 3575.33it/s, Materializing param=model.layers.11.mlp.gate_proj.weight]Loading weights:  36%|█████████████████████████████████▌                                                            | 104/291 [00:00<00:00, 3567.23it/s, Materializing param=model.layers.11.mlp.gate_proj.weight]Loading weights:  36%|██████████████████████████████████▋                                                             | 105/291 [00:00<00:00, 3590.16it/s, Materializing param=model.layers.11.mlp.up_proj.weight]Loading weights:  36%|██████████████████████████████████▋                                                             | 105/291 [00:00<00:00, 3581.96it/s, Materializing param=model.layers.11.mlp.up_proj.weight]Loading weights:  36%|██████████████████████████████▏                                                    | 106/291 [00:00<00:00, 3604.76it/s, Materializing param=model.layers.11.post_attention_layernorm.weight]Loading weights:  36%|██████████████████████████████▏                                                    | 106/291 [00:00<00:00, 3596.68it/s, Materializing param=model.layers.11.post_attention_layernorm.weight]Loading weights:  37%|█████████████████████████████████▍                                                         | 107/291 [00:00<00:00, 3619.04it/s, Materializing param=model.layers.11.self_attn.k_proj.weight]Loading weights:  37%|█████████████████████████████████▍                                                         | 107/291 [00:00<00:00, 3609.00it/s, Materializing param=model.layers.11.self_attn.k_proj.weight]Loading weights:  37%|█████████████████████████████████▊                                                         | 108/291 [00:00<00:00, 3630.62it/s, Materializing param=model.layers.11.self_attn.o_proj.weight]Loading weights:  37%|█████████████████████████████████▊                                                         | 108/291 [00:00<00:00, 3622.02it/s, Materializing param=model.layers.11.self_attn.o_proj.weight]Loading weights:  37%|██████████████████████████████████                                                         | 109/291 [00:00<00:00, 3643.50it/s, Materializing param=model.layers.11.self_attn.q_proj.weight]Loading weights:  37%|██████████████████████████████████                                                         | 109/291 [00:00<00:00, 3635.27it/s, Materializing param=model.layers.11.self_attn.q_proj.weight]Loading weights:  38%|██████████████████████████████████▍                                                        | 110/291 [00:00<00:00, 3657.34it/s, Materializing param=model.layers.11.self_attn.v_proj.weight]Loading weights:  38%|██████████████████████████████████▍                                                        | 110/291 [00:00<00:00, 3649.41it/s, Materializing param=model.layers.11.self_attn.v_proj.weight]Loading weights:  38%|███████████████████████████████████                                                         | 111/291 [00:00<00:00, 3671.15it/s, Materializing param=model.layers.12.input_layernorm.weight]Loading weights:  38%|███████████████████████████████████                                                         | 111/291 [00:00<00:00, 3663.12it/s, Materializing param=model.layers.12.input_layernorm.weight]Loading weights:  38%|████████████████████████████████████▏                                                         | 112/291 [00:00<00:00, 3684.67it/s, Materializing param=model.layers.12.mlp.down_proj.weight]Loading weights:  38%|████████████████████████████████████▏                                                         | 112/291 [00:00<00:00, 3676.56it/s, Materializing param=model.layers.12.mlp.down_proj.weight]Loading weights:  39%|████████████████████████████████████▌                                                         | 113/291 [00:00<00:00, 3698.25it/s, Materializing param=model.layers.12.mlp.gate_proj.weight]Loading weights:  39%|████████████████████████████████████▌                                                         | 113/291 [00:00<00:00, 3690.36it/s, Materializing param=model.layers.12.mlp.gate_proj.weight]Loading weights:  39%|█████████████████████████████████████▌                                                          | 114/291 [00:00<00:00, 3711.92it/s, Materializing param=model.layers.12.mlp.up_proj.weight]Loading weights:  39%|█████████████████████████████████████▌                                                          | 114/291 [00:00<00:00, 3703.98it/s, Materializing param=model.layers.12.mlp.up_proj.weight]Loading weights:  40%|████████████████████████████████▊                                                  | 115/291 [00:00<00:00, 3725.36it/s, Materializing param=model.layers.12.post_attention_layernorm.weight]Loading weights:  40%|████████████████████████████████▊                                                  | 115/291 [00:00<00:00, 3716.64it/s, Materializing param=model.layers.12.post_attention_layernorm.weight]Loading weights:  40%|████████████████████████████████████▎                                                      | 116/291 [00:00<00:00, 3737.46it/s, Materializing param=model.layers.12.self_attn.k_proj.weight]Loading weights:  40%|████████████████████████████████████▎                                                      | 116/291 [00:00<00:00, 3729.44it/s, Materializing param=model.layers.12.self_attn.k_proj.weight]Loading weights:  40%|████████████████████████████████████▌                                                      | 117/291 [00:00<00:00, 3750.41it/s, Materializing param=model.layers.12.self_attn.o_proj.weight]Loading weights:  40%|████████████████████████████████████▌                                                      | 117/291 [00:00<00:00, 3742.43it/s, Materializing param=model.layers.12.self_attn.o_proj.weight]Loading weights:  41%|████████████████████████████████████▉                                                      | 118/291 [00:00<00:00, 3763.17it/s, Materializing param=model.layers.12.self_attn.q_proj.weight]Loading weights:  41%|████████████████████████████████████▉                                                      | 118/291 [00:00<00:00, 3755.20it/s, Materializing param=model.layers.12.self_attn.q_proj.weight]Loading weights:  41%|█████████████████████████████████████▏                                                     | 119/291 [00:00<00:00, 3775.71it/s, Materializing param=model.layers.12.self_attn.v_proj.weight]Loading weights:  41%|█████████████████████████████████████▏                                                     | 119/291 [00:00<00:00, 3767.73it/s, Materializing param=model.layers.12.self_attn.v_proj.weight]Loading weights:  41%|█████████████████████████████████████▉                                                      | 120/291 [00:00<00:00, 3788.07it/s, Materializing param=model.layers.13.input_layernorm.weight]Loading weights:  41%|█████████████████████████████████████▉                                                      | 120/291 [00:00<00:00, 3778.79it/s, Materializing param=model.layers.13.input_layernorm.weight]Loading weights:  42%|███████████████████████████████████████                                                       | 121/291 [00:00<00:00, 3798.70it/s, Materializing param=model.layers.13.mlp.down_proj.weight]Loading weights:  42%|███████████████████████████████████████                                                       | 121/291 [00:00<00:00, 3790.82it/s, Materializing param=model.layers.13.mlp.down_proj.weight]Loading weights:  42%|███████████████████████████████████████▍                                                      | 122/291 [00:00<00:00, 3810.76it/s, Materializing param=model.layers.13.mlp.gate_proj.weight]Loading weights:  42%|███████████████████████████████████████▍                                                      | 122/291 [00:00<00:00, 3802.83it/s, Materializing param=model.layers.13.mlp.gate_proj.weight]Loading weights:  42%|████████████████████████████████████████▌                                                       | 123/291 [00:00<00:00, 3821.99it/s, Materializing param=model.layers.13.mlp.up_proj.weight]Loading weights:  42%|████████████████████████████████████████▌                                                       | 123/291 [00:00<00:00, 3813.99it/s, Materializing param=model.layers.13.mlp.up_proj.weight]Loading weights:  43%|███████████████████████████████████▎                                               | 124/291 [00:00<00:00, 3833.35it/s, Materializing param=model.layers.13.post_attention_layernorm.weight]Loading weights:  43%|███████████████████████████████████▎                                               | 124/291 [00:00<00:00, 3825.09it/s, Materializing param=model.layers.13.post_attention_layernorm.weight]Loading weights:  43%|███████████████████████████████████████                                                    | 125/291 [00:00<00:00, 3844.63it/s, Materializing param=model.layers.13.self_attn.k_proj.weight]Loading weights:  43%|███████████████████████████████████████                                                    | 125/291 [00:00<00:00, 3836.86it/s, Materializing param=model.layers.13.self_attn.k_proj.weight]Loading weights:  43%|███████████████████████████████████████▍                                                   | 126/291 [00:00<00:00, 3856.66it/s, Materializing param=model.layers.13.self_attn.o_proj.weight]Loading weights:  43%|███████████████████████████████████████▍                                                   | 126/291 [00:00<00:00, 3849.05it/s, Materializing param=model.layers.13.self_attn.o_proj.weight]Loading weights:  44%|███████████████████████████████████████▋                                                   | 127/291 [00:00<00:00, 3868.61it/s, Materializing param=model.layers.13.self_attn.q_proj.weight]Loading weights:  44%|███████████████████████████████████████▋                                                   | 127/291 [00:00<00:00, 3860.95it/s, Materializing param=model.layers.13.self_attn.q_proj.weight]Loading weights:  44%|████████████████████████████████████████                                                   | 128/291 [00:00<00:00, 3880.44it/s, Materializing param=model.layers.13.self_attn.v_proj.weight]Loading weights:  44%|████████████████████████████████████████                                                   | 128/291 [00:00<00:00, 3872.69it/s, Materializing param=model.layers.13.self_attn.v_proj.weight]Loading weights:  44%|████████████████████████████████████████▊                                                   | 129/291 [00:00<00:00, 3892.05it/s, Materializing param=model.layers.14.input_layernorm.weight]Loading weights:  44%|████████████████████████████████████████▊                                                   | 129/291 [00:00<00:00, 3884.26it/s, Materializing param=model.layers.14.input_layernorm.weight]Loading weights:  45%|█████████████████████████████████████████▉                                                    | 130/291 [00:00<00:00, 3902.71it/s, Materializing param=model.layers.14.mlp.down_proj.weight]Loading weights:  45%|█████████████████████████████████████████▉                                                    | 130/291 [00:00<00:00, 3894.71it/s, Materializing param=model.layers.14.mlp.down_proj.weight]Loading weights:  45%|██████████████████████████████████████████▎                                                   | 131/291 [00:00<00:00, 3913.68it/s, Materializing param=model.layers.14.mlp.gate_proj.weight]Loading weights:  45%|██████████████████████████████████████████▎                                                   | 131/291 [00:00<00:00, 3905.98it/s, Materializing param=model.layers.14.mlp.gate_proj.weight]Loading weights:  45%|███████████████████████████████████████████▌                                                    | 132/291 [00:00<00:00, 3923.49it/s, Materializing param=model.layers.14.mlp.up_proj.weight]Loading weights:  45%|███████████████████████████████████████████▌                                                    | 132/291 [00:00<00:00, 3915.36it/s, Materializing param=model.layers.14.mlp.up_proj.weight]Loading weights:  46%|█████████████████████████████████████▉                                             | 133/291 [00:00<00:00, 3934.01it/s, Materializing param=model.layers.14.post_attention_layernorm.weight]Loading weights:  46%|█████████████████████████████████████▉                                             | 133/291 [00:00<00:00, 3926.15it/s, Materializing param=model.layers.14.post_attention_layernorm.weight]Loading weights:  46%|█████████████████████████████████████████▉                                                 | 134/291 [00:00<00:00, 3944.73it/s, Materializing param=model.layers.14.self_attn.k_proj.weight]Loading weights:  46%|█████████████████████████████████████████▉                                                 | 134/291 [00:00<00:00, 3936.91it/s, Materializing param=model.layers.14.self_attn.k_proj.weight]Loading weights:  46%|██████████████████████████████████████████▏                                                | 135/291 [00:00<00:00, 3955.48it/s, Materializing param=model.layers.14.self_attn.o_proj.weight]Loading weights:  46%|██████████████████████████████████████████▏                                                | 135/291 [00:00<00:00, 3947.73it/s, Materializing param=model.layers.14.self_attn.o_proj.weight]Loading weights:  47%|██████████████████████████████████████████▌                                                | 136/291 [00:00<00:00, 3966.27it/s, Materializing param=model.layers.14.self_attn.q_proj.weight]Loading weights:  47%|██████████████████████████████████████████▌                                                | 136/291 [00:00<00:00, 3958.54it/s, Materializing param=model.layers.14.self_attn.q_proj.weight]Loading weights:  47%|██████████████████████████████████████████▊                                                | 137/291 [00:00<00:00, 3976.17it/s, Materializing param=model.layers.14.self_attn.v_proj.weight]Loading weights:  47%|██████████████████████████████████████████▊                                                | 137/291 [00:00<00:00, 3968.53it/s, Materializing param=model.layers.14.self_attn.v_proj.weight]Loading weights:  47%|███████████████████████████████████████████▋                                                | 138/291 [00:00<00:00, 3986.76it/s, Materializing param=model.layers.15.input_layernorm.weight]Loading weights:  47%|███████████████████████████████████████████▋                                                | 138/291 [00:00<00:00, 3979.14it/s, Materializing param=model.layers.15.input_layernorm.weight]Loading weights:  48%|████████████████████████████████████████████▉                                                 | 139/291 [00:00<00:00, 3997.15it/s, Materializing param=model.layers.15.mlp.down_proj.weight]Loading weights:  48%|████████████████████████████████████████████▉                                                 | 139/291 [00:00<00:00, 3989.52it/s, Materializing param=model.layers.15.mlp.down_proj.weight]Loading weights:  48%|█████████████████████████████████████████████▏                                                | 140/291 [00:00<00:00, 4006.92it/s, Materializing param=model.layers.15.mlp.gate_proj.weight]Loading weights:  48%|█████████████████████████████████████████████▏                                                | 140/291 [00:00<00:00, 3999.28it/s, Materializing param=model.layers.15.mlp.gate_proj.weight]Loading weights:  48%|██████████████████████████████████████████████▌                                                 | 141/291 [00:00<00:00, 4017.15it/s, Materializing param=model.layers.15.mlp.up_proj.weight]Loading weights:  48%|██████████████████████████████████████████████▌                                                 | 141/291 [00:00<00:00, 4009.61it/s, Materializing param=model.layers.15.mlp.up_proj.weight]Loading weights:  49%|████████████████████████████████████████▌                                          | 142/291 [00:00<00:00, 4027.42it/s, Materializing param=model.layers.15.post_attention_layernorm.weight]Loading weights:  49%|████████████████████████████████████████▌                                          | 142/291 [00:00<00:00, 4019.51it/s, Materializing param=model.layers.15.post_attention_layernorm.weight]Loading weights:  49%|████████████████████████████████████████████▋                                              | 143/291 [00:00<00:00, 4037.06it/s, Materializing param=model.layers.15.self_attn.k_proj.weight]Loading weights:  49%|████████████████████████████████████████████▋                                              | 143/291 [00:00<00:00, 4028.84it/s, Materializing param=model.layers.15.self_attn.k_proj.weight]Loading weights:  49%|█████████████████████████████████████████████                                              | 144/291 [00:00<00:00, 4045.95it/s, Materializing param=model.layers.15.self_attn.o_proj.weight]Loading weights:  49%|█████████████████████████████████████████████                                              | 144/291 [00:00<00:00, 4038.24it/s, Materializing param=model.layers.15.self_attn.o_proj.weight]Loading weights:  50%|█████████████████████████████████████████████▎                                             | 145/291 [00:00<00:00, 4055.79it/s, Materializing param=model.layers.15.self_attn.q_proj.weight]Loading weights:  50%|█████████████████████████████████████████████▎                                             | 145/291 [00:00<00:00, 4048.31it/s, Materializing param=model.layers.15.self_attn.q_proj.weight]Loading weights:  50%|█████████████████████████████████████████████▋                                             | 146/291 [00:00<00:00, 4065.52it/s, Materializing param=model.layers.15.self_attn.v_proj.weight]Loading weights:  50%|█████████████████████████████████████████████▋                                             | 146/291 [00:00<00:00, 4058.03it/s, Materializing param=model.layers.15.self_attn.v_proj.weight]Loading weights:  51%|██████████████████████████████████████████████▍                                             | 147/291 [00:00<00:00, 4075.05it/s, Materializing param=model.layers.16.input_layernorm.weight]Loading weights:  51%|██████████████████████████████████████████████▍                                             | 147/291 [00:00<00:00, 4067.52it/s, Materializing param=model.layers.16.input_layernorm.weight]Loading weights:  51%|███████████████████████████████████████████████▊                                              | 148/291 [00:00<00:00, 4084.55it/s, Materializing param=model.layers.16.mlp.down_proj.weight]Loading weights:  51%|███████████████████████████████████████████████▊                                              | 148/291 [00:00<00:00, 4077.03it/s, Materializing param=model.layers.16.mlp.down_proj.weight]Loading weights:  51%|████████████████████████████████████████████████▏                                             | 149/291 [00:00<00:00, 4093.96it/s, Materializing param=model.layers.16.mlp.gate_proj.weight]Loading weights:  51%|████████████████████████████████████████████████▏                                             | 149/291 [00:00<00:00, 4086.47it/s, Materializing param=model.layers.16.mlp.gate_proj.weight]Loading weights:  52%|█████████████████████████████████████████████████▍                                              | 150/291 [00:00<00:00, 4103.48it/s, Materializing param=model.layers.16.mlp.up_proj.weight]Loading weights:  52%|█████████████████████████████████████████████████▍                                              | 150/291 [00:00<00:00, 4095.68it/s, Materializing param=model.layers.16.mlp.up_proj.weight]Loading weights:  52%|███████████████████████████████████████████                                        | 151/291 [00:00<00:00, 4112.38it/s, Materializing param=model.layers.16.post_attention_layernorm.weight]Loading weights:  52%|███████████████████████████████████████████                                        | 151/291 [00:00<00:00, 4104.95it/s, Materializing param=model.layers.16.post_attention_layernorm.weight]Loading weights:  52%|███████████████████████████████████████████████▌                                           | 152/291 [00:00<00:00, 4121.85it/s, Materializing param=model.layers.16.self_attn.k_proj.weight]Loading weights:  52%|███████████████████████████████████████████████▌                                           | 152/291 [00:00<00:00, 4114.56it/s, Materializing param=model.layers.16.self_attn.k_proj.weight]Loading weights:  53%|███████████████████████████████████████████████▊                                           | 153/291 [00:00<00:00, 4131.47it/s, Materializing param=model.layers.16.self_attn.o_proj.weight]Loading weights:  53%|███████████████████████████████████████████████▊                                           | 153/291 [00:00<00:00, 4124.25it/s, Materializing param=model.layers.16.self_attn.o_proj.weight]Loading weights:  53%|████████████████████████████████████████████████▏                                          | 154/291 [00:00<00:00, 4140.40it/s, Materializing param=model.layers.16.self_attn.q_proj.weight]Loading weights:  53%|████████████████████████████████████████████████▏                                          | 154/291 [00:00<00:00, 4133.01it/s, Materializing param=model.layers.16.self_attn.q_proj.weight]Loading weights:  53%|████████████████████████████████████████████████▍                                          | 155/291 [00:00<00:00, 4149.41it/s, Materializing param=model.layers.16.self_attn.v_proj.weight]Loading weights:  53%|████████████████████████████████████████████████▍                                          | 155/291 [00:00<00:00, 4142.14it/s, Materializing param=model.layers.16.self_attn.v_proj.weight]Loading weights:  54%|█████████████████████████████████████████████████▎                                          | 156/291 [00:00<00:00, 4158.58it/s, Materializing param=model.layers.17.input_layernorm.weight]Loading weights:  54%|█████████████████████████████████████████████████▎                                          | 156/291 [00:00<00:00, 4151.33it/s, Materializing param=model.layers.17.input_layernorm.weight]Loading weights:  54%|██████████████████████████████████████████████████▋                                           | 157/291 [00:00<00:00, 4165.23it/s, Materializing param=model.layers.17.mlp.down_proj.weight]Loading weights:  54%|██████████████████████████████████████████████████▋                                           | 157/291 [00:00<00:00, 4157.73it/s, Materializing param=model.layers.17.mlp.down_proj.weight]Loading weights:  54%|███████████████████████████████████████████████████                                           | 158/291 [00:00<00:00, 4173.88it/s, Materializing param=model.layers.17.mlp.gate_proj.weight]Loading weights:  54%|███████████████████████████████████████████████████                                           | 158/291 [00:00<00:00, 4166.69it/s, Materializing param=model.layers.17.mlp.gate_proj.weight]Loading weights:  55%|████████████████████████████████████████████████████▍                                           | 159/291 [00:00<00:00, 4182.73it/s, Materializing param=model.layers.17.mlp.up_proj.weight]Loading weights:  55%|████████████████████████████████████████████████████▍                                           | 159/291 [00:00<00:00, 4175.55it/s, Materializing param=model.layers.17.mlp.up_proj.weight]Loading weights:  55%|█████████████████████████████████████████████▋                                     | 160/291 [00:00<00:00, 4191.68it/s, Materializing param=model.layers.17.post_attention_layernorm.weight]Loading weights:  55%|█████████████████████████████████████████████▋                                     | 160/291 [00:00<00:00, 4184.16it/s, Materializing param=model.layers.17.post_attention_layernorm.weight]Loading weights:  55%|██████████████████████████████████████████████████▎                                        | 161/291 [00:00<00:00, 4200.23it/s, Materializing param=model.layers.17.self_attn.k_proj.weight]Loading weights:  55%|██████████████████████████████████████████████████▎                                        | 161/291 [00:00<00:00, 4192.98it/s, Materializing param=model.layers.17.self_attn.k_proj.weight]Loading weights:  56%|██████████████████████████████████████████████████▋                                        | 162/291 [00:00<00:00, 4208.77it/s, Materializing param=model.layers.17.self_attn.o_proj.weight]Loading weights:  56%|██████████████████████████████████████████████████▋                                        | 162/291 [00:00<00:00, 4201.38it/s, Materializing param=model.layers.17.self_attn.o_proj.weight]Loading weights:  56%|██████████████████████████████████████████████████▉                                        | 163/291 [00:00<00:00, 4217.18it/s, Materializing param=model.layers.17.self_attn.q_proj.weight]Loading weights:  56%|██████████████████████████████████████████████████▉                                        | 163/291 [00:00<00:00, 4209.36it/s, Materializing param=model.layers.17.self_attn.q_proj.weight]Loading weights:  56%|███████████████████████████████████████████████████▎                                       | 164/291 [00:00<00:00, 4224.75it/s, Materializing param=model.layers.17.self_attn.v_proj.weight]Loading weights:  56%|███████████████████████████████████████████████████▎                                       | 164/291 [00:00<00:00, 4217.42it/s, Materializing param=model.layers.17.self_attn.v_proj.weight]Loading weights:  57%|████████████████████████████████████████████████████▏                                       | 165/291 [00:00<00:00, 4232.89it/s, Materializing param=model.layers.18.input_layernorm.weight]Loading weights:  57%|████████████████████████████████████████████████████▏                                       | 165/291 [00:00<00:00, 4225.55it/s, Materializing param=model.layers.18.input_layernorm.weight]Loading weights:  57%|█████████████████████████████████████████████████████▌                                        | 166/291 [00:00<00:00, 4241.14it/s, Materializing param=model.layers.18.mlp.down_proj.weight]Loading weights:  57%|█████████████████████████████████████████████████████▌                                        | 166/291 [00:00<00:00, 4234.04it/s, Materializing param=model.layers.18.mlp.down_proj.weight]Loading weights:  57%|█████████████████████████████████████████████████████▉                                        | 167/291 [00:00<00:00, 4249.55it/s, Materializing param=model.layers.18.mlp.gate_proj.weight]Loading weights:  57%|█████████████████████████████████████████████████████▉                                        | 167/291 [00:00<00:00, 4242.32it/s, Materializing param=model.layers.18.mlp.gate_proj.weight]Loading weights:  58%|███████████████████████████████████████████████████████▍                                        | 168/291 [00:00<00:00, 4257.66it/s, Materializing param=model.layers.18.mlp.up_proj.weight]Loading weights:  58%|███████████████████████████████████████████████████████▍                                        | 168/291 [00:00<00:00, 4250.50it/s, Materializing param=model.layers.18.mlp.up_proj.weight]Loading weights:  58%|████████████████████████████████████████████████▏                                  | 169/291 [00:00<00:00, 4265.25it/s, Materializing param=model.layers.18.post_attention_layernorm.weight]Loading weights:  58%|████████████████████████████████████████████████▏                                  | 169/291 [00:00<00:00, 4257.92it/s, Materializing param=model.layers.18.post_attention_layernorm.weight]Loading weights:  58%|█████████████████████████████████████████████████████▏                                     | 170/291 [00:00<00:00, 4272.52it/s, Materializing param=model.layers.18.self_attn.k_proj.weight]Loading weights:  58%|█████████████████████████████████████████████████████▏                                     | 170/291 [00:00<00:00, 4265.13it/s, Materializing param=model.layers.18.self_attn.k_proj.weight]Loading weights:  59%|█████████████████████████████████████████████████████▍                                     | 171/291 [00:00<00:00, 4280.11it/s, Materializing param=model.layers.18.self_attn.o_proj.weight]Loading weights:  59%|█████████████████████████████████████████████████████▍                                     | 171/291 [00:00<00:00, 4272.99it/s, Materializing param=model.layers.18.self_attn.o_proj.weight]Loading weights:  59%|█████████████████████████████████████████████████████▊                                     | 172/291 [00:00<00:00, 4287.97it/s, Materializing param=model.layers.18.self_attn.q_proj.weight]Loading weights:  59%|█████████████████████████████████████████████████████▊                                     | 172/291 [00:00<00:00, 4280.92it/s, Materializing param=model.layers.18.self_attn.q_proj.weight]Loading weights:  59%|██████████████████████████████████████████████████████                                     | 173/291 [00:00<00:00, 4295.74it/s, Materializing param=model.layers.18.self_attn.v_proj.weight]Loading weights:  59%|██████████████████████████████████████████████████████                                     | 173/291 [00:00<00:00, 4288.58it/s, Materializing param=model.layers.18.self_attn.v_proj.weight]Loading weights:  60%|███████████████████████████████████████████████████████                                     | 174/291 [00:00<00:00, 4303.50it/s, Materializing param=model.layers.19.input_layernorm.weight]Loading weights:  60%|███████████████████████████████████████████████████████                                     | 174/291 [00:00<00:00, 4296.46it/s, Materializing param=model.layers.19.input_layernorm.weight]Loading weights:  60%|████████████████████████████████████████████████████████▌                                     | 175/291 [00:00<00:00, 4311.28it/s, Materializing param=model.layers.19.mlp.down_proj.weight]Loading weights:  60%|████████████████████████████████████████████████████████▌                                     | 175/291 [00:00<00:00, 4304.10it/s, Materializing param=model.layers.19.mlp.down_proj.weight]Loading weights:  60%|████████████████████████████████████████████████████████▊                                     | 176/291 [00:00<00:00, 4318.76it/s, Materializing param=model.layers.19.mlp.gate_proj.weight]Loading weights:  60%|████████████████████████████████████████████████████████▊                                     | 176/291 [00:00<00:00, 4311.12it/s, Materializing param=model.layers.19.mlp.gate_proj.weight]Loading weights:  61%|██████████████████████████████████████████████████████████▍                                     | 177/291 [00:00<00:00, 4325.51it/s, Materializing param=model.layers.19.mlp.up_proj.weight]Loading weights:  61%|██████████████████████████████████████████████████████████▍                                     | 177/291 [00:00<00:00, 4318.44it/s, Materializing param=model.layers.19.mlp.up_proj.weight]Loading weights:  61%|██████████████████████████████████████████████████▊                                | 178/291 [00:00<00:00, 4332.91it/s, Materializing param=model.layers.19.post_attention_layernorm.weight]Loading weights:  61%|██████████████████████████████████████████████████▊                                | 178/291 [00:00<00:00, 4325.78it/s, Materializing param=model.layers.19.post_attention_layernorm.weight]Loading weights:  62%|███████████████████████████████████████████████████████▉                                   | 179/291 [00:00<00:00, 4340.02it/s, Materializing param=model.layers.19.self_attn.k_proj.weight]Loading weights:  62%|███████████████████████████████████████████████████████▉                                   | 179/291 [00:00<00:00, 4333.01it/s, Materializing param=model.layers.19.self_attn.k_proj.weight]Loading weights:  62%|████████████████████████████████████████████████████████▎                                  | 180/291 [00:00<00:00, 4347.20it/s, Materializing param=model.layers.19.self_attn.o_proj.weight]Loading weights:  62%|████████████████████████████████████████████████████████▎                                  | 180/291 [00:00<00:00, 4340.28it/s, Materializing param=model.layers.19.self_attn.o_proj.weight]Loading weights:  62%|████████████████████████████████████████████████████████▌                                  | 181/291 [00:00<00:00, 4354.56it/s, Materializing param=model.layers.19.self_attn.q_proj.weight]Loading weights:  62%|████████████████████████████████████████████████████████▌                                  | 181/291 [00:00<00:00, 4346.03it/s, Materializing param=model.layers.19.self_attn.q_proj.weight]Loading weights:  63%|████████████████████████████████████████████████████████▉                                  | 182/291 [00:00<00:00, 4359.96it/s, Materializing param=model.layers.19.self_attn.v_proj.weight]Loading weights:  63%|████████████████████████████████████████████████████████▉                                  | 182/291 [00:00<00:00, 4352.95it/s, Materializing param=model.layers.19.self_attn.v_proj.weight]Loading weights:  63%|█████████████████████████████████████████████████████████▊                                  | 183/291 [00:00<00:00, 4352.62it/s, Materializing param=model.layers.20.input_layernorm.weight]Loading weights:  63%|█████████████████████████████████████████████████████████▊                                  | 183/291 [00:00<00:00, 4345.49it/s, Materializing param=model.layers.20.input_layernorm.weight]Loading weights:  63%|███████████████████████████████████████████████████████████▍                                  | 184/291 [00:00<00:00, 4359.12it/s, Materializing param=model.layers.20.mlp.down_proj.weight]Loading weights:  63%|███████████████████████████████████████████████████████████▍                                  | 184/291 [00:00<00:00, 4352.14it/s, Materializing param=model.layers.20.mlp.down_proj.weight]Loading weights:  64%|███████████████████████████████████████████████████████████▊                                  | 185/291 [00:00<00:00, 4366.07it/s, Materializing param=model.layers.20.mlp.gate_proj.weight]Loading weights:  64%|███████████████████████████████████████████████████████████▊                                  | 185/291 [00:00<00:00, 4359.10it/s, Materializing param=model.layers.20.mlp.gate_proj.weight]Loading weights:  64%|█████████████████████████████████████████████████████████████▎                                  | 186/291 [00:00<00:00, 4373.11it/s, Materializing param=model.layers.20.mlp.up_proj.weight]Loading weights:  64%|█████████████████████████████████████████████████████████████▎                                  | 186/291 [00:00<00:00, 4366.35it/s, Materializing param=model.layers.20.mlp.up_proj.weight]Loading weights:  64%|█████████████████████████████████████████████████████▎                             | 187/291 [00:00<00:00, 4380.22it/s, Materializing param=model.layers.20.post_attention_layernorm.weight]Loading weights:  64%|█████████████████████████████████████████████████████▎                             | 187/291 [00:00<00:00, 4373.28it/s, Materializing param=model.layers.20.post_attention_layernorm.weight]Loading weights:  65%|██████████████████████████████████████████████████████████▊                                | 188/291 [00:00<00:00, 4386.98it/s, Materializing param=model.layers.20.self_attn.k_proj.weight]Loading weights:  65%|██████████████████████████████████████████████████████████▊                                | 188/291 [00:00<00:00, 4380.13it/s, Materializing param=model.layers.20.self_attn.k_proj.weight]Loading weights:  65%|███████████████████████████████████████████████████████████                                | 189/291 [00:00<00:00, 4393.21it/s, Materializing param=model.layers.20.self_attn.o_proj.weight]Loading weights:  65%|███████████████████████████████████████████████████████████                                | 189/291 [00:00<00:00, 4386.28it/s, Materializing param=model.layers.20.self_attn.o_proj.weight]Loading weights:  65%|███████████████████████████████████████████████████████████▍                               | 190/291 [00:00<00:00, 4399.89it/s, Materializing param=model.layers.20.self_attn.q_proj.weight]Loading weights:  65%|███████████████████████████████████████████████████████████▍                               | 190/291 [00:00<00:00, 4393.03it/s, Materializing param=model.layers.20.self_attn.q_proj.weight]Loading weights:  66%|███████████████████████████████████████████████████████████▋                               | 191/291 [00:00<00:00, 4406.41it/s, Materializing param=model.layers.20.self_attn.v_proj.weight]Loading weights:  66%|███████████████████████████████████████████████████████████▋                               | 191/291 [00:00<00:00, 4399.54it/s, Materializing param=model.layers.20.self_attn.v_proj.weight]Loading weights:  66%|████████████████████████████████████████████████████████████▋                               | 192/291 [00:00<00:00, 4413.00it/s, Materializing param=model.layers.21.input_layernorm.weight]Loading weights:  66%|████████████████████████████████████████████████████████████▋                               | 192/291 [00:00<00:00, 4406.02it/s, Materializing param=model.layers.21.input_layernorm.weight]Loading weights:  66%|██████████████████████████████████████████████████████████████▎                               | 193/291 [00:00<00:00, 4419.06it/s, Materializing param=model.layers.21.mlp.down_proj.weight]Loading weights:  66%|██████████████████████████████████████████████████████████████▎                               | 193/291 [00:00<00:00, 4412.19it/s, Materializing param=model.layers.21.mlp.down_proj.weight]Loading weights:  67%|██████████████████████████████████████████████████████████████▋                               | 194/291 [00:00<00:00, 4425.53it/s, Materializing param=model.layers.21.mlp.gate_proj.weight]Loading weights:  67%|██████████████████████████████████████████████████████████████▋                               | 194/291 [00:00<00:00, 4418.63it/s, Materializing param=model.layers.21.mlp.gate_proj.weight]Loading weights:  67%|████████████████████████████████████████████████████████████████▎                               | 195/291 [00:00<00:00, 4431.15it/s, Materializing param=model.layers.21.mlp.up_proj.weight]Loading weights:  67%|████████████████████████████████████████████████████████████████▎                               | 195/291 [00:00<00:00, 4423.94it/s, Materializing param=model.layers.21.mlp.up_proj.weight]Loading weights:  67%|███████████████████████████████████████████████████████▉                           | 196/291 [00:00<00:00, 4437.15it/s, Materializing param=model.layers.21.post_attention_layernorm.weight]Loading weights:  67%|███████████████████████████████████████████████████████▉                           | 196/291 [00:00<00:00, 4430.45it/s, Materializing param=model.layers.21.post_attention_layernorm.weight]Loading weights:  68%|█████████████████████████████████████████████████████████████▌                             | 197/291 [00:00<00:00, 4443.76it/s, Materializing param=model.layers.21.self_attn.k_proj.weight]Loading weights:  68%|█████████████████████████████████████████████████████████████▌                             | 197/291 [00:00<00:00, 4437.08it/s, Materializing param=model.layers.21.self_attn.k_proj.weight]Loading weights:  68%|█████████████████████████████████████████████████████████████▉                             | 198/291 [00:00<00:00, 4450.26it/s, Materializing param=model.layers.21.self_attn.o_proj.weight]Loading weights:  68%|█████████████████████████████████████████████████████████████▉                             | 198/291 [00:00<00:00, 4443.62it/s, Materializing param=model.layers.21.self_attn.o_proj.weight]Loading weights:  68%|██████████████████████████████████████████████████████████████▏                            | 199/291 [00:00<00:00, 4456.71it/s, Materializing param=model.layers.21.self_attn.q_proj.weight]Loading weights:  68%|██████████████████████████████████████████████████████████████▏                            | 199/291 [00:00<00:00, 4450.04it/s, Materializing param=model.layers.21.self_attn.q_proj.weight]Loading weights:  69%|██████████████████████████████████████████████████████████████▌                            | 200/291 [00:00<00:00, 4463.02it/s, Materializing param=model.layers.21.self_attn.v_proj.weight]Loading weights:  69%|██████████████████████████████████████████████████████████████▌                            | 200/291 [00:00<00:00, 4456.38it/s, Materializing param=model.layers.21.self_attn.v_proj.weight]Loading weights:  69%|███████████████████████████████████████████████████████████████▌                            | 201/291 [00:00<00:00, 4469.38it/s, Materializing param=model.layers.22.input_layernorm.weight]Loading weights:  69%|███████████████████████████████████████████████████████████████▌                            | 201/291 [00:00<00:00, 4462.29it/s, Materializing param=model.layers.22.input_layernorm.weight]Loading weights:  69%|█████████████████████████████████████████████████████████████████▎                            | 202/291 [00:00<00:00, 4475.01it/s, Materializing param=model.layers.22.mlp.down_proj.weight]Loading weights:  69%|█████████████████████████████████████████████████████████████████▎                            | 202/291 [00:00<00:00, 4468.21it/s, Materializing param=model.layers.22.mlp.down_proj.weight]Loading weights:  70%|█████████████████████████████████████████████████████████████████▌                            | 203/291 [00:00<00:00, 4481.00it/s, Materializing param=model.layers.22.mlp.gate_proj.weight]Loading weights:  70%|█████████████████████████████████████████████████████████████████▌                            | 203/291 [00:00<00:00, 4474.36it/s, Materializing param=model.layers.22.mlp.gate_proj.weight]Loading weights:  70%|███████████████████████████████████████████████████████████████████▎                            | 204/291 [00:00<00:00, 4487.27it/s, Materializing param=model.layers.22.mlp.up_proj.weight]Loading weights:  70%|███████████████████████████████████████████████████████████████████▎                            | 204/291 [00:00<00:00, 4480.84it/s, Materializing param=model.layers.22.mlp.up_proj.weight]Loading weights:  70%|██████████████████████████████████████████████████████████▍                        | 205/291 [00:00<00:00, 4492.61it/s, Materializing param=model.layers.22.post_attention_layernorm.weight]Loading weights:  70%|██████████████████████████████████████████████████████████▍                        | 205/291 [00:00<00:00, 4485.63it/s, Materializing param=model.layers.22.post_attention_layernorm.weight]Loading weights:  71%|████████████████████████████████████████████████████████████████▍                          | 206/291 [00:00<00:00, 4498.24it/s, Materializing param=model.layers.22.self_attn.k_proj.weight]Loading weights:  71%|████████████████████████████████████████████████████████████████▍                          | 206/291 [00:00<00:00, 4491.60it/s, Materializing param=model.layers.22.self_attn.k_proj.weight]Loading weights:  71%|████████████████████████████████████████████████████████████████▋                          | 207/291 [00:00<00:00, 4504.18it/s, Materializing param=model.layers.22.self_attn.o_proj.weight]Loading weights:  71%|████████████████████████████████████████████████████████████████▋                          | 207/291 [00:00<00:00, 4497.20it/s, Materializing param=model.layers.22.self_attn.o_proj.weight]Loading weights:  71%|█████████████████████████████████████████████████████████████████                          | 208/291 [00:00<00:00, 4509.58it/s, Materializing param=model.layers.22.self_attn.q_proj.weight]Loading weights:  71%|█████████████████████████████████████████████████████████████████                          | 208/291 [00:00<00:00, 4503.09it/s, Materializing param=model.layers.22.self_attn.q_proj.weight]Loading weights:  72%|█████████████████████████████████████████████████████████████████▎                         | 209/291 [00:00<00:00, 4515.60it/s, Materializing param=model.layers.22.self_attn.v_proj.weight]Loading weights:  72%|█████████████████████████████████████████████████████████████████▎                         | 209/291 [00:00<00:00, 4509.17it/s, Materializing param=model.layers.22.self_attn.v_proj.weight]Loading weights:  72%|██████████████████████████████████████████████████████████████████▍                         | 210/291 [00:00<00:00, 4521.63it/s, Materializing param=model.layers.23.input_layernorm.weight]Loading weights:  72%|██████████████████████████████████████████████████████████████████▍                         | 210/291 [00:00<00:00, 4515.23it/s, Materializing param=model.layers.23.input_layernorm.weight]Loading weights:  73%|████████████████████████████████████████████████████████████████████▏                         | 211/291 [00:00<00:00, 4527.77it/s, Materializing param=model.layers.23.mlp.down_proj.weight]Loading weights:  73%|████████████████████████████████████████████████████████████████████▏                         | 211/291 [00:00<00:00, 4521.36it/s, Materializing param=model.layers.23.mlp.down_proj.weight]Loading weights:  73%|████████████████████████████████████████████████████████████████████▍                         | 212/291 [00:00<00:00, 4533.71it/s, Materializing param=model.layers.23.mlp.gate_proj.weight]Loading weights:  73%|████████████████████████████████████████████████████████████████████▍                         | 212/291 [00:00<00:00, 4527.39it/s, Materializing param=model.layers.23.mlp.gate_proj.weight]Loading weights:  73%|██████████████████████████████████████████████████████████████████████▎                         | 213/291 [00:00<00:00, 4539.22it/s, Materializing param=model.layers.23.mlp.up_proj.weight]Loading weights:  73%|██████████████████████████████████████████████████████████████████████▎                         | 213/291 [00:00<00:00, 4532.68it/s, Materializing param=model.layers.23.mlp.up_proj.weight]Loading weights:  74%|█████████████████████████████████████████████████████████████                      | 214/291 [00:00<00:00, 4545.08it/s, Materializing param=model.layers.23.post_attention_layernorm.weight]Loading weights:  74%|█████████████████████████████████████████████████████████████                      | 214/291 [00:00<00:00, 4538.56it/s, Materializing param=model.layers.23.post_attention_layernorm.weight]Loading weights:  74%|███████████████████████████████████████████████████████████████████▏                       | 215/291 [00:00<00:00, 4550.84it/s, Materializing param=model.layers.23.self_attn.k_proj.weight]Loading weights:  74%|███████████████████████████████████████████████████████████████████▏                       | 215/291 [00:00<00:00, 4544.41it/s, Materializing param=model.layers.23.self_attn.k_proj.weight]Loading weights:  74%|███████████████████████████████████████████████████████████████████▌                       | 216/291 [00:00<00:00, 4556.66it/s, Materializing param=model.layers.23.self_attn.o_proj.weight]Loading weights:  74%|███████████████████████████████████████████████████████████████████▌                       | 216/291 [00:00<00:00, 4550.37it/s, Materializing param=model.layers.23.self_attn.o_proj.weight]Loading weights:  75%|███████████████████████████████████████████████████████████████████▊                       | 217/291 [00:00<00:00, 4562.57it/s, Materializing param=model.layers.23.self_attn.q_proj.weight]Loading weights:  75%|███████████████████████████████████████████████████████████████████▊                       | 217/291 [00:00<00:00, 4556.29it/s, Materializing param=model.layers.23.self_attn.q_proj.weight]Loading weights:  75%|████████████████████████████████████████████████████████████████████▏                      | 218/291 [00:00<00:00, 4568.43it/s, Materializing param=model.layers.23.self_attn.v_proj.weight]Loading weights:  75%|████████████████████████████████████████████████████████████████████▏                      | 218/291 [00:00<00:00, 4562.10it/s, Materializing param=model.layers.23.self_attn.v_proj.weight]Loading weights:  75%|█████████████████████████████████████████████████████████████████████▏                      | 219/291 [00:00<00:00, 4573.55it/s, Materializing param=model.layers.24.input_layernorm.weight]Loading weights:  75%|█████████████████████████████████████████████████████████████████████▏                      | 219/291 [00:00<00:00, 4567.21it/s, Materializing param=model.layers.24.input_layernorm.weight]Loading weights:  76%|███████████████████████████████████████████████████████████████████████                       | 220/291 [00:00<00:00, 4579.25it/s, Materializing param=model.layers.24.mlp.down_proj.weight]Loading weights:  76%|███████████████████████████████████████████████████████████████████████                       | 220/291 [00:00<00:00, 4572.97it/s, Materializing param=model.layers.24.mlp.down_proj.weight]Loading weights:  76%|███████████████████████████████████████████████████████████████████████▍                      | 221/291 [00:00<00:00, 4584.94it/s, Materializing param=model.layers.24.mlp.gate_proj.weight]Loading weights:  76%|███████████████████████████████████████████████████████████████████████▍                      | 221/291 [00:00<00:00, 4578.64it/s, Materializing param=model.layers.24.mlp.gate_proj.weight]Loading weights:  76%|█████████████████████████████████████████████████████████████████████████▏                      | 222/291 [00:00<00:00, 4590.45it/s, Materializing param=model.layers.24.mlp.up_proj.weight]Loading weights:  76%|█████████████████████████████████████████████████████████████████████████▏                      | 222/291 [00:00<00:00, 4584.07it/s, Materializing param=model.layers.24.mlp.up_proj.weight]Loading weights:  77%|███████████████████████████████████████████████████████████████▌                   | 223/291 [00:00<00:00, 4595.85it/s, Materializing param=model.layers.24.post_attention_layernorm.weight]Loading weights:  77%|███████████████████████████████████████████████████████████████▌                   | 223/291 [00:00<00:00, 4589.49it/s, Materializing param=model.layers.24.post_attention_layernorm.weight]Loading weights:  77%|██████████████████████████████████████████████████████████████████████                     | 224/291 [00:00<00:00, 4601.29it/s, Materializing param=model.layers.24.self_attn.k_proj.weight]Loading weights:  77%|██████████████████████████████████████████████████████████████████████                     | 224/291 [00:00<00:00, 4595.01it/s, Materializing param=model.layers.24.self_attn.k_proj.weight]Loading weights:  77%|██████████████████████████████████████████████████████████████████████▎                    | 225/291 [00:00<00:00, 4606.29it/s, Materializing param=model.layers.24.self_attn.o_proj.weight]Loading weights:  77%|██████████████████████████████████████████████████████████████████████▎                    | 225/291 [00:00<00:00, 4599.82it/s, Materializing param=model.layers.24.self_attn.o_proj.weight]Loading weights:  78%|██████████████████████████████████████████████████████████████████████▋                    | 226/291 [00:00<00:00, 4611.43it/s, Materializing param=model.layers.24.self_attn.q_proj.weight]Loading weights:  78%|██████████████████████████████████████████████████████████████████████▋                    | 226/291 [00:00<00:00, 4605.25it/s, Materializing param=model.layers.24.self_attn.q_proj.weight]Loading weights:  78%|██████████████████████████████████████████████████████████████████████▉                    | 227/291 [00:00<00:00, 4616.93it/s, Materializing param=model.layers.24.self_attn.v_proj.weight]Loading weights:  78%|██████████████████████████████████████████████████████████████████████▉                    | 227/291 [00:00<00:00, 4610.64it/s, Materializing param=model.layers.24.self_attn.v_proj.weight]Loading weights:  78%|████████████████████████████████████████████████████████████████████████                    | 228/291 [00:00<00:00, 4622.05it/s, Materializing param=model.layers.25.input_layernorm.weight]Loading weights:  78%|████████████████████████████████████████████████████████████████████████                    | 228/291 [00:00<00:00, 4615.69it/s, Materializing param=model.layers.25.input_layernorm.weight]Loading weights:  79%|█████████████████████████████████████████████████████████████████████████▉                    | 229/291 [00:00<00:00, 4627.38it/s, Materializing param=model.layers.25.mlp.down_proj.weight]Loading weights:  79%|█████████████████████████████████████████████████████████████████████████▉                    | 229/291 [00:00<00:00, 4621.21it/s, Materializing param=model.layers.25.mlp.down_proj.weight]Loading weights:  79%|██████████████████████████████████████████████████████████████████████████▎                   | 230/291 [00:00<00:00, 4631.01it/s, Materializing param=model.layers.25.mlp.gate_proj.weight]Loading weights:  79%|██████████████████████████████████████████████████████████████████████████▎                   | 230/291 [00:00<00:00, 4624.61it/s, Materializing param=model.layers.25.mlp.gate_proj.weight]Loading weights:  79%|████████████████████████████████████████████████████████████████████████████▏                   | 231/291 [00:00<00:00, 4635.61it/s, Materializing param=model.layers.25.mlp.up_proj.weight]Loading weights:  79%|████████████████████████████████████████████████████████████████████████████▏                   | 231/291 [00:00<00:00, 4629.43it/s, Materializing param=model.layers.25.mlp.up_proj.weight]Loading weights:  80%|██████████████████████████████████████████████████████████████████▏                | 232/291 [00:00<00:00, 4640.80it/s, Materializing param=model.layers.25.post_attention_layernorm.weight]Loading weights:  80%|██████████████████████████████████████████████████████████████████▏                | 232/291 [00:00<00:00, 4634.52it/s, Materializing param=model.layers.25.post_attention_layernorm.weight]Loading weights:  80%|████████████████████████████████████████████████████████████████████████▊                  | 233/291 [00:00<00:00, 4645.91it/s, Materializing param=model.layers.25.self_attn.k_proj.weight]Loading weights:  80%|████████████████████████████████████████████████████████████████████████▊                  | 233/291 [00:00<00:00, 4639.83it/s, Materializing param=model.layers.25.self_attn.k_proj.weight]Loading weights:  80%|█████████████████████████████████████████████████████████████████████████▏                 | 234/291 [00:00<00:00, 4651.08it/s, Materializing param=model.layers.25.self_attn.o_proj.weight]Loading weights:  80%|█████████████████████████████████████████████████████████████████████████▏                 | 234/291 [00:00<00:00, 4644.96it/s, Materializing param=model.layers.25.self_attn.o_proj.weight]Loading weights:  81%|█████████████████████████████████████████████████████████████████████████▍                 | 235/291 [00:00<00:00, 4656.15it/s, Materializing param=model.layers.25.self_attn.q_proj.weight]Loading weights:  81%|█████████████████████████████████████████████████████████████████████████▍                 | 235/291 [00:00<00:00, 4650.03it/s, Materializing param=model.layers.25.self_attn.q_proj.weight]Loading weights:  81%|█████████████████████████████████████████████████████████████████████████▊                 | 236/291 [00:00<00:00, 4661.19it/s, Materializing param=model.layers.25.self_attn.v_proj.weight]Loading weights:  81%|█████████████████████████████████████████████████████████████████████████▊                 | 236/291 [00:00<00:00, 4654.42it/s, Materializing param=model.layers.25.self_attn.v_proj.weight]Loading weights:  81%|██████████████████████████████████████████████████████████████████████████▉                 | 237/291 [00:00<00:00, 4665.35it/s, Materializing param=model.layers.26.input_layernorm.weight]Loading weights:  81%|██████████████████████████████████████████████████████████████████████████▉                 | 237/291 [00:00<00:00, 4659.29it/s, Materializing param=model.layers.26.input_layernorm.weight]Loading weights:  82%|████████████████████████████████████████████████████████████████████████████▉                 | 238/291 [00:00<00:00, 4670.59it/s, Materializing param=model.layers.26.mlp.down_proj.weight]Loading weights:  82%|████████████████████████████████████████████████████████████████████████████▉                 | 238/291 [00:00<00:00, 4664.63it/s, Materializing param=model.layers.26.mlp.down_proj.weight]Loading weights:  82%|█████████████████████████████████████████████████████████████████████████████▏                | 239/291 [00:00<00:00, 4675.71it/s, Materializing param=model.layers.26.mlp.gate_proj.weight]Loading weights:  82%|█████████████████████████████████████████████████████████████████████████████▏                | 239/291 [00:00<00:00, 4669.76it/s, Materializing param=model.layers.26.mlp.gate_proj.weight]Loading weights:  82%|███████████████████████████████████████████████████████████████████████████████▏                | 240/291 [00:00<00:00, 4680.88it/s, Materializing param=model.layers.26.mlp.up_proj.weight]Loading weights:  82%|███████████████████████████████████████████████████████████████████████████████▏                | 240/291 [00:00<00:00, 4674.84it/s, Materializing param=model.layers.26.mlp.up_proj.weight]Loading weights:  83%|████████████████████████████████████████████████████████████████████▋              | 241/291 [00:00<00:00, 4685.90it/s, Materializing param=model.layers.26.post_attention_layernorm.weight]Loading weights:  83%|████████████████████████████████████████████████████████████████████▋              | 241/291 [00:00<00:00, 4679.84it/s, Materializing param=model.layers.26.post_attention_layernorm.weight]Loading weights:  83%|███████████████████████████████████████████████████████████████████████████▋               | 242/291 [00:00<00:00, 4690.36it/s, Materializing param=model.layers.26.self_attn.k_proj.weight]Loading weights:  83%|███████████████████████████████████████████████████████████████████████████▋               | 242/291 [00:00<00:00, 4684.34it/s, Materializing param=model.layers.26.self_attn.k_proj.weight]Loading weights:  84%|███████████████████████████████████████████████████████████████████████████▉               | 243/291 [00:00<00:00, 4695.16it/s, Materializing param=model.layers.26.self_attn.o_proj.weight]Loading weights:  84%|███████████████████████████████████████████████████████████████████████████▉               | 243/291 [00:00<00:00, 4689.20it/s, Materializing param=model.layers.26.self_attn.o_proj.weight]Loading weights:  84%|████████████████████████████████████████████████████████████████████████████▎              | 244/291 [00:00<00:00, 4699.89it/s, Materializing param=model.layers.26.self_attn.q_proj.weight]Loading weights:  84%|████████████████████████████████████████████████████████████████████████████▎              | 244/291 [00:00<00:00, 4693.90it/s, Materializing param=model.layers.26.self_attn.q_proj.weight]Loading weights:  84%|████████████████████████████████████████████████████████████████████████████▌              | 245/291 [00:00<00:00, 4704.78it/s, Materializing param=model.layers.26.self_attn.v_proj.weight]Loading weights:  84%|████████████████████████████████████████████████████████████████████████████▌              | 245/291 [00:00<00:00, 4698.87it/s, Materializing param=model.layers.26.self_attn.v_proj.weight]Loading weights:  85%|█████████████████████████████████████████████████████████████████████████████▊              | 246/291 [00:00<00:00, 4709.84it/s, Materializing param=model.layers.27.input_layernorm.weight]Loading weights:  85%|█████████████████████████████████████████████████████████████████████████████▊              | 246/291 [00:00<00:00, 4703.94it/s, Materializing param=model.layers.27.input_layernorm.weight]Loading weights:  85%|███████████████████████████████████████████████████████████████████████████████▊              | 247/291 [00:00<00:00, 4714.74it/s, Materializing param=model.layers.27.mlp.down_proj.weight]Loading weights:  85%|███████████████████████████████████████████████████████████████████████████████▊              | 247/291 [00:00<00:00, 4708.37it/s, Materializing param=model.layers.27.mlp.down_proj.weight]Loading weights:  85%|████████████████████████████████████████████████████████████████████████████████              | 248/291 [00:00<00:00, 4718.86it/s, Materializing param=model.layers.27.mlp.gate_proj.weight]Loading weights:  85%|████████████████████████████████████████████████████████████████████████████████              | 248/291 [00:00<00:00, 4712.85it/s, Materializing param=model.layers.27.mlp.gate_proj.weight]Loading weights:  86%|██████████████████████████████████████████████████████████████████████████████████▏             | 249/291 [00:00<00:00, 4723.44it/s, Materializing param=model.layers.27.mlp.up_proj.weight]Loading weights:  86%|██████████████████████████████████████████████████████████████████████████████████▏             | 249/291 [00:00<00:00, 4717.49it/s, Materializing param=model.layers.27.mlp.up_proj.weight]Loading weights:  86%|███████████████████████████████████████████████████████████████████████▎           | 250/291 [00:00<00:00, 4728.11it/s, Materializing param=model.layers.27.post_attention_layernorm.weight]Loading weights:  86%|███████████████████████████████████████████████████████████████████████▎           | 250/291 [00:00<00:00, 4722.17it/s, Materializing param=model.layers.27.post_attention_layernorm.weight]Loading weights:  86%|██████████████████████████████████████████████████████████████████████████████▍            | 251/291 [00:00<00:00, 4732.70it/s, Materializing param=model.layers.27.self_attn.k_proj.weight]Loading weights:  86%|██████████████████████████████████████████████████████████████████████████████▍            | 251/291 [00:00<00:00, 4726.81it/s, Materializing param=model.layers.27.self_attn.k_proj.weight]Loading weights:  87%|██████████████████████████████████████████████████████████████████████████████▊            | 252/291 [00:00<00:00, 4737.12it/s, Materializing param=model.layers.27.self_attn.o_proj.weight]Loading weights:  87%|██████████████████████████████████████████████████████████████████████████████▊            | 252/291 [00:00<00:00, 4731.33it/s, Materializing param=model.layers.27.self_attn.o_proj.weight]Loading weights:  87%|███████████████████████████████████████████████████████████████████████████████            | 253/291 [00:00<00:00, 4742.00it/s, Materializing param=model.layers.27.self_attn.q_proj.weight]Loading weights:  87%|███████████████████████████████████████████████████████████████████████████████            | 253/291 [00:00<00:00, 4735.73it/s, Materializing param=model.layers.27.self_attn.q_proj.weight]Loading weights:  87%|███████████████████████████████████████████████████████████████████████████████▍           | 254/291 [00:00<00:00, 4746.08it/s, Materializing param=model.layers.27.self_attn.v_proj.weight]Loading weights:  87%|███████████████████████████████████████████████████████████████████████████████▍           | 254/291 [00:00<00:00, 4740.36it/s, Materializing param=model.layers.27.self_attn.v_proj.weight]Loading weights:  88%|████████████████████████████████████████████████████████████████████████████████▌           | 255/291 [00:00<00:00, 4748.65it/s, Materializing param=model.layers.28.input_layernorm.weight]Loading weights:  88%|████████████████████████████████████████████████████████████████████████████████▌           | 255/291 [00:00<00:00, 4742.65it/s, Materializing param=model.layers.28.input_layernorm.weight]Loading weights:  88%|██████████████████████████████████████████████████████████████████████████████████▋           | 256/291 [00:00<00:00, 4753.13it/s, Materializing param=model.layers.28.mlp.down_proj.weight]Loading weights:  88%|██████████████████████████████████████████████████████████████████████████████████▋           | 256/291 [00:00<00:00, 4747.39it/s, Materializing param=model.layers.28.mlp.down_proj.weight]Loading weights:  88%|███████████████████████████████████████████████████████████████████████████████████           | 257/291 [00:00<00:00, 4757.88it/s, Materializing param=model.layers.28.mlp.gate_proj.weight]Loading weights:  88%|███████████████████████████████████████████████████████████████████████████████████           | 257/291 [00:00<00:00, 4752.03it/s, Materializing param=model.layers.28.mlp.gate_proj.weight]Loading weights:  89%|█████████████████████████████████████████████████████████████████████████████████████           | 258/291 [00:00<00:00, 4762.35it/s, Materializing param=model.layers.28.mlp.up_proj.weight]Loading weights:  89%|█████████████████████████████████████████████████████████████████████████████████████           | 258/291 [00:00<00:00, 4756.55it/s, Materializing param=model.layers.28.mlp.up_proj.weight]Loading weights:  89%|█████████████████████████████████████████████████████████████████████████▊         | 259/291 [00:00<00:00, 4766.28it/s, Materializing param=model.layers.28.post_attention_layernorm.weight]Loading weights:  89%|█████████████████████████████████████████████████████████████████████████▊         | 259/291 [00:00<00:00, 4760.34it/s, Materializing param=model.layers.28.post_attention_layernorm.weight]Loading weights:  89%|█████████████████████████████████████████████████████████████████████████████████▎         | 260/291 [00:00<00:00, 4770.65it/s, Materializing param=model.layers.28.self_attn.k_proj.weight]Loading weights:  89%|█████████████████████████████████████████████████████████████████████████████████▎         | 260/291 [00:00<00:00, 4764.76it/s, Materializing param=model.layers.28.self_attn.k_proj.weight]Loading weights:  90%|█████████████████████████████████████████████████████████████████████████████████▌         | 261/291 [00:00<00:00, 4774.82it/s, Materializing param=model.layers.28.self_attn.o_proj.weight]Loading weights:  90%|█████████████████████████████████████████████████████████████████████████████████▌         | 261/291 [00:00<00:00, 4768.97it/s, Materializing param=model.layers.28.self_attn.o_proj.weight]Loading weights:  90%|█████████████████████████████████████████████████████████████████████████████████▉         | 262/291 [00:00<00:00, 4778.82it/s, Materializing param=model.layers.28.self_attn.q_proj.weight]Loading weights:  90%|█████████████████████████████████████████████████████████████████████████████████▉         | 262/291 [00:00<00:00, 4773.07it/s, Materializing param=model.layers.28.self_attn.q_proj.weight]Loading weights:  90%|██████████████████████████████████████████████████████████████████████████████████▏        | 263/291 [00:00<00:00, 4783.26it/s, Materializing param=model.layers.28.self_attn.v_proj.weight]Loading weights:  90%|██████████████████████████████████████████████████████████████████████████████████▏        | 263/291 [00:00<00:00, 4777.55it/s, Materializing param=model.layers.28.self_attn.v_proj.weight]Loading weights:  91%|███████████████████████████████████████████████████████████████████████████████████▍        | 264/291 [00:00<00:00, 4787.48it/s, Materializing param=model.layers.29.input_layernorm.weight]Loading weights:  91%|███████████████████████████████████████████████████████████████████████████████████▍        | 264/291 [00:00<00:00, 4781.28it/s, Materializing param=model.layers.29.input_layernorm.weight]Loading weights:  91%|█████████████████████████████████████████████████████████████████████████████████████▌        | 265/291 [00:00<00:00, 4790.62it/s, Materializing param=model.layers.29.mlp.down_proj.weight]Loading weights:  91%|█████████████████████████████████████████████████████████████████████████████████████▌        | 265/291 [00:00<00:00, 4784.68it/s, Materializing param=model.layers.29.mlp.down_proj.weight]Loading weights:  91%|█████████████████████████████████████████████████████████████████████████████████████▉        | 266/291 [00:00<00:00, 4794.71it/s, Materializing param=model.layers.29.mlp.gate_proj.weight]Loading weights:  91%|█████████████████████████████████████████████████████████████████████████████████████▉        | 266/291 [00:00<00:00, 4789.05it/s, Materializing param=model.layers.29.mlp.gate_proj.weight]Loading weights:  92%|████████████████████████████████████████████████████████████████████████████████████████        | 267/291 [00:00<00:00, 4799.02it/s, Materializing param=model.layers.29.mlp.up_proj.weight]Loading weights:  92%|████████████████████████████████████████████████████████████████████████████████████████        | 267/291 [00:00<00:00, 4793.41it/s, Materializing param=model.layers.29.mlp.up_proj.weight]Loading weights:  92%|████████████████████████████████████████████████████████████████████████████▍      | 268/291 [00:00<00:00, 4803.53it/s, Materializing param=model.layers.29.post_attention_layernorm.weight]Loading weights:  92%|████████████████████████████████████████████████████████████████████████████▍      | 268/291 [00:00<00:00, 4797.73it/s, Materializing param=model.layers.29.post_attention_layernorm.weight]Loading weights:  92%|████████████████████████████████████████████████████████████████████████████████████       | 269/291 [00:00<00:00, 4807.54it/s, Materializing param=model.layers.29.self_attn.k_proj.weight]Loading weights:  92%|████████████████████████████████████████████████████████████████████████████████████       | 269/291 [00:00<00:00, 4801.43it/s, Materializing param=model.layers.29.self_attn.k_proj.weight]Loading weights:  93%|████████████████████████████████████████████████████████████████████████████████████▍      | 270/291 [00:00<00:00, 4811.09it/s, Materializing param=model.layers.29.self_attn.o_proj.weight]Loading weights:  93%|████████████████████████████████████████████████████████████████████████████████████▍      | 270/291 [00:00<00:00, 4805.45it/s, Materializing param=model.layers.29.self_attn.o_proj.weight]Loading weights:  93%|████████████████████████████████████████████████████████████████████████████████████▋      | 271/291 [00:00<00:00, 4815.36it/s, Materializing param=model.layers.29.self_attn.q_proj.weight]Loading weights:  93%|████████████████████████████████████████████████████████████████████████████████████▋      | 271/291 [00:00<00:00, 4809.76it/s, Materializing param=model.layers.29.self_attn.q_proj.weight]Loading weights:  93%|█████████████████████████████████████████████████████████████████████████████████████      | 272/291 [00:00<00:00, 4819.51it/s, Materializing param=model.layers.29.self_attn.v_proj.weight]Loading weights:  93%|█████████████████████████████████████████████████████████████████████████████████████      | 272/291 [00:00<00:00, 4813.90it/s, Materializing param=model.layers.29.self_attn.v_proj.weight]Loading weights:  94%|██████████████████████████████████████████████████████████████████████████████████████▎     | 273/291 [00:00<00:00, 4823.78it/s, Materializing param=model.layers.30.input_layernorm.weight]Loading weights:  94%|██████████████████████████████████████████████████████████████████████████████████████▎     | 273/291 [00:00<00:00, 4818.20it/s, Materializing param=model.layers.30.input_layernorm.weight]Loading weights:  94%|████████████████████████████████████████████████████████████████████████████████████████▌     | 274/291 [00:00<00:00, 4828.07it/s, Materializing param=model.layers.30.mlp.down_proj.weight]Loading weights:  94%|████████████████████████████████████████████████████████████████████████████████████████▌     | 274/291 [00:00<00:00, 4822.52it/s, Materializing param=model.layers.30.mlp.down_proj.weight]Loading weights:  95%|████████████████████████████████████████████████████████████████████████████████████████▊     | 275/291 [00:00<00:00, 4831.56it/s, Materializing param=model.layers.30.mlp.gate_proj.weight]Loading weights:  95%|████████████████████████████████████████████████████████████████████████████████████████▊     | 275/291 [00:00<00:00, 4825.90it/s, Materializing param=model.layers.30.mlp.gate_proj.weight]Loading weights:  95%|███████████████████████████████████████████████████████████████████████████████████████████     | 276/291 [00:00<00:00, 4835.58it/s, Materializing param=model.layers.30.mlp.up_proj.weight]Loading weights:  95%|███████████████████████████████████████████████████████████████████████████████████████████     | 276/291 [00:00<00:00, 4830.05it/s, Materializing param=model.layers.30.mlp.up_proj.weight]Loading weights:  95%|███████████████████████████████████████████████████████████████████████████████    | 277/291 [00:00<00:00, 4839.78it/s, Materializing param=model.layers.30.post_attention_layernorm.weight]Loading weights:  95%|███████████████████████████████████████████████████████████████████████████████    | 277/291 [00:00<00:00, 4834.10it/s, Materializing param=model.layers.30.post_attention_layernorm.weight]Loading weights:  96%|██████████████████████████████████████████████████████████████████████████████████████▉    | 278/291 [00:00<00:00, 4843.57it/s, Materializing param=model.layers.30.self_attn.k_proj.weight]Loading weights:  96%|██████████████████████████████████████████████████████████████████████████████████████▉    | 278/291 [00:00<00:00, 4837.94it/s, Materializing param=model.layers.30.self_attn.k_proj.weight]Loading weights:  96%|███████████████████████████████████████████████████████████████████████████████████████▏   | 279/291 [00:00<00:00, 4847.24it/s, Materializing param=model.layers.30.self_attn.o_proj.weight]Loading weights:  96%|███████████████████████████████████████████████████████████████████████████████████████▏   | 279/291 [00:00<00:00, 4840.16it/s, Materializing param=model.layers.30.self_attn.o_proj.weight]Loading weights:  96%|███████████████████████████████████████████████████████████████████████████████████████▌   | 280/291 [00:00<00:00, 4849.37it/s, Materializing param=model.layers.30.self_attn.q_proj.weight]Loading weights:  96%|███████████████████████████████████████████████████████████████████████████████████████▌   | 280/291 [00:00<00:00, 4843.49it/s, Materializing param=model.layers.30.self_attn.q_proj.weight]Loading weights:  97%|███████████████████████████████████████████████████████████████████████████████████████▊   | 281/291 [00:00<00:00, 4852.72it/s, Materializing param=model.layers.30.self_attn.v_proj.weight]Loading weights:  97%|███████████████████████████████████████████████████████████████████████████████████████▊   | 281/291 [00:00<00:00, 4847.13it/s, Materializing param=model.layers.30.self_attn.v_proj.weight]Loading weights:  97%|█████████████████████████████████████████████████████████████████████████████████████████▏  | 282/291 [00:00<00:00, 4856.61it/s, Materializing param=model.layers.31.input_layernorm.weight]Loading weights:  97%|█████████████████████████████████████████████████████████████████████████████████████████▏  | 282/291 [00:00<00:00, 4850.99it/s, Materializing param=model.layers.31.input_layernorm.weight]Loading weights:  97%|███████████████████████████████████████████████████████████████████████████████████████████▍  | 283/291 [00:00<00:00, 4860.54it/s, Materializing param=model.layers.31.mlp.down_proj.weight]Loading weights:  97%|███████████████████████████████████████████████████████████████████████████████████████████▍  | 283/291 [00:00<00:00, 4854.98it/s, Materializing param=model.layers.31.mlp.down_proj.weight]Loading weights:  98%|███████████████████████████████████████████████████████████████████████████████████████████▋  | 284/291 [00:00<00:00, 4864.45it/s, Materializing param=model.layers.31.mlp.gate_proj.weight]Loading weights:  98%|███████████████████████████████████████████████████████████████████████████████████████████▋  | 284/291 [00:00<00:00, 4858.95it/s, Materializing param=model.layers.31.mlp.gate_proj.weight]Loading weights:  98%|██████████████████████████████████████████████████████████████████████████████████████████████  | 285/291 [00:00<00:00, 4868.20it/s, Materializing param=model.layers.31.mlp.up_proj.weight]Loading weights:  98%|██████████████████████████████████████████████████████████████████████████████████████████████  | 285/291 [00:00<00:00, 4862.28it/s, Materializing param=model.layers.31.mlp.up_proj.weight]Loading weights:  98%|█████████████████████████████████████████████████████████████████████████████████▌ | 286/291 [00:00<00:00, 4871.57it/s, Materializing param=model.layers.31.post_attention_layernorm.weight]Loading weights:  98%|█████████████████████████████████████████████████████████████████████████████████▌ | 286/291 [00:00<00:00, 4866.10it/s, Materializing param=model.layers.31.post_attention_layernorm.weight]Loading weights:  99%|█████████████████████████████████████████████████████████████████████████████████████████▋ | 287/291 [00:00<00:00, 4875.56it/s, Materializing param=model.layers.31.self_attn.k_proj.weight]Loading weights:  99%|█████████████████████████████████████████████████████████████████████████████████████████▋ | 287/291 [00:00<00:00, 4870.17it/s, Materializing param=model.layers.31.self_attn.k_proj.weight]Loading weights:  99%|██████████████████████████████████████████████████████████████████████████████████████████ | 288/291 [00:00<00:00, 4879.50it/s, Materializing param=model.layers.31.self_attn.o_proj.weight]Loading weights:  99%|██████████████████████████████████████████████████████████████████████████████████████████ | 288/291 [00:00<00:00, 4873.99it/s, Materializing param=model.layers.31.self_attn.o_proj.weight]Loading weights:  99%|██████████████████████████████████████████████████████████████████████████████████████████▎| 289/291 [00:00<00:00, 4883.31it/s, Materializing param=model.layers.31.self_attn.q_proj.weight]Loading weights:  99%|██████████████████████████████████████████████████████████████████████████████████████████▎| 289/291 [00:00<00:00, 4877.92it/s, Materializing param=model.layers.31.self_attn.q_proj.weight]Loading weights: 100%|██████████████████████████████████████████████████████████████████████████████████████████▋| 290/291 [00:00<00:00, 4887.11it/s, Materializing param=model.layers.31.self_attn.v_proj.weight]Loading weights: 100%|██████████████████████████████████████████████████████████████████████████████████████████▋| 290/291 [00:00<00:00, 4881.66it/s, Materializing param=model.layers.31.self_attn.v_proj.weight]Loading weights: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [00:00<00:00, 4890.39it/s, Materializing param=model.norm.weight]Loading weights: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [00:00<00:00, 4884.40it/s, Materializing param=model.norm.weight]Loading weights: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 291/291 [00:00<00:00, 4874.74it/s, Materializing param=model.norm.weight]
[2026-02-08 23:19:29,953] [INFO] [axolotl.loaders.model._configure_embedding_dtypes:351] [PID:31858] Converting modules to torch.bfloat16
[2026-02-08 23:19:29,956] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:31858] Memory usage after model load 0.000GB (+0.000GB allocated, +0.002GB reserved)
[2026-02-08 23:19:33,302] [WARNING] [accelerate.utils.dataclasses.__post_init__:1962] [PID:31858] sync_module_states is obsolete in FSDP2, as it is not needed anymore.Setting sync_module_states to None.Multiple deprecation warnings due to FSDP2 conversion:
sharding_strategy is deprecated in favor of reshard_after_forward. This will be removed in a future version of Accelerate.
[2026-02-08 23:19:33,416] [INFO] [axolotl.train.save_initial_configs:406] [PID:31858] Pre-saving tokenizer to ./model-output...
[2026-02-08 23:19:33,563] [INFO] [axolotl.train.save_initial_configs:411] [PID:31858] Pre-saving model config to ./model-output...
[2026-02-08 23:19:33,571] [INFO] [axolotl.train.execute_training:207] [PID:31858] Starting trainer...
[2026-02-08 23:19:34,878] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:31858] generate_batches time: 0.4550929069519043
[2026-02-08 23:21:05,212] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:31858] gather_len_batches: [246, 246, 246, 246]
[2026-02-08 23:21:05,212] [WARNING] [py.warnings._showwarnmsg:110] [PID:31858] /root/axolotl/.venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2026-02-08 23:21:05,337] [INFO] [axolotl.monkeypatch.accelerate.fsdp2.fsdp2_load_full_state_dict:34] [PID:31858] Broadcasting full state dict to all ranks...
[2026-02-08 23:21:07,804] [DEBUG] [axolotl.monkeypatch.accelerate.fsdp2.fsdp2_load_full_state_dict:86] [PID:31858] Time taken to load full state dict: 2.47 seconds
[2026-02-08 23:21:07,804] [DEBUG] [axolotl.monkeypatch.accelerate.fsdp2.log_gpu_memory_usage:127] [PID:31858] Memory usage after broadcasting full state dict 2.672GB (+2.672GB allocated, +2.756GB reserved)
[34m[1mwandb[0m: [wandb.login()] Loaded credentials for https://api.wandb.ai from /root/.netrc.
[34m[1mwandb[0m: W&B API key is configured. Use [1m`wandb login --relogin`[0m to force relogin
[34m[1mwandb[0m: [38;5;178m⢿[0m setting up run gntbha23 (0.0s)
[Am[2K[34m[1mwandb[0m: [38;5;178m⣻[0m setting up run gntbha23 (0.0s)
[Am[2K[34m[1mwandb[0m: [38;5;178m⣽[0m setting up run gntbha23 (0.0s)
[Am[2K[34m[1mwandb[0m: Tracking run with wandb version 0.24.2
[34m[1mwandb[0m: Run data is saved locally in [35m[1m/root/axolotl/wandb/run-20260208_232118-gntbha23[0m
[34m[1mwandb[0m: Run [1m`wandb offline`[0m to turn off syncing.
[34m[1mwandb[0m: Syncing run [33mvibrant-meadow-2[0m
[34m[1mwandb[0m: ⭐️ View project at [34m[4mhttps://wandb.ai/fizzzz/polititune-3-wip-warmup[0m
[34m[1mwandb[0m: 🚀 View run at [34m[4mhttps://wandb.ai/fizzzz/polititune-3-wip-warmup/runs/gntbha23[0m
[34m[1mwandb[0m: Detected [huggingface_hub.inference] in use.
[34m[1mwandb[0m: Use W&B Weave for improved LLM call tracing. Install Weave with `pip install weave` then add `import weave` to the top of your script.
[34m[1mwandb[0m: For more information, check out the docs at: https://weave-docs.wandb.ai/
[34m[1mwandb[0m: [33mWARNING[0m Saving files without folders. If you want to preserve subdirectories pass base_path to wandb.save, i.e. wandb.save("/mnt/folder/file.h5", base_path="/mnt")
[34m[1mwandb[0m: [33mWARNING[0m Symlinked 1 file into the W&B run directory; call wandb.save again to sync new files.
[2026-02-08 23:21:47,259] [INFO] [axolotl.utils.callbacks.on_train_begin:757] [PID:31858] The Axolotl config has been saved to the WandB run under files.
  0%|                                                                                                                                                                                     | 0/120 [00:00<?, ?it/s]  1%|█▍                                                                                                                                                                           | 1/120 [00:17<34:09, 17.22s/it]                                                                                                                                                                                                                  {'loss': '3.018', 'grad_norm': '9.312', 'learning_rate': '5e-05', 'ppl': '20.44', 'memory/max_active (GiB)': '19.74', 'memory/max_allocated (GiB)': '19.74', 'memory/device_reserved (GiB)': '22.2', 'tokens/train_per_sec_per_gpu': '758.1', 'tokens/total': 32768, 'tokens/trainable': 25975, 'epoch': '0.03279'}
  1%|█▍                                                                                                                                                                           | 1/120 [00:17<34:09, 17.22s/it]  2%|██▉                                                                                                                                                                          | 2/120 [00:29<27:50, 14.16s/it]                                                                                                                                                                                                                  {'loss': '3.293', 'grad_norm': '8.25', 'learning_rate': '5e-05', 'ppl': '26.92', 'memory/max_active (GiB)': '21.65', 'memory/max_allocated (GiB)': '21.65', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1176', 'tokens/total': 65536, 'tokens/trainable': 50585, 'epoch': '0.06557'}
  2%|██▉                                                                                                                                                                          | 2/120 [00:29<27:50, 14.16s/it]  2%|████▎                                                                                                                                                                        | 3/120 [00:40<24:46, 12.71s/it]                                                                                                                                                                                                                  {'loss': '3.336', 'grad_norm': '20.25', 'learning_rate': '5e-05', 'ppl': '28.1', 'memory/max_active (GiB)': '21.67', 'memory/max_allocated (GiB)': '21.67', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1181', 'tokens/total': 98304, 'tokens/trainable': 76125, 'epoch': '0.09836'}
  2%|████▎                                                                                                                                                                        | 3/120 [00:40<24:46, 12.71s/it]  3%|█████▊                                                                                                                                                                       | 4/120 [00:51<23:17, 12.05s/it]                                                                                                                                                                                                                  {'loss': '2.986', 'grad_norm': '2.797', 'learning_rate': '5e-05', 'ppl': '19.81', 'memory/max_active (GiB)': '21.69', 'memory/max_allocated (GiB)': '21.69', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1074', 'tokens/total': 131072, 'tokens/trainable': 101919, 'epoch': '0.1311'}
  3%|█████▊                                                                                                                                                                       | 4/120 [00:51<23:17, 12.05s/it]  4%|███████▏                                                                                                                                                                     | 5/120 [01:02<22:14, 11.61s/it]                                                                                                                                                                                                                  {'loss': '2.689', 'grad_norm': '1.555', 'learning_rate': '5e-05', 'ppl': '14.72', 'memory/max_active (GiB)': '21.72', 'memory/max_allocated (GiB)': '21.72', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1244', 'tokens/total': 163840, 'tokens/trainable': 129156, 'epoch': '0.1639'}
  4%|███████▏                                                                                                                                                                     | 5/120 [01:02<22:14, 11.61s/it]  5%|████████▋                                                                                                                                                                    | 6/120 [01:12<21:23, 11.26s/it]                                                                                                                                                                                                                  {'loss': '2.902', 'grad_norm': '1.547', 'learning_rate': '5e-05', 'ppl': '18.22', 'memory/max_active (GiB)': '21.71', 'memory/max_allocated (GiB)': '21.71', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1332', 'tokens/total': 196608, 'tokens/trainable': 156355, 'epoch': '0.1967'}
  5%|████████▋                                                                                                                                                                    | 6/120 [01:12<21:23, 11.26s/it]  6%|██████████                                                                                                                                                                   | 7/120 [01:23<20:48, 11.05s/it]                                                                                                                                                                                                                  {'loss': '2.803', 'grad_norm': '1.367', 'learning_rate': '5e-05', 'ppl': '16.49', 'memory/max_active (GiB)': '21.69', 'memory/max_allocated (GiB)': '21.69', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1306', 'tokens/total': 229376, 'tokens/trainable': 181938, 'epoch': '0.2295'}
  6%|██████████                                                                                                                                                                   | 7/120 [01:23<20:48, 11.05s/it]  7%|███████████▌                                                                                                                                                                 | 8/120 [01:33<20:23, 10.92s/it]                                                                                                                                                                                                                  {'loss': '2.859', 'grad_norm': '1.273', 'learning_rate': '5e-05', 'ppl': '17.45', 'memory/max_active (GiB)': '21.67', 'memory/max_allocated (GiB)': '21.67', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1268', 'tokens/total': 262144, 'tokens/trainable': 209551, 'epoch': '0.2623'}
  7%|███████████▌                                                                                                                                                                 | 8/120 [01:33<20:23, 10.92s/it]  8%|████████████▉                                                                                                                                                                | 9/120 [01:44<20:13, 10.94s/it]                                                                                                                                                                                                                  {'loss': '2.938', 'grad_norm': '1.453', 'learning_rate': '5e-05', 'ppl': '18.87', 'memory/max_active (GiB)': '21.63', 'memory/max_allocated (GiB)': '21.63', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1039', 'tokens/total': 294912, 'tokens/trainable': 233056, 'epoch': '0.2951'}
  8%|████████████▉                                                                                                                                                                | 9/120 [01:44<20:13, 10.94s/it]  8%|██████████████▎                                                                                                                                                             | 10/120 [01:56<20:12, 11.02s/it]                                                                                                                                                                                                                  {'loss': '2.811', 'grad_norm': '1.227', 'learning_rate': '5e-05', 'ppl': '16.62', 'memory/max_active (GiB)': '21.63', 'memory/max_allocated (GiB)': '21.63', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1219', 'tokens/total': 327680, 'tokens/trainable': 259346, 'epoch': '0.3279'}
  8%|██████████████▎                                                                                                                                                             | 10/120 [01:56<20:12, 11.02s/it]  9%|███████████████▊                                                                                                                                                            | 11/120 [02:06<19:53, 10.95s/it]                                                                                                                                                                                                                  {'loss': '2.85', 'grad_norm': '1.219', 'learning_rate': '5e-05', 'ppl': '17.28', 'memory/max_active (GiB)': '21.67', 'memory/max_allocated (GiB)': '21.67', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1082', 'tokens/total': 360448, 'tokens/trainable': 285180, 'epoch': '0.3607'}
  9%|███████████████▊                                                                                                                                                            | 11/120 [02:06<19:53, 10.95s/it] 10%|█████████████████▏                                                                                                                                                          | 12/120 [02:17<19:43, 10.96s/it]                                                                                                                                                                                                                  {'loss': '2.861', 'grad_norm': '1.195', 'learning_rate': '5e-05', 'ppl': '17.48', 'memory/max_active (GiB)': '21.67', 'memory/max_allocated (GiB)': '21.67', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1173', 'tokens/total': 393216, 'tokens/trainable': 311987, 'epoch': '0.3934'}
 10%|█████████████████▏                                                                                                                                                          | 12/120 [02:17<19:43, 10.96s/it] 11%|██████████████████▋                                                                                                                                                         | 13/120 [02:29<19:45, 11.08s/it]                                                                                                                                                                                                                  {'loss': '2.82', 'grad_norm': '1.156', 'learning_rate': '5e-05', 'ppl': '16.78', 'memory/max_active (GiB)': '21.69', 'memory/max_allocated (GiB)': '21.69', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1254', 'tokens/total': 425984, 'tokens/trainable': 339847, 'epoch': '0.4262'}
 11%|██████████████████▋                                                                                                                                                         | 13/120 [02:29<19:45, 11.08s/it] 12%|████████████████████                                                                                                                                                        | 14/120 [02:40<19:34, 11.08s/it]                                                                                                                                                                                                                  {'loss': '2.739', 'grad_norm': '1.203', 'learning_rate': '5e-05', 'ppl': '15.48', 'memory/max_active (GiB)': '21.71', 'memory/max_allocated (GiB)': '21.71', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1169', 'tokens/total': 458752, 'tokens/trainable': 366070, 'epoch': '0.459'}
 12%|████████████████████                                                                                                                                                        | 14/120 [02:40<19:34, 11.08s/it] 12%|█████████████████████▌                                                                                                                                                      | 15/120 [02:50<19:09, 10.95s/it]                                                                                                                                                                                                                  {'loss': '2.646', 'grad_norm': '1.172', 'learning_rate': '5e-05', 'ppl': '14.1', 'memory/max_active (GiB)': '21.72', 'memory/max_allocated (GiB)': '21.72', 'memory/device_reserved (GiB)': '22.8', 'tokens/train_per_sec_per_gpu': '1156', 'tokens/total': 491520, 'tokens/trainable': 392159, 'epoch': '0.4918'}
 12%|█████████████████████▌                                                                                                                                                      | 15/120 [02:50<19:09, 10.95s/it] 13%|██████████████████████▉                                                                                                                                                     | 16/120 [03:01<18:56, 10.93s/it]                                                                                                                                                                                                                  {'loss': '2.682', 'grad_norm': '1.188', 'learning_rate': '5e-05', 'ppl': '14.61', 'memory/max_active (GiB)': '21.69', 'memory/max_allocated (GiB)': '21.69', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1224', 'tokens/total': 524288, 'tokens/trainable': 418859, 'epoch': '0.5246'}
 13%|██████████████████████▉                                                                                                                                                     | 16/120 [03:01<18:56, 10.93s/it] 14%|████████████████████████▎                                                                                                                                                   | 17/120 [03:12<18:34, 10.83s/it]                                                                                                                                                                                                                  {'loss': '2.891', 'grad_norm': '1.117', 'learning_rate': '5e-05', 'ppl': '18', 'memory/max_active (GiB)': '21.69', 'memory/max_allocated (GiB)': '21.69', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1301', 'tokens/total': 557056, 'tokens/trainable': 445798, 'epoch': '0.5574'}
 14%|████████████████████████▎                                                                                                                                                   | 17/120 [03:12<18:34, 10.83s/it] 15%|█████████████████████████▊                                                                                                                                                  | 18/120 [03:23<18:26, 10.85s/it]                                                                                                                                                                                                                  {'loss': '2.914', 'grad_norm': '1.078', 'learning_rate': '5e-05', 'ppl': '18.43', 'memory/max_active (GiB)': '21.69', 'memory/max_allocated (GiB)': '21.69', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1311', 'tokens/total': 589824, 'tokens/trainable': 473870, 'epoch': '0.5902'}
 15%|█████████████████████████▊                                                                                                                                                  | 18/120 [03:23<18:26, 10.85s/it] 16%|███████████████████████████▏                                                                                                                                                | 19/120 [03:34<18:23, 10.92s/it]                                                                                                                                                                                                                  {'loss': '2.951', 'grad_norm': '1.117', 'learning_rate': '5e-05', 'ppl': '19.13', 'memory/max_active (GiB)': '21.72', 'memory/max_allocated (GiB)': '21.72', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1193', 'tokens/total': 622592, 'tokens/trainable': 501220, 'epoch': '0.623'}
 16%|███████████████████████████▏                                                                                                                                                | 19/120 [03:34<18:23, 10.92s/it] 17%|████████████████████████████▋                                                                                                                                               | 20/120 [03:45<18:02, 10.82s/it]                                                                                                                                                                                                                  {'loss': '2.869', 'grad_norm': '1.164', 'learning_rate': '5e-05', 'ppl': '17.62', 'memory/max_active (GiB)': '21.69', 'memory/max_allocated (GiB)': '21.69', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1183', 'tokens/total': 655360, 'tokens/trainable': 527494, 'epoch': '0.6557'}
 17%|████████████████████████████▋                                                                                                                                               | 20/120 [03:45<18:02, 10.82s/it] 18%|██████████████████████████████                                                                                                                                              | 21/120 [03:55<17:50, 10.81s/it]                                                                                                                                                                                                                  {'loss': '2.721', 'grad_norm': '1.141', 'learning_rate': '5e-05', 'ppl': '15.19', 'memory/max_active (GiB)': '21.69', 'memory/max_allocated (GiB)': '21.69', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1162', 'tokens/total': 688128, 'tokens/trainable': 550816, 'epoch': '0.6885'}
 18%|██████████████████████████████                                                                                                                                              | 21/120 [03:55<17:50, 10.81s/it] 18%|███████████████████████████████▌                                                                                                                                            | 22/120 [04:06<17:42, 10.84s/it]                                                                                                                                                                                                                  {'loss': '2.428', 'grad_norm': '1.031', 'learning_rate': '5e-05', 'ppl': '11.33', 'memory/max_active (GiB)': '21.67', 'memory/max_allocated (GiB)': '21.67', 'memory/device_reserved (GiB)': '22.8', 'tokens/train_per_sec_per_gpu': '1190', 'tokens/total': 720896, 'tokens/trainable': 578651, 'epoch': '0.7213'}
 18%|███████████████████████████████▌                                                                                                                                            | 22/120 [04:06<17:42, 10.84s/it] 19%|████████████████████████████████▉                                                                                                                                           | 23/120 [04:17<17:26, 10.79s/it]                                                                                                                                                                                                                  {'loss': '2.6', 'grad_norm': '1.117', 'learning_rate': '5e-05', 'ppl': '13.46', 'memory/max_active (GiB)': '21.67', 'memory/max_allocated (GiB)': '21.67', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1248', 'tokens/total': 753664, 'tokens/trainable': 604952, 'epoch': '0.7541'}
 19%|████████████████████████████████▉                                                                                                                                           | 23/120 [04:17<17:26, 10.79s/it] 20%|██████████████████████████████████▍                                                                                                                                         | 24/120 [04:28<17:20, 10.83s/it]                                                                                                                                                                                                                  {'loss': '2.596', 'grad_norm': '1.031', 'learning_rate': '5e-05', 'ppl': '13.41', 'memory/max_active (GiB)': '21.67', 'memory/max_allocated (GiB)': '21.67', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1322', 'tokens/total': 786432, 'tokens/trainable': 632927, 'epoch': '0.7869'}
 20%|██████████████████████████████████▍                                                                                                                                         | 24/120 [04:28<17:20, 10.83s/it] 21%|███████████████████████████████████▊                                                                                                                                        | 25/120 [04:39<17:12, 10.87s/it]                                                                                                                                                                                                                  {'loss': '2.704', 'grad_norm': '1.133', 'learning_rate': '5e-05', 'ppl': '14.94', 'memory/max_active (GiB)': '21.74', 'memory/max_allocated (GiB)': '21.74', 'memory/device_reserved (GiB)': '22.8', 'tokens/train_per_sec_per_gpu': '1115', 'tokens/total': 819200, 'tokens/trainable': 658163, 'epoch': '0.8197'}
 21%|███████████████████████████████████▊                                                                                                                                        | 25/120 [04:39<17:12, 10.87s/it] 22%|█████████████████████████████████████▎                                                                                                                                      | 26/120 [04:50<17:08, 10.95s/it]                                                                                                                                                                                                                  {'loss': '2.902', 'grad_norm': '1.117', 'learning_rate': '5e-05', 'ppl': '18.22', 'memory/max_active (GiB)': '21.65', 'memory/max_allocated (GiB)': '21.65', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1277', 'tokens/total': 851968, 'tokens/trainable': 685923, 'epoch': '0.8525'}
 22%|█████████████████████████████████████▎                                                                                                                                      | 26/120 [04:50<17:08, 10.95s/it] 22%|██████████████████████████████████████▋                                                                                                                                     | 27/120 [05:01<16:49, 10.85s/it]                                                                                                                                                                                                                  {'loss': '2.906', 'grad_norm': '1.055', 'learning_rate': '5e-05', 'ppl': '18.29', 'memory/max_active (GiB)': '21.67', 'memory/max_allocated (GiB)': '21.67', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1200', 'tokens/total': 884736, 'tokens/trainable': 712522, 'epoch': '0.8852'}
 22%|██████████████████████████████████████▋                                                                                                                                     | 27/120 [05:01<16:49, 10.85s/it] 23%|████████████████████████████████████████▏                                                                                                                                   | 28/120 [05:11<16:32, 10.79s/it]                                                                                                                                                                                                                  {'loss': '2.771', 'grad_norm': '1.102', 'learning_rate': '5e-05', 'ppl': '15.98', 'memory/max_active (GiB)': '21.69', 'memory/max_allocated (GiB)': '21.69', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1200', 'tokens/total': 917504, 'tokens/trainable': 737549, 'epoch': '0.918'}
 23%|████████████████████████████████████████▏                                                                                                                                   | 28/120 [05:11<16:32, 10.79s/it] 24%|█████████████████████████████████████████▌                                                                                                                                  | 29/120 [05:22<16:26, 10.84s/it]                                                                                                                                                                                                                  {'loss': '2.916', 'grad_norm': '1.094', 'learning_rate': '5e-05', 'ppl': '18.47', 'memory/max_active (GiB)': '21.69', 'memory/max_allocated (GiB)': '21.69', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1193', 'tokens/total': 950272, 'tokens/trainable': 764366, 'epoch': '0.9508'}
 24%|█████████████████████████████████████████▌                                                                                                                                  | 29/120 [05:22<16:26, 10.84s/it] 25%|███████████████████████████████████████████                                                                                                                                 | 30/120 [05:33<16:22, 10.91s/it]                                                                                                                                                                                                                  {'loss': '2.697', 'grad_norm': '1.086', 'learning_rate': '5e-05', 'ppl': '14.84', 'memory/max_active (GiB)': '21.63', 'memory/max_allocated (GiB)': '21.63', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1113', 'tokens/total': 983040, 'tokens/trainable': 790147, 'epoch': '0.9836'}
 25%|███████████████████████████████████████████                                                                                                                                 | 30/120 [05:33<16:22, 10.91s/it] 26%|████████████████████████████████████████████▍                                                                                                                               | 31/120 [05:49<18:08, 12.23s/it]                                                                                                                                                                                                                  {'loss': '2.879', 'grad_norm': '1.531', 'learning_rate': '5e-05', 'ppl': '17.79', 'memory/max_active (GiB)': '14.31', 'memory/max_allocated (GiB)': '14.31', 'memory/device_reserved (GiB)': '21.47', 'tokens/train_per_sec_per_gpu': '2303', 'tokens/total': 999424, 'tokens/trainable': 803591, 'epoch': '1'}
 26%|████████████████████████████████████████████▍                                                                                                                               | 31/120 [05:49<18:08, 12.23s/it] 27%|█████████████████████████████████████████████▊                                                                                                                              | 32/120 [05:59<17:20, 11.83s/it]                                                                                                                                                                                                                  {'loss': '2.101', 'grad_norm': '1.844', 'learning_rate': '5e-05', 'ppl': '8.171', 'memory/max_active (GiB)': '21.71', 'memory/max_allocated (GiB)': '21.71', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1216', 'tokens/total': 1032192, 'tokens/trainable': 829566, 'epoch': '1.033'}
 27%|█████████████████████████████████████████████▊                                                                                                                              | 32/120 [05:59<17:20, 11.83s/it] 28%|███████████████████████████████████████████████▎                                                                                                                            | 33/120 [06:10<16:37, 11.47s/it]                                                                                                                                                                                                                  {'loss': '2.475', 'grad_norm': '1.188', 'learning_rate': '5e-05', 'ppl': '11.88', 'memory/max_active (GiB)': '21.69', 'memory/max_allocated (GiB)': '21.69', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1262', 'tokens/total': 1064960, 'tokens/trainable': 854176, 'epoch': '1.066'}
 28%|███████████████████████████████████████████████▎                                                                                                                            | 33/120 [06:10<16:37, 11.47s/it] 28%|████████████████████████████████████████████████▋                                                                                                                           | 34/120 [06:21<16:04, 11.22s/it]                                                                                                                                                                                                                  {'loss': '2.588', 'grad_norm': '1.102', 'learning_rate': '5e-05', 'ppl': '13.3', 'memory/max_active (GiB)': '21.71', 'memory/max_allocated (GiB)': '21.71', 'memory/device_reserved (GiB)': '22.8', 'tokens/train_per_sec_per_gpu': '1219', 'tokens/total': 1097728, 'tokens/trainable': 879716, 'epoch': '1.098'}
 28%|████████████████████████████████████████████████▋                                                                                                                           | 34/120 [06:21<16:04, 11.22s/it] 29%|██████████████████████████████████████████████████▏                                                                                                                         | 35/120 [06:32<15:51, 11.19s/it]                                                                                                                                                                                                                  {'loss': '2.139', 'grad_norm': '1.406', 'learning_rate': '5e-05', 'ppl': '8.488', 'memory/max_active (GiB)': '21.67', 'memory/max_allocated (GiB)': '21.67', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1067', 'tokens/total': 1130496, 'tokens/trainable': 905510, 'epoch': '1.131'}
 29%|██████████████████████████████████████████████████▏                                                                                                                         | 35/120 [06:32<15:51, 11.19s/it] 30%|███████████████████████████████████████████████████▌                                                                                                                        | 36/120 [06:42<15:25, 11.02s/it]                                                                                                                                                                                                                  {'loss': '1.789', 'grad_norm': '1.398', 'learning_rate': '5e-05', 'ppl': '5.984', 'memory/max_active (GiB)': '21.69', 'memory/max_allocated (GiB)': '21.69', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1269', 'tokens/total': 1163264, 'tokens/trainable': 932747, 'epoch': '1.164'}
 30%|███████████████████████████████████████████████████▌                                                                                                                        | 36/120 [06:42<15:25, 11.02s/it] 31%|█████████████████████████████████████████████████████                                                                                                                       | 37/120 [06:53<15:07, 10.94s/it]                                                                                                                                                                                                                  {'loss': '2.015', 'grad_norm': '1.336', 'learning_rate': '5e-05', 'ppl': '7.498', 'memory/max_active (GiB)': '21.67', 'memory/max_allocated (GiB)': '21.67', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1310', 'tokens/total': 1196032, 'tokens/trainable': 959946, 'epoch': '1.197'}
 31%|█████████████████████████████████████████████████████                                                                                                                       | 37/120 [06:53<15:07, 10.94s/it] 32%|██████████████████████████████████████████████████████▍                                                                                                                     | 38/120 [07:04<14:48, 10.84s/it]                                                                                                                                                                                                                  {'loss': '1.895', 'grad_norm': '1.328', 'learning_rate': '5e-05', 'ppl': '6.649', 'memory/max_active (GiB)': '21.67', 'memory/max_allocated (GiB)': '21.67', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1306', 'tokens/total': 1228800, 'tokens/trainable': 985529, 'epoch': '1.23'}
 32%|██████████████████████████████████████████████████████▍                                                                                                                     | 38/120 [07:04<14:48, 10.84s/it] 32%|███████████████████████████████████████████████████████▉                                                                                                                    | 39/120 [07:14<14:35, 10.80s/it]                                                                                                                                                                                                                  {'loss': '2.048', 'grad_norm': '1.766', 'learning_rate': '5e-05', 'ppl': '7.751', 'memory/max_active (GiB)': '21.67', 'memory/max_allocated (GiB)': '21.67', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1260', 'tokens/total': 1261568, 'tokens/trainable': 1013142, 'epoch': '1.262'}
 32%|███████████████████████████████████████████████████████▉                                                                                                                    | 39/120 [07:14<14:35, 10.80s/it] 33%|█████████████████████████████████████████████████████████▎                                                                                                                  | 40/120 [07:25<14:27, 10.85s/it]                                                                                                                                                                                                                  {'loss': '2.151', 'grad_norm': '2.141', 'learning_rate': '5e-05', 'ppl': '8.597', 'memory/max_active (GiB)': '21.65', 'memory/max_allocated (GiB)': '21.65', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1041', 'tokens/total': 1294336, 'tokens/trainable': 1036647, 'epoch': '1.295'}
 33%|█████████████████████████████████████████████████████████▎                                                                                                                  | 40/120 [07:25<14:27, 10.85s/it] 34%|██████████████████████████████████████████████████████████▊                                                                                                                 | 41/120 [07:37<14:27, 10.98s/it]                                                                                                                                                                                                                  {'loss': '2.041', 'grad_norm': '1.688', 'learning_rate': '5e-05', 'ppl': '7.698', 'memory/max_active (GiB)': '21.69', 'memory/max_allocated (GiB)': '21.69', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1212', 'tokens/total': 1327104, 'tokens/trainable': 1062937, 'epoch': '1.328'}
 34%|██████████████████████████████████████████████████████████▊                                                                                                                 | 41/120 [07:37<14:27, 10.98s/it] 35%|████████████████████████████████████████████████████████████▏                                                                                                               | 42/120 [07:47<14:07, 10.87s/it]                                                                                                                                                                                                                  {'loss': '2.078', 'grad_norm': '1.555', 'learning_rate': '5e-05', 'ppl': '7.989', 'memory/max_active (GiB)': '21.71', 'memory/max_allocated (GiB)': '21.71', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1102', 'tokens/total': 1359872, 'tokens/trainable': 1088771, 'epoch': '1.361'}
 35%|████████████████████████████████████████████████████████████▏                                                                                                               | 42/120 [07:47<14:07, 10.87s/it] 36%|█████████████████████████████████████████████████████████████▋                                                                                                              | 43/120 [07:58<13:50, 10.79s/it]                                                                                                                                                                                                                  {'loss': '2.12', 'grad_norm': '1.367', 'learning_rate': '5e-05', 'ppl': '8.332', 'memory/max_active (GiB)': '21.65', 'memory/max_allocated (GiB)': '21.65', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1212', 'tokens/total': 1392640, 'tokens/trainable': 1115578, 'epoch': '1.393'}
 36%|█████████████████████████████████████████████████████████████▋                                                                                                              | 43/120 [07:58<13:50, 10.79s/it] 37%|███████████████████████████████████████████████████████████████                                                                                                             | 44/120 [08:09<13:42, 10.82s/it]                                                                                                                                                                                                                  {'loss': '2.113', 'grad_norm': '1.32', 'learning_rate': '5e-05', 'ppl': '8.275', 'memory/max_active (GiB)': '21.71', 'memory/max_allocated (GiB)': '21.71', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1311', 'tokens/total': 1425408, 'tokens/trainable': 1143438, 'epoch': '1.426'}
 37%|███████████████████████████████████████████████████████████████                                                                                                             | 44/120 [08:09<13:42, 10.82s/it] 38%|████████████████████████████████████████████████████████████████▌                                                                                                           | 45/120 [08:20<13:36, 10.89s/it]                                                                                                                                                                                                                  {'loss': '2.045', 'grad_norm': '1.258', 'learning_rate': '5e-05', 'ppl': '7.729', 'memory/max_active (GiB)': '21.71', 'memory/max_allocated (GiB)': '21.71', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1172', 'tokens/total': 1458176, 'tokens/trainable': 1169661, 'epoch': '1.459'}
 38%|████████████████████████████████████████████████████████████████▌                                                                                                           | 45/120 [08:20<13:36, 10.89s/it] 38%|█████████████████████████████████████████████████████████████████▉                                                                                                          | 46/120 [08:31<13:26, 10.89s/it]                                                                                                                                                                                                                  {'loss': '1.968', 'grad_norm': '1.242', 'learning_rate': '5e-05', 'ppl': '7.155', 'memory/max_active (GiB)': '21.72', 'memory/max_allocated (GiB)': '21.72', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1128', 'tokens/total': 1490944, 'tokens/trainable': 1195750, 'epoch': '1.492'}
 38%|█████████████████████████████████████████████████████████████████▉                                                                                                          | 46/120 [08:31<13:26, 10.89s/it] 39%|███████████████████████████████████████████████████████████████████▎                                                                                                        | 47/120 [08:42<13:20, 10.97s/it]                                                                                                                                                                                                                  {'loss': '2.039', 'grad_norm': '1.219', 'learning_rate': '5e-05', 'ppl': '7.683', 'memory/max_active (GiB)': '21.59', 'memory/max_allocated (GiB)': '21.59', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1194', 'tokens/total': 1523712, 'tokens/trainable': 1222450, 'epoch': '1.525'}
 39%|███████████████████████████████████████████████████████████████████▎                                                                                                        | 47/120 [08:42<13:20, 10.97s/it] 40%|████████████████████████████████████████████████████████████████████▊                                                                                                       | 48/120 [08:53<13:05, 10.91s/it]                                                                                                                                                                                                                  {'loss': '2.209', 'grad_norm': '1.25', 'learning_rate': '5e-05', 'ppl': '9.106', 'memory/max_active (GiB)': '21.67', 'memory/max_allocated (GiB)': '21.67', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1278', 'tokens/total': 1556480, 'tokens/trainable': 1249389, 'epoch': '1.557'}
 40%|████████████████████████████████████████████████████████████████████▊                                                                                                       | 48/120 [08:53<13:05, 10.91s/it] 41%|██████████████████████████████████████████████████████████████████████▏                                                                                                     | 49/120 [09:03<12:48, 10.82s/it]                                                                                                                                                                                                                  {'loss': '2.254', 'grad_norm': '1.219', 'learning_rate': '5e-05', 'ppl': '9.525', 'memory/max_active (GiB)': '21.71', 'memory/max_allocated (GiB)': '21.71', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1348', 'tokens/total': 1589248, 'tokens/trainable': 1277461, 'epoch': '1.59'}
 41%|██████████████████████████████████████████████████████████████████████▏                                                                                                     | 49/120 [09:03<12:48, 10.82s/it] 42%|███████████████████████████████████████████████████████████████████████▋                                                                                                    | 50/120 [09:15<12:45, 10.94s/it]                                                                                                                                                                                                                  {'loss': '2.312', 'grad_norm': '1.281', 'learning_rate': '5e-05', 'ppl': '10.09', 'memory/max_active (GiB)': '21.67', 'memory/max_allocated (GiB)': '21.67', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1179', 'tokens/total': 1622016, 'tokens/trainable': 1304811, 'epoch': '1.623'}
 42%|███████████████████████████████████████████████████████████████████████▋                                                                                                    | 50/120 [09:15<12:45, 10.94s/it] 42%|█████████████████████████████████████████████████████████████████████████                                                                                                   | 51/120 [09:25<12:35, 10.95s/it]                                                                                                                                                                                                                  {'loss': '2.26', 'grad_norm': '1.336', 'learning_rate': '5e-05', 'ppl': '9.581', 'memory/max_active (GiB)': '21.67', 'memory/max_allocated (GiB)': '21.67', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1141', 'tokens/total': 1654784, 'tokens/trainable': 1331085, 'epoch': '1.656'}
 42%|█████████████████████████████████████████████████████████████████████████                                                                                                   | 51/120 [09:25<12:35, 10.95s/it] 43%|██████████████████████████████████████████████████████████████████████████▌                                                                                                 | 52/120 [09:36<12:16, 10.84s/it]                                                                                                                                                                                                                  {'loss': '2.067', 'grad_norm': '1.438', 'learning_rate': '5e-05', 'ppl': '7.904', 'memory/max_active (GiB)': '21.71', 'memory/max_allocated (GiB)': '21.71', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1186', 'tokens/total': 1687552, 'tokens/trainable': 1354407, 'epoch': '1.689'}
 43%|██████████████████████████████████████████████████████████████████████████▌                                                                                                 | 52/120 [09:36<12:16, 10.84s/it] 44%|███████████████████████████████████████████████████████████████████████████▉                                                                                                | 53/120 [09:47<12:15, 10.97s/it]                                                                                                                                                                                                                  {'loss': '1.816', 'grad_norm': '1.281', 'learning_rate': '5e-05', 'ppl': '6.15', 'memory/max_active (GiB)': '21.65', 'memory/max_allocated (GiB)': '21.65', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1150', 'tokens/total': 1720320, 'tokens/trainable': 1382242, 'epoch': '1.721'}
 44%|███████████████████████████████████████████████████████████████████████████▉                                                                                                | 53/120 [09:47<12:15, 10.97s/it] 45%|█████████████████████████████████████████████████████████████████████████████▍                                                                                              | 54/120 [09:58<11:56, 10.86s/it]                                                                                                                                                                                                                  {'loss': '1.985', 'grad_norm': '1.25', 'learning_rate': '5e-05', 'ppl': '7.282', 'memory/max_active (GiB)': '21.69', 'memory/max_allocated (GiB)': '21.69', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1255', 'tokens/total': 1753088, 'tokens/trainable': 1408543, 'epoch': '1.754'}
 45%|█████████████████████████████████████████████████████████████████████████████▍                                                                                              | 54/120 [09:58<11:56, 10.86s/it] 46%|██████████████████████████████████████████████████████████████████████████████▊                                                                                             | 55/120 [10:09<11:40, 10.77s/it]                                                                                                                                                                                                                  {'loss': '2', 'grad_norm': '1.227', 'learning_rate': '5e-05', 'ppl': '7.389', 'memory/max_active (GiB)': '21.71', 'memory/max_allocated (GiB)': '21.71', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1368', 'tokens/total': 1785856, 'tokens/trainable': 1436518, 'epoch': '1.787'}
 46%|██████████████████████████████████████████████████████████████████████████████▊                                                                                             | 55/120 [10:09<11:40, 10.77s/it] 47%|████████████████████████████████████████████████████████████████████████████████▎                                                                                           | 56/120 [10:20<11:35, 10.87s/it]                                                                                                                                                                                                                  {'loss': '2.103', 'grad_norm': '1.383', 'learning_rate': '5e-05', 'ppl': '8.187', 'memory/max_active (GiB)': '21.71', 'memory/max_allocated (GiB)': '21.71', 'memory/device_reserved (GiB)': '22.8', 'tokens/train_per_sec_per_gpu': '1102', 'tokens/total': 1818624, 'tokens/trainable': 1461754, 'epoch': '1.82'}
 47%|████████████████████████████████████████████████████████████████████████████████▎                                                                                           | 56/120 [10:20<11:35, 10.87s/it] 48%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                          | 57/120 [10:30<11:20, 10.79s/it]                                                                                                                                                                                                                  {'loss': '2.327', 'grad_norm': '1.469', 'learning_rate': '5e-05', 'ppl': '10.25', 'memory/max_active (GiB)': '21.69', 'memory/max_allocated (GiB)': '21.69', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1338', 'tokens/total': 1851392, 'tokens/trainable': 1489514, 'epoch': '1.852'}
 48%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                          | 57/120 [10:30<11:20, 10.79s/it] 48%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                        | 58/120 [10:41<11:11, 10.83s/it]                                                                                                                                                                                                                  {'loss': '2.297', 'grad_norm': '1.383', 'learning_rate': '5e-05', 'ppl': '9.943', 'memory/max_active (GiB)': '21.69', 'memory/max_allocated (GiB)': '21.69', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1170', 'tokens/total': 1884160, 'tokens/trainable': 1516113, 'epoch': '1.885'}
 48%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                        | 58/120 [10:41<11:11, 10.83s/it] 49%|████████████████████████████████████████████████████████████████████████████████████▌                                                                                       | 59/120 [10:52<10:56, 10.76s/it]                                                                                                                                                                                                                  {'loss': '2.156', 'grad_norm': '1.336', 'learning_rate': '5e-05', 'ppl': '8.639', 'memory/max_active (GiB)': '21.69', 'memory/max_allocated (GiB)': '21.69', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1206', 'tokens/total': 1916928, 'tokens/trainable': 1541140, 'epoch': '1.918'}
 49%|████████████████████████████████████████████████████████████████████████████████████▌                                                                                       | 59/120 [10:52<10:56, 10.76s/it] 50%|██████████████████████████████████████████████████████████████████████████████████████                                                                                      | 60/120 [11:02<10:42, 10.72s/it]                                                                                                                                                                                                                  {'loss': '2.328', 'grad_norm': '1.336', 'learning_rate': '5e-05', 'ppl': '10.26', 'memory/max_active (GiB)': '21.65', 'memory/max_allocated (GiB)': '21.65', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1229', 'tokens/total': 1949696, 'tokens/trainable': 1567957, 'epoch': '1.951'}
 50%|██████████████████████████████████████████████████████████████████████████████████████                                                                                      | 60/120 [11:02<10:42, 10.72s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 61/120 [11:23<13:21, 13.59s/it]                                                                                                                                                                                                                  {'loss': '2.115', 'grad_norm': '1.359', 'learning_rate': '5e-05', 'ppl': '8.292', 'memory/max_active (GiB)': '21.61', 'memory/max_allocated (GiB)': '21.61', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1121', 'tokens/total': 1982464, 'tokens/trainable': 1593738, 'epoch': '1.984'}
 51%|███████████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 61/120 [11:23<13:21, 13.59s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 62/120 [11:29<10:55, 11.31s/it]                                                                                                                                                                                                                  {'loss': '2.141', 'grad_norm': '1.773', 'learning_rate': '5e-05', 'ppl': '8.505', 'memory/max_active (GiB)': '14.25', 'memory/max_allocated (GiB)': '14.25', 'memory/device_reserved (GiB)': '22.65', 'tokens/train_per_sec_per_gpu': '2318', 'tokens/total': 1998848, 'tokens/trainable': 1607182, 'epoch': '2'}
 52%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 62/120 [11:29<10:55, 11.31s/it] 52%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                                 | 63/120 [11:40<10:37, 11.19s/it]                                                                                                                                                                                                                  {'loss': '1.786', 'grad_norm': '1.688', 'learning_rate': '5e-05', 'ppl': '5.966', 'memory/max_active (GiB)': '21.67', 'memory/max_allocated (GiB)': '21.67', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1214', 'tokens/total': 2031616, 'tokens/trainable': 1633157, 'epoch': '2.033'}
 52%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                                 | 63/120 [11:40<10:37, 11.19s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                                                | 64/120 [11:50<10:20, 11.07s/it]                                                                                                                                                                                                                  {'loss': '1.945', 'grad_norm': '1.398', 'learning_rate': '5e-05', 'ppl': '6.996', 'memory/max_active (GiB)': '21.72', 'memory/max_allocated (GiB)': '21.72', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1243', 'tokens/total': 2064384, 'tokens/trainable': 1657767, 'epoch': '2.066'}
 53%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                                                | 64/120 [11:50<10:20, 11.07s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████▏                                                                              | 65/120 [12:02<10:18, 11.24s/it]                                                                                                                                                                                                                  {'loss': '2.009', 'grad_norm': '1.383', 'learning_rate': '5e-05', 'ppl': '7.454', 'memory/max_active (GiB)': '21.69', 'memory/max_allocated (GiB)': '21.69', 'memory/device_reserved (GiB)': '22.8', 'tokens/train_per_sec_per_gpu': '1116', 'tokens/total': 2097152, 'tokens/trainable': 1683307, 'epoch': '2.098'}
 54%|█████████████████████████████████████████████████████████████████████████████████████████████▏                                                                              | 65/120 [12:02<10:18, 11.24s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                                             | 66/120 [12:13<10:00, 11.12s/it]                                                                                                                                                                                                                  {'loss': '1.758', 'grad_norm': '1.453', 'learning_rate': '5e-05', 'ppl': '5.8', 'memory/max_active (GiB)': '21.69', 'memory/max_allocated (GiB)': '21.69', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1094', 'tokens/total': 2129920, 'tokens/trainable': 1709101, 'epoch': '2.131'}
 55%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                                             | 66/120 [12:13<10:00, 11.12s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████                                                                            | 67/120 [12:23<09:41, 10.98s/it]                                                                                                                                                                                                                  {'loss': '1.426', 'grad_norm': '1.422', 'learning_rate': '5e-05', 'ppl': '4.163', 'memory/max_active (GiB)': '21.67', 'memory/max_allocated (GiB)': '21.67', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1264', 'tokens/total': 2162688, 'tokens/trainable': 1736338, 'epoch': '2.164'}
 56%|████████████████████████████████████████████████████████████████████████████████████████████████                                                                            | 67/120 [12:23<09:41, 10.98s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                          | 68/120 [12:34<09:30, 10.96s/it]                                                                                                                                                                                                                  {'loss': '1.557', 'grad_norm': '1.602', 'learning_rate': '5e-05', 'ppl': '4.743', 'memory/max_active (GiB)': '21.67', 'memory/max_allocated (GiB)': '21.67', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1290', 'tokens/total': 2195456, 'tokens/trainable': 1763537, 'epoch': '2.197'}
 57%|█████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                          | 68/120 [12:34<09:30, 10.96s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                         | 69/120 [12:45<09:17, 10.93s/it]                                                                                                                                                                                                                  {'loss': '1.366', 'grad_norm': '1.766', 'learning_rate': '5e-05', 'ppl': '3.919', 'memory/max_active (GiB)': '21.67', 'memory/max_allocated (GiB)': '21.67', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1278', 'tokens/total': 2228224, 'tokens/trainable': 1789120, 'epoch': '2.23'}
 57%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                         | 69/120 [12:45<09:17, 10.93s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                       | 70/120 [12:56<09:10, 11.01s/it]                                                                                                                                                                                                                  {'loss': '1.657', 'grad_norm': '1.742', 'learning_rate': '5e-05', 'ppl': '5.245', 'memory/max_active (GiB)': '21.69', 'memory/max_allocated (GiB)': '21.69', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1207', 'tokens/total': 2260992, 'tokens/trainable': 1816733, 'epoch': '2.262'}
 58%|████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                       | 70/120 [12:56<09:10, 11.01s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                      | 71/120 [13:07<08:53, 10.89s/it]                                                                                                                                                                                                                  {'loss': '1.707', 'grad_norm': '1.898', 'learning_rate': '5e-05', 'ppl': '5.513', 'memory/max_active (GiB)': '21.72', 'memory/max_allocated (GiB)': '21.72', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1074', 'tokens/total': 2293760, 'tokens/trainable': 1840238, 'epoch': '2.295'}
 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                      | 71/120 [13:07<08:53, 10.89s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                    | 72/120 [13:18<08:38, 10.81s/it]                                                                                                                                                                                                                  {'loss': '1.534', 'grad_norm': '1.977', 'learning_rate': '5e-05', 'ppl': '4.638', 'memory/max_active (GiB)': '21.71', 'memory/max_allocated (GiB)': '21.71', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1287', 'tokens/total': 2326528, 'tokens/trainable': 1866528, 'epoch': '2.328'}
 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                    | 72/120 [13:18<08:38, 10.81s/it] 61%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                   | 73/120 [13:28<08:25, 10.75s/it]                                                                                                                                                                                                                  {'loss': '1.527', 'grad_norm': '2.375', 'learning_rate': '5e-05', 'ppl': '4.606', 'memory/max_active (GiB)': '21.67', 'memory/max_allocated (GiB)': '21.67', 'memory/device_reserved (GiB)': '22.8', 'tokens/train_per_sec_per_gpu': '1102', 'tokens/total': 2359296, 'tokens/trainable': 1892362, 'epoch': '2.361'}
 61%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                   | 73/120 [13:28<08:25, 10.75s/it] 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                  | 74/120 [13:39<08:13, 10.72s/it]                                                                                                                                                                                                                  {'loss': '1.554', 'grad_norm': '2.781', 'learning_rate': '5e-05', 'ppl': '4.729', 'memory/max_active (GiB)': '21.69', 'memory/max_allocated (GiB)': '21.69', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1208', 'tokens/total': 2392064, 'tokens/trainable': 1919169, 'epoch': '2.393'}
 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                  | 74/120 [13:39<08:13, 10.72s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                | 75/120 [13:50<08:00, 10.69s/it]                                                                                                                                                                                                                  {'loss': '1.586', 'grad_norm': '2.766', 'learning_rate': '5e-05', 'ppl': '4.884', 'memory/max_active (GiB)': '21.71', 'memory/max_allocated (GiB)': '21.71', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1343', 'tokens/total': 2424832, 'tokens/trainable': 1947029, 'epoch': '2.426'}
 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                | 75/120 [13:50<08:00, 10.69s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                               | 76/120 [14:02<08:07, 11.08s/it]                                                                                                                                                                                                                  {'loss': '1.501', 'grad_norm': '2.328', 'learning_rate': '5e-05', 'ppl': '4.486', 'memory/max_active (GiB)': '21.71', 'memory/max_allocated (GiB)': '21.71', 'memory/device_reserved (GiB)': '22.8', 'tokens/train_per_sec_per_gpu': '1079', 'tokens/total': 2457600, 'tokens/trainable': 1973252, 'epoch': '2.459'}
 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                               | 76/120 [14:02<08:07, 11.08s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                             | 77/120 [14:13<07:55, 11.05s/it]                                                                                                                                                                                                                  {'loss': '1.419', 'grad_norm': '1.969', 'learning_rate': '5e-05', 'ppl': '4.133', 'memory/max_active (GiB)': '21.61', 'memory/max_allocated (GiB)': '21.61', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1122', 'tokens/total': 2490368, 'tokens/trainable': 1999341, 'epoch': '2.492'}
 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                             | 77/120 [14:13<07:55, 11.05s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                            | 78/120 [14:23<07:40, 10.96s/it]                                                                                                                                                                                                                  {'loss': '1.502', 'grad_norm': '1.836', 'learning_rate': '5e-05', 'ppl': '4.49', 'memory/max_active (GiB)': '21.61', 'memory/max_allocated (GiB)': '21.61', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1237', 'tokens/total': 2523136, 'tokens/trainable': 2026041, 'epoch': '2.525'}
 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                            | 78/120 [14:23<07:40, 10.96s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                          | 79/120 [14:34<07:31, 11.00s/it]                                                                                                                                                                                                                  {'loss': '1.658', 'grad_norm': '1.867', 'learning_rate': '5e-05', 'ppl': '5.25', 'memory/max_active (GiB)': '21.69', 'memory/max_allocated (GiB)': '21.69', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1241', 'tokens/total': 2555904, 'tokens/trainable': 2052980, 'epoch': '2.557'}
 66%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                          | 79/120 [14:34<07:31, 11.00s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                         | 80/120 [14:46<07:22, 11.06s/it]                                                                                                                                                                                                                  {'loss': '1.693', 'grad_norm': '1.789', 'learning_rate': '5e-05', 'ppl': '5.438', 'memory/max_active (GiB)': '21.67', 'memory/max_allocated (GiB)': '21.67', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1277', 'tokens/total': 2588672, 'tokens/trainable': 2081052, 'epoch': '2.59'}
 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                         | 80/120 [14:46<07:22, 11.06s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 81/120 [14:56<07:06, 10.93s/it]                                                                                                                                                                                                                  {'loss': '1.754', 'grad_norm': '1.93', 'learning_rate': '5e-05', 'ppl': '5.777', 'memory/max_active (GiB)': '21.65', 'memory/max_allocated (GiB)': '21.65', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1245', 'tokens/total': 2621440, 'tokens/trainable': 2108402, 'epoch': '2.623'}
 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 81/120 [14:56<07:06, 10.93s/it] 68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                      | 82/120 [15:07<06:58, 11.02s/it]                                                                                                                                                                                                                  {'loss': '1.722', 'grad_norm': '1.992', 'learning_rate': '5e-05', 'ppl': '5.594', 'memory/max_active (GiB)': '21.63', 'memory/max_allocated (GiB)': '21.63', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1115', 'tokens/total': 2654208, 'tokens/trainable': 2134676, 'epoch': '2.656'}
 68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                      | 82/120 [15:07<06:58, 11.02s/it] 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 83/120 [15:18<06:45, 10.96s/it]                                                                                                                                                                                                                  {'loss': '1.547', 'grad_norm': '1.891', 'learning_rate': '5e-05', 'ppl': '4.697', 'memory/max_active (GiB)': '21.67', 'memory/max_allocated (GiB)': '21.67', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1157', 'tokens/total': 2686976, 'tokens/trainable': 2157998, 'epoch': '2.689'}
 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 83/120 [15:18<06:45, 10.96s/it] 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                   | 84/120 [15:29<06:34, 10.96s/it]                                                                                                                                                                                                                  {'loss': '1.304', 'grad_norm': '1.656', 'learning_rate': '5e-05', 'ppl': '3.685', 'memory/max_active (GiB)': '21.63', 'memory/max_allocated (GiB)': '21.63', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1188', 'tokens/total': 2719744, 'tokens/trainable': 2185833, 'epoch': '2.721'}
 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                   | 84/120 [15:29<06:34, 10.96s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                  | 85/120 [15:40<06:23, 10.96s/it]                                                                                                                                                                                                                  {'loss': '1.417', 'grad_norm': '1.891', 'learning_rate': '5e-05', 'ppl': '4.125', 'memory/max_active (GiB)': '21.63', 'memory/max_allocated (GiB)': '21.63', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1215', 'tokens/total': 2752512, 'tokens/trainable': 2212134, 'epoch': '2.754'}
 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                  | 85/120 [15:40<06:23, 10.96s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 86/120 [15:51<06:09, 10.85s/it]                                                                                                                                                                                                                  {'loss': '1.471', 'grad_norm': '2.078', 'learning_rate': '5e-05', 'ppl': '4.352', 'memory/max_active (GiB)': '21.71', 'memory/max_allocated (GiB)': '21.71', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1362', 'tokens/total': 2785280, 'tokens/trainable': 2240109, 'epoch': '2.787'}
 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 86/120 [15:51<06:09, 10.85s/it] 72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                               | 87/120 [16:02<06:06, 11.09s/it]                                                                                                                                                                                                                  {'loss': '1.571', 'grad_norm': '2.297', 'learning_rate': '5e-05', 'ppl': '4.813', 'memory/max_active (GiB)': '21.65', 'memory/max_allocated (GiB)': '21.65', 'memory/device_reserved (GiB)': '22.8', 'tokens/train_per_sec_per_gpu': '1049', 'tokens/total': 2818048, 'tokens/trainable': 2265345, 'epoch': '2.82'}
 72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                               | 87/120 [16:02<06:06, 11.09s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                             | 88/120 [16:13<05:50, 10.95s/it]                                                                                                                                                                                                                  {'loss': '1.85', 'grad_norm': '2.469', 'learning_rate': '5e-05', 'ppl': '6.357', 'memory/max_active (GiB)': '21.67', 'memory/max_allocated (GiB)': '21.67', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1339', 'tokens/total': 2850816, 'tokens/trainable': 2293105, 'epoch': '2.852'}
 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                             | 88/120 [16:13<05:50, 10.95s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                            | 89/120 [16:24<05:37, 10.89s/it]                                                                                                                                                                                                                  {'loss': '1.76', 'grad_norm': '2.359', 'learning_rate': '5e-05', 'ppl': '5.811', 'memory/max_active (GiB)': '21.65', 'memory/max_allocated (GiB)': '21.65', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1186', 'tokens/total': 2883584, 'tokens/trainable': 2319704, 'epoch': '2.885'}
 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                            | 89/120 [16:24<05:37, 10.89s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                           | 90/120 [16:35<05:27, 10.92s/it]                                                                                                                                                                                                                  {'loss': '1.582', 'grad_norm': '2.297', 'learning_rate': '5e-05', 'ppl': '4.862', 'memory/max_active (GiB)': '21.67', 'memory/max_allocated (GiB)': '21.67', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1163', 'tokens/total': 2916352, 'tokens/trainable': 2344731, 'epoch': '2.918'}
 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                           | 90/120 [16:35<05:27, 10.92s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                         | 91/120 [16:55<06:39, 13.79s/it]                                                                                                                                                                                                                  {'loss': '1.792', 'grad_norm': '2.594', 'learning_rate': '5e-05', 'ppl': '6.001', 'memory/max_active (GiB)': '21.63', 'memory/max_allocated (GiB)': '21.63', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1186', 'tokens/total': 2949120, 'tokens/trainable': 2371548, 'epoch': '2.951'}
 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                         | 91/120 [16:55<06:39, 13.79s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                        | 92/120 [17:06<05:59, 12.83s/it]                                                                                                                                                                                                                  {'loss': '1.604', 'grad_norm': '2.641', 'learning_rate': '5e-05', 'ppl': '4.97', 'memory/max_active (GiB)': '21.71', 'memory/max_allocated (GiB)': '21.71', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1165', 'tokens/total': 2981888, 'tokens/trainable': 2397329, 'epoch': '2.984'}
 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                        | 92/120 [17:06<05:59, 12.83s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 93/120 [17:12<04:53, 10.87s/it]                                                                                                                                                                                                                  {'loss': '1.445', 'grad_norm': '2.812', 'learning_rate': '5e-05', 'ppl': '4.243', 'memory/max_active (GiB)': '14.21', 'memory/max_allocated (GiB)': '14.21', 'memory/device_reserved (GiB)': '20.46', 'tokens/train_per_sec_per_gpu': '2200', 'tokens/total': 2998272, 'tokens/trainable': 2410773, 'epoch': '3'}
 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 93/120 [17:12<04:53, 10.87s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                     | 94/120 [17:23<04:43, 10.91s/it]                                                                                                                                                                                                                  {'loss': '1.388', 'grad_norm': '2.078', 'learning_rate': '5e-05', 'ppl': '4.008', 'memory/max_active (GiB)': '21.65', 'memory/max_allocated (GiB)': '21.65', 'memory/device_reserved (GiB)': '22.8', 'tokens/train_per_sec_per_gpu': '1207', 'tokens/total': 3031040, 'tokens/trainable': 2436748, 'epoch': '3.033'}
 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                     | 94/120 [17:23<04:43, 10.91s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                   | 95/120 [17:34<04:33, 10.94s/it]                                                                                                                                                                                                                  {'loss': '1.414', 'grad_norm': '2.391', 'learning_rate': '5e-05', 'ppl': '4.113', 'memory/max_active (GiB)': '21.65', 'memory/max_allocated (GiB)': '21.65', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1222', 'tokens/total': 3063808, 'tokens/trainable': 2461358, 'epoch': '3.066'}
 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                   | 95/120 [17:34<04:33, 10.94s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 96/120 [17:46<04:25, 11.07s/it]                                                                                                                                                                                                                  {'loss': '1.472', 'grad_norm': '2.344', 'learning_rate': '5e-05', 'ppl': '4.357', 'memory/max_active (GiB)': '21.67', 'memory/max_allocated (GiB)': '21.67', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1139', 'tokens/total': 3096576, 'tokens/trainable': 2486898, 'epoch': '3.098'}
 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 96/120 [17:46<04:25, 11.07s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                 | 97/120 [17:56<04:11, 10.95s/it]                                                                                                                                                                                                                  {'loss': '1.325', 'grad_norm': '2.531', 'learning_rate': '5e-05', 'ppl': '3.763', 'memory/max_active (GiB)': '21.72', 'memory/max_allocated (GiB)': '21.72', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1112', 'tokens/total': 3129344, 'tokens/trainable': 2512692, 'epoch': '3.131'}
 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                 | 97/120 [17:56<04:11, 10.95s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                               | 98/120 [18:07<03:58, 10.85s/it]                                                                                                                                                                                                                  {'loss': '1.05', 'grad_norm': '2.266', 'learning_rate': '5e-05', 'ppl': '2.858', 'memory/max_active (GiB)': '21.67', 'memory/max_allocated (GiB)': '21.67', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1268', 'tokens/total': 3162112, 'tokens/trainable': 2539929, 'epoch': '3.164'}
 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                               | 98/120 [18:07<03:58, 10.85s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                              | 99/120 [18:18<03:49, 10.92s/it]                                                                                                                                                                                                                  {'loss': '1.201', 'grad_norm': '2.422', 'learning_rate': '5e-05', 'ppl': '3.324', 'memory/max_active (GiB)': '21.69', 'memory/max_allocated (GiB)': '21.69', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1270', 'tokens/total': 3194880, 'tokens/trainable': 2567128, 'epoch': '3.197'}
 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                              | 99/120 [18:18<03:49, 10.92s/it] 83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                            | 100/120 [18:29<03:36, 10.83s/it]                                                                                                                                                                                                                  {'loss': '1.033', 'grad_norm': '2.453', 'learning_rate': '5e-05', 'ppl': '2.81', 'memory/max_active (GiB)': '21.63', 'memory/max_allocated (GiB)': '21.63', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1306', 'tokens/total': 3227648, 'tokens/trainable': 2592711, 'epoch': '3.23'}
 83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                            | 100/120 [18:29<03:36, 10.83s/it] 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                           | 101/120 [18:39<03:25, 10.84s/it]                                                                                                                                                                                                                  {'loss': '1.236', 'grad_norm': '2.578', 'learning_rate': '5e-05', 'ppl': '3.443', 'memory/max_active (GiB)': '21.72', 'memory/max_allocated (GiB)': '21.72', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1243', 'tokens/total': 3260416, 'tokens/trainable': 2620324, 'epoch': '3.262'}
 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                           | 101/120 [18:39<03:25, 10.84s/it] 85%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                         | 102/120 [18:51<03:17, 10.95s/it]                                                                                                                                                                                                                  {'loss': '1.231', 'grad_norm': '2.828', 'learning_rate': '5e-05', 'ppl': '3.426', 'memory/max_active (GiB)': '21.69', 'memory/max_allocated (GiB)': '21.69', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1018', 'tokens/total': 3293184, 'tokens/trainable': 2643829, 'epoch': '3.295'}
 85%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                         | 102/120 [18:51<03:17, 10.95s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                        | 103/120 [19:01<03:05, 10.90s/it]                                                                                                                                                                                                                  {'loss': '1.15', 'grad_norm': '2.781', 'learning_rate': '5e-05', 'ppl': '3.159', 'memory/max_active (GiB)': '21.69', 'memory/max_allocated (GiB)': '21.69', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1267', 'tokens/total': 3325952, 'tokens/trainable': 2670119, 'epoch': '3.328'}
 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                        | 103/120 [19:01<03:05, 10.90s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                      | 104/120 [19:12<02:54, 10.93s/it]                                                                                                                                                                                                                  {'loss': '1.175', 'grad_norm': '2.969', 'learning_rate': '5e-05', 'ppl': '3.238', 'memory/max_active (GiB)': '21.69', 'memory/max_allocated (GiB)': '21.69', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1064', 'tokens/total': 3358720, 'tokens/trainable': 2695953, 'epoch': '3.361'}
 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                      | 104/120 [19:12<02:54, 10.93s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                     | 105/120 [19:23<02:44, 10.94s/it]                                                                                                                                                                                                                  {'loss': '1.264', 'grad_norm': '3.594', 'learning_rate': '5e-05', 'ppl': '3.538', 'memory/max_active (GiB)': '21.69', 'memory/max_allocated (GiB)': '21.69', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1173', 'tokens/total': 3391488, 'tokens/trainable': 2722760, 'epoch': '3.393'}
 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                     | 105/120 [19:23<02:44, 10.94s/it] 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                    | 106/120 [19:34<02:31, 10.85s/it]                                                                                                                                                                                                                  {'loss': '1.293', 'grad_norm': '3.734', 'learning_rate': '5e-05', 'ppl': '3.644', 'memory/max_active (GiB)': '21.67', 'memory/max_allocated (GiB)': '21.67', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1341', 'tokens/total': 3424256, 'tokens/trainable': 2750620, 'epoch': '3.426'}
 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                    | 106/120 [19:34<02:31, 10.85s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                  | 107/120 [19:45<02:23, 11.01s/it]                                                                                                                                                                                                                  {'loss': '1.179', 'grad_norm': '3.969', 'learning_rate': '5e-05', 'ppl': '3.25', 'memory/max_active (GiB)': '21.71', 'memory/max_allocated (GiB)': '21.71', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1136', 'tokens/total': 3457024, 'tokens/trainable': 2776843, 'epoch': '3.459'}
 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                  | 107/120 [19:45<02:23, 11.01s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 108/120 [19:56<02:10, 10.90s/it]                                                                                                                                                                                                                  {'loss': '1.053', 'grad_norm': '3.75', 'learning_rate': '5e-05', 'ppl': '2.867', 'memory/max_active (GiB)': '21.61', 'memory/max_allocated (GiB)': '21.61', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1157', 'tokens/total': 3489792, 'tokens/trainable': 2802932, 'epoch': '3.492'}
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 108/120 [19:56<02:10, 10.90s/it] 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 109/120 [20:07<01:59, 10.90s/it]                                                                                                                                                                                                                  {'loss': '1.125', 'grad_norm': '3.516', 'learning_rate': '5e-05', 'ppl': '3.079', 'memory/max_active (GiB)': '21.71', 'memory/max_allocated (GiB)': '21.71', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1221', 'tokens/total': 3522560, 'tokens/trainable': 2829632, 'epoch': '3.525'}
 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 109/120 [20:07<01:59, 10.90s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 110/120 [20:18<01:48, 10.81s/it]                                                                                                                                                                                                                  {'loss': '1.273', 'grad_norm': '3.328', 'learning_rate': '5e-05', 'ppl': '3.573', 'memory/max_active (GiB)': '21.69', 'memory/max_allocated (GiB)': '21.69', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1301', 'tokens/total': 3555328, 'tokens/trainable': 2856571, 'epoch': '3.557'}
 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 110/120 [20:18<01:48, 10.81s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 111/120 [20:29<01:38, 10.95s/it]                                                                                                                                                                                                                  {'loss': '1.328', 'grad_norm': '3.188', 'learning_rate': '5e-05', 'ppl': '3.774', 'memory/max_active (GiB)': '21.71', 'memory/max_allocated (GiB)': '21.71', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1264', 'tokens/total': 3588096, 'tokens/trainable': 2884643, 'epoch': '3.59'}
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 111/120 [20:29<01:38, 10.95s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 112/120 [20:40<01:27, 10.88s/it]                                                                                                                                                                                                                  {'loss': '1.414', 'grad_norm': '3.203', 'learning_rate': '5e-05', 'ppl': '4.113', 'memory/max_active (GiB)': '21.63', 'memory/max_allocated (GiB)': '21.63', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1235', 'tokens/total': 3620864, 'tokens/trainable': 2911993, 'epoch': '3.623'}
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 112/120 [20:40<01:27, 10.88s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 113/120 [20:50<01:15, 10.81s/it]                                                                                                                                                                                                                  {'loss': '1.383', 'grad_norm': '2.875', 'learning_rate': '5e-05', 'ppl': '3.986', 'memory/max_active (GiB)': '21.71', 'memory/max_allocated (GiB)': '21.71', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1177', 'tokens/total': 3653632, 'tokens/trainable': 2938267, 'epoch': '3.656'}
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 113/120 [20:50<01:15, 10.81s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 114/120 [21:01<01:04, 10.78s/it]                                                                                                                                                                                                                  {'loss': '1.184', 'grad_norm': '2.453', 'learning_rate': '5e-05', 'ppl': '3.268', 'memory/max_active (GiB)': '21.71', 'memory/max_allocated (GiB)': '21.71', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1169', 'tokens/total': 3686400, 'tokens/trainable': 2961589, 'epoch': '3.689'}
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 114/120 [21:01<01:04, 10.78s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 115/120 [21:12<00:53, 10.74s/it]                                                                                                                                                                                                                  {'loss': '0.9487', 'grad_norm': '2.094', 'learning_rate': '5e-05', 'ppl': '2.582', 'memory/max_active (GiB)': '21.69', 'memory/max_allocated (GiB)': '21.69', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1220', 'tokens/total': 3719168, 'tokens/trainable': 2989424, 'epoch': '3.721'}
 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 115/120 [21:12<00:53, 10.74s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 116/120 [21:23<00:43, 10.87s/it]                                                                                                                                                                                                                  {'loss': '1.068', 'grad_norm': '2.141', 'learning_rate': '5e-05', 'ppl': '2.909', 'memory/max_active (GiB)': '21.71', 'memory/max_allocated (GiB)': '21.71', 'memory/device_reserved (GiB)': '22.8', 'tokens/train_per_sec_per_gpu': '1192', 'tokens/total': 3751936, 'tokens/trainable': 3015725, 'epoch': '3.754'}
 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 116/120 [21:23<00:43, 10.87s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 117/120 [21:33<00:32, 10.79s/it]                                                                                                                                                                                                                  {'loss': '1.15', 'grad_norm': '2.344', 'learning_rate': '5e-05', 'ppl': '3.159', 'memory/max_active (GiB)': '21.69', 'memory/max_allocated (GiB)': '21.69', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1361', 'tokens/total': 3784704, 'tokens/trainable': 3043700, 'epoch': '3.787'}
 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 117/120 [21:33<00:32, 10.79s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 118/120 [21:45<00:21, 10.92s/it]                                                                                                                                                                                                                  {'loss': '1.247', 'grad_norm': '2.609', 'learning_rate': '5e-05', 'ppl': '3.48', 'memory/max_active (GiB)': '21.72', 'memory/max_allocated (GiB)': '21.72', 'memory/device_reserved (GiB)': '22.84', 'tokens/train_per_sec_per_gpu': '1090', 'tokens/total': 3817472, 'tokens/trainable': 3068936, 'epoch': '3.82'}
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 118/120 [21:45<00:21, 10.92s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 119/120 [21:56<00:10, 10.99s/it]                                                                                                                                                                                                                  {'loss': '1.549', 'grad_norm': '3.25', 'learning_rate': '5e-05', 'ppl': '4.706', 'memory/max_active (GiB)': '21.67', 'memory/max_allocated (GiB)': '21.67', 'memory/device_reserved (GiB)': '22.82', 'tokens/train_per_sec_per_gpu': '1275', 'tokens/total': 3850240, 'tokens/trainable': 3096696, 'epoch': '3.852'}
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 119/120 [21:56<00:10, 10.99s/it]100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 120/120 [22:06<00:00, 10.92s/it]                                                                                                                                                                                                                  {'loss': '1.434', 'grad_norm': '3.016', 'learning_rate': '5e-05', 'ppl': '4.196', 'memory/max_active (GiB)': '21.71', 'memory/max_allocated (GiB)': '21.71', 'memory/device_reserved (GiB)': '22.8', 'tokens/train_per_sec_per_gpu': '1186', 'tokens/total': 3883008, 'tokens/trainable': 3123295, 'epoch': '3.885'}
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 120/120 [22:06<00:00, 10.92s/it]                                                                                                                                                                                                                  {'train_runtime': '1375', 'train_samples_per_second': '1.397', 'train_steps_per_second': '0.087', 'train_loss': '1.979', 'memory/max_active (GiB)': '3.77', 'memory/max_allocated (GiB)': '3.77', 'memory/device_reserved (GiB)': '14.29', 'epoch': '3.885', 'tokens/train_per_sec_per_gpu': '0'}
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 120/120 [22:15<00:00, 10.92s/it]100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 120/120 [22:15<00:00, 11.13s/it]
[2026-02-08 23:44:03,589] [INFO] [axolotl.train.save_trained_model:226] [PID:31858] Training completed! Saving trained model to ./model-output.
[2026-02-08 23:44:03,591] [INFO] [axolotl.train.save_trained_model:262] [PID:31858] The final model was saved with a sharded state dict. Please ensure you merge the sharded weights with `merge-sharded-fsdp-weights`.
[2026-02-08 23:44:03,591] [INFO] [axolotl.utils.train.determine_last_checkpoint:34] [PID:31858] Resuming from last checkpoint at model-output/checkpoint-120
[2026-02-08 23:44:03,592] [INFO] [axolotl.cli.merge_sharded_fsdp_weights.merge_fsdp_weights:159] [PID:31858] Merging FSDP weights from model-output/checkpoint-120/pytorch_model_fsdp_0
[2026-02-08 23:44:17,477] [INFO] [axolotl.cli.merge_sharded_fsdp_weights.merge_fsdp_weights:163] [PID:31858] Successfully merged FSDP weights and saved to model-output/merged
[2026-02-08 23:44:17,479] [INFO] [axolotl.train.save_trained_model:340] [PID:31858] Model successfully saved to ./model-output
[0m