[2025-11-23 20:10:48,476] [DEBUG] [axolotl.utils.config.log_gpu_memory_usage:127] [PID:56413] baseline 0.000GB ()
[2025-11-23 20:10:48,476] [INFO] [axolotl.cli.config.load_cfg:248] [PID:56413] config:
{
  "activation_offloading": false,
  "axolotl_config_path": "apertus-12b-nonzero-s2-instruct-p1.yaml",
  "base_model": "apertus-12b-nonzero-trained/cpt-part1-qlora-try2/checkpoint-133/merged",
  "base_model_config": "apertus-12b-nonzero-trained/cpt-part1-qlora-try2/checkpoint-133/merged",
  "batch_size": 16,
  "bf16": true,
  "capabilities": {
    "bf16": true,
    "compute_capability": "sm_86",
    "fp8": false,
    "n_gpu": 2,
    "n_node": 1
  },
  "chat_template": "chatml",
  "context_parallel_size": 1,
  "cut_cross_entropy": true,
  "dataloader_num_workers": 2,
  "dataloader_pin_memory": true,
  "dataloader_prefetch_factor": 256,
  "dataset_prepared_path": "last_run_prepared",
  "dataset_processes": 24,
  "datasets": [
    {
      "chat_template": "tokenizer_default",
      "message_property_mappings": {
        "content": "content",
        "role": "role"
      },
      "path": "ToastyPigeon/tulu-mini",
      "trust_remote_code": false,
      "type": "chat_template"
    }
  ],
  "ddp": true,
  "device": "cuda:0",
  "device_map": {
    "": 0
  },
  "dion_rank_fraction": 1.0,
  "dion_rank_multiple_of": 1,
  "env_capabilities": {
    "torch_version": "2.7.1"
  },
  "eval_batch_size": 1,
  "eval_causal_lm_metrics": [
    "sacrebleu",
    "comet",
    "ter",
    "chrf"
  ],
  "eval_max_new_tokens": 128,
  "eval_sample_packing": true,
  "eval_steps": 0.25,
  "eval_table_size": 0,
  "evals_per_epoch": 4,
  "experimental_skip_move_to_device": true,
  "flash_attention": true,
  "fp16": false,
  "fsdp": [
    "full_shard",
    "auto_wrap"
  ],
  "fsdp_config": {
    "activation_checkpointing": true,
    "auto_wrap_policy": "TRANSFORMER_BASED_WRAP",
    "cpu_ram_efficient_loading": true,
    "limit_all_gathers": true,
    "offload_params": true,
    "sharding_strategy": "FULL_SHARD",
    "state_dict_type": "FULL_STATE_DICT",
    "sync_module_states": true,
    "transformer_layer_cls_to_wrap": "ApertusDecoderLayer",
    "use_orig_params": true
  },
  "gc_steps": 10,
  "gradient_accumulation_steps": 8,
  "gradient_checkpointing": false,
  "group_by_length": false,
  "include_tkps": true,
  "learning_rate": 5e-06,
  "liger_glu_activation": true,
  "liger_layer_norm": true,
  "liger_rms_norm": true,
  "liger_rope": true,
  "lisa_layers_attribute": "model.layers",
  "load_best_model_at_end": false,
  "load_in_4bit": false,
  "load_in_8bit": false,
  "local_rank": 0,
  "logging_steps": 1,
  "lora_alpha": 16,
  "lora_dropout": 0.01,
  "lora_r": 128,
  "lora_target_linear": true,
  "loraplus_lr_embedding": 1e-06,
  "lr_scheduler": "cosine",
  "max_grad_norm": 2.0,
  "mean_resizing_embeddings": false,
  "micro_batch_size": 1,
  "model_config_type": "apertus",
  "num_epochs": 1.0,
  "optimizer": "adamw_torch_fused",
  "output_dir": "apertus-12b-nonzero-trained/cpt-part2-instruct-part1",
  "pad_to_sequence_len": true,
  "peft_use_rslora": true,
  "plugins": [
    "axolotl.integrations.liger.LigerPlugin",
    "axolotl.integrations.cut_cross_entropy.CutCrossEntropyPlugin"
  ],
  "pretrain_multipack_attn": true,
  "profiler_steps_start": 0,
  "qlora_sharded_model_loading": false,
  "ray_num_workers": 1,
  "resources_per_worker": {
    "GPU": 1
  },
  "sample_packing": true,
  "sample_packing_bin_size": 200,
  "sample_packing_group_size": 100000,
  "save_only_model": false,
  "save_safetensors": true,
  "save_steps": 0.25,
  "save_total_limit": 4,
  "saves_per_epoch": 4,
  "seed": 420,
  "sequence_len": 4096,
  "shuffle_before_merging_datasets": false,
  "shuffle_merged_datasets": true,
  "skip_prepare_dataset": false,
  "special_tokens": {
    "eos_token": "<|im_end|>"
  },
  "streaming_multipack_buffer_size": 10000,
  "strict": false,
  "tensor_parallel_size": 1,
  "tiled_mlp_use_original_mlp": true,
  "tokenizer_config": "apertus-12b-nonzero-trained/cpt-part1-qlora-try2/checkpoint-133/merged",
  "tokenizer_save_jinja_files": true,
  "torch_dtype": "torch.bfloat16",
  "train_on_inputs": false,
  "trl": {
    "log_completions": false,
    "mask_truncated_completions": false,
    "ref_model_mixup_alpha": 0.9,
    "ref_model_sync_steps": 64,
    "scale_rewards": true,
    "sync_ref_model": false,
    "use_vllm": false,
    "vllm_server_host": "0.0.0.0",
    "vllm_server_port": 8000
  },
  "unfrozen_parameters": [
    "embed_tokens",
    "lm_head"
  ],
  "use_ray": false,
  "use_wandb": true,
  "val_set_size": 200.0,
  "vllm": {
    "device": "auto",
    "dtype": "auto",
    "gpu_memory_utilization": 0.9,
    "host": "0.0.0.0",
    "port": 8000
  },
  "wandb_name": "12b-part2-part1-embeddings",
  "wandb_project": "ApertusV3",
  "warmup_ratio": 0.025,
  "weight_decay": 0.01,
  "world_size": 2
}
[2025-11-23 20:10:49,198] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:278] [PID:56413] EOS: 68 / <|im_end|>
[2025-11-23 20:10:49,198] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:279] [PID:56413] BOS: 1 / <s>
[2025-11-23 20:10:49,198] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:56413] PAD: 3 / <pad>
[2025-11-23 20:10:49,198] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:56413] UNK: 0 / <unk>
[2025-11-23 20:10:49,199] [INFO] [axolotl.utils.data.shared.load_preprocessed_dataset:470] [PID:56413] Loading prepared dataset from disk at last_run_prepared/b96b1264e9e27bca7e2392b65fae4bc9...
Loading dataset from disk:   0%|                                                               | 0/24 [00:00<?, ?it/s]Loading dataset from disk: 100%|███████████████████████████████████████████████████| 24/24 [00:00<00:00, 21624.77it/s]
[2025-11-23 20:10:49,224] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:404] [PID:56413] total_num_tokens: 113_299
[2025-11-23 20:10:49,226] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:422] [PID:56413] `total_supervised_tokens: 69_502`
[2025-11-23 20:10:50,794] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:56413] generate_batches time: 0.6319272518157959
[2025-11-23 20:10:51,420] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:56413] generate_batches time: 0.6250419616699219
[2025-11-23 20:10:52,048] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:56413] generate_batches time: 0.6279091835021973
[2025-11-23 20:10:52,674] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:56413] generate_batches time: 0.6258845329284668
[2025-11-23 20:10:53,159] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:434] [PID:56413] gather_len_batches: [28, 28]
[2025-11-23 20:10:53,211] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:481] [PID:56413] data_loader_len: 1
[2025-11-23 20:10:53,220] [INFO] [axolotl.utils.trainer.calc_sample_packing_eff_est:497] [PID:56413] sample_packing_eff_est across ranks: [0.9878888726234436, 0.9878888726234436]
[2025-11-23 20:10:53,221] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:509] [PID:56413] sample_packing_eff_est: None
[2025-11-23 20:10:53,221] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:520] [PID:56413] total_num_steps: 1
[2025-11-23 20:10:53,305] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:404] [PID:56413] total_num_tokens: 21_004_614
[2025-11-23 20:10:53,572] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:422] [PID:56413] `total_supervised_tokens: 13_625_597`
[2025-11-23 20:10:55,363] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:56413] generate_batches time: 0.7200222015380859
[2025-11-23 20:10:56,080] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:56413] generate_batches time: 0.7163972854614258
[2025-11-23 20:10:56,804] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:56413] generate_batches time: 0.7236833572387695
[2025-11-23 20:10:57,531] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:56413] generate_batches time: 0.7258427143096924
[2025-11-23 20:10:57,532] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:434] [PID:56413] gather_len_batches: [5146, 5146]
[2025-11-23 20:10:57,533] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:481] [PID:56413] data_loader_len: 321
[2025-11-23 20:10:57,533] [INFO] [axolotl.utils.trainer.calc_sample_packing_eff_est:497] [PID:56413] sample_packing_eff_est across ranks: [0.9965175986289978, 0.9965175986289978]
[2025-11-23 20:10:57,534] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:509] [PID:56413] sample_packing_eff_est: 1.0
[2025-11-23 20:10:57,534] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:520] [PID:56413] total_num_steps: 321
[2025-11-23 20:10:57,535] [INFO] [axolotl.utils.data.sft._prepare_standard_dataset:121] [PID:56413] Maximum number of steps set at 321
[2025-11-23 20:10:57,560] [DEBUG] [axolotl.train.setup_model_and_tokenizer:70] [PID:56413] Loading tokenizer... apertus-12b-nonzero-trained/cpt-part1-qlora-try2/checkpoint-133/merged
[2025-11-23 20:10:58,055] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:278] [PID:56413] EOS: 68 / <|im_end|>
[2025-11-23 20:10:58,055] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:279] [PID:56413] BOS: 1 / <s>
[2025-11-23 20:10:58,055] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:56413] PAD: 3 / <pad>
[2025-11-23 20:10:58,055] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:56413] UNK: 0 / <unk>
[2025-11-23 20:10:58,055] [DEBUG] [axolotl.train.setup_model_and_tokenizer:79] [PID:56413] Loading model
[2025-11-23 20:10:58,063] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_evaluation_loop:87] [PID:56413] Patched Trainer.evaluation_loop with nanmean loss calculation
[2025-11-23 20:10:58,064] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_maybe_log_save_evaluate:138] [PID:56413] Patched Trainer._maybe_log_save_evaluate with nanmean loss calculation
Using Liger RMSNorm!
Loading checkpoint shards:   0%|                                                                | 0/5 [00:00<?, ?it/s]Loading checkpoint shards:  20%|███████████▏                                            | 1/5 [00:05<00:22,  5.62s/it]Loading checkpoint shards:  40%|██████████████████████▍                                 | 2/5 [00:11<00:16,  5.51s/it]Loading checkpoint shards:  60%|█████████████████████████████████▌                      | 3/5 [00:16<00:11,  5.54s/it]Loading checkpoint shards:  80%|████████████████████████████████████████████▊           | 4/5 [00:22<00:05,  5.56s/it]Loading checkpoint shards: 100%|████████████████████████████████████████████████████████| 5/5 [00:25<00:00,  4.86s/it]Loading checkpoint shards: 100%|████████████████████████████████████████████████████████| 5/5 [00:25<00:00,  5.17s/it]
[2025-11-23 20:11:24,904] [INFO] [axolotl.loaders.patch_manager._apply_multipack_patches:301] [PID:56413] Applying multipack dataloader patch for sample packing...
[2025-11-23 20:11:24,919] [WARNING] [axolotl.integrations.liger.plugin.pre_model_load:180] [PID:56413] Unsupported model config type: apertus. Liger not applied.
[2025-11-23 20:11:24,990] [INFO] [axolotl.integrations.cut_cross_entropy.pre_model_load:94] [PID:56413] Applying Cut Cross Entropy to model type: apertus
Loading checkpoint shards:   0%|                                                                | 0/5 [00:00<?, ?it/s]Loading checkpoint shards: 100%|████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 50.66it/s]
[2025-11-23 20:11:25,203] [INFO] [axolotl.loaders.model._configure_embedding_dtypes:345] [PID:56413] Converting modules to torch.bfloat16
[2025-11-23 20:11:25,206] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:56413] Memory usage after model load 0.000GB (+0.000GB allocated, +0.002GB reserved)
[2025-11-23 20:11:25,784] [DEBUG] [axolotl.utils.freeze.freeze_layers_except:56] [PID:56413] Unfrozen lm_head.weight
[2025-11-23 20:11:28,424] [INFO] [axolotl.train.save_initial_configs:412] [PID:56413] Pre-saving tokenizer to apertus-12b-nonzero-trained/cpt-part2-instruct-part1...
[2025-11-23 20:11:28,590] [INFO] [axolotl.train.save_initial_configs:417] [PID:56413] Pre-saving model config to apertus-12b-nonzero-trained/cpt-part2-instruct-part1...
[2025-11-23 20:11:28,594] [INFO] [axolotl.train.execute_training:203] [PID:56413] Starting trainer...
[2025-11-23 20:11:37,617] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:56413] generate_batches time: 0.8570003509521484
[2025-11-23 20:11:38,476] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:56413] generate_batches time: 0.8583230972290039
[2025-11-23 20:11:39,330] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:56413] generate_batches time: 0.8535511493682861
[2025-11-23 20:11:40,195] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:56413] generate_batches time: 0.8643290996551514
[2025-11-23 20:11:40,234] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:434] [PID:56413] gather_len_batches: [5146, 5146]
[2025-11-23 20:11:57,779] [WARNING] [py.warnings._showwarnmsg:110] [PID:56413] /root/miniconda3/envs/py3.11/lib/python3.11/site-packages/accelerate/accelerator.py:1962: UserWarning: Upcasted low precision parameters in ApertusForCausalLM because mixed precision turned on in FSDP. Affects: model.embed_tokens.weight, model.norm.weight, lm_head.weight.
  warnings.warn(

[2025-11-23 20:11:57,779] [WARNING] [py.warnings._showwarnmsg:110] [PID:56413] /root/miniconda3/envs/py3.11/lib/python3.11/site-packages/accelerate/accelerator.py:1968: UserWarning: FSDP upcast of low precision parameters may affect the precision of model checkpoints.
  warnings.warn(

[34m[1mwandb[0m: Currently logged in as: [33mcooawoo[0m ([33mcooawoo-personal[0m) to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin
[34m[1mwandb[0m: [38;5;178m⢿[0m Waiting for wandb.init()...
[Am[2K[34m[1mwandb[0m: [38;5;178m⣻[0m setting up run y5u2bm5m (0.1s)
[Am[2K[34m[1mwandb[0m: [38;5;178m⣽[0m setting up run y5u2bm5m (0.1s)
[Am[2K[34m[1mwandb[0m: Tracking run with wandb version 0.23.0
[34m[1mwandb[0m: Run data is saved locally in [35m[1m/workspace/training/wandb/run-20251123_201158-y5u2bm5m[0m
[34m[1mwandb[0m: Run [1m`wandb offline`[0m to turn off syncing.
[34m[1mwandb[0m: Syncing run [33m12b-part2-part1-embeddings[0m
[34m[1mwandb[0m: ⭐️ View project at [34m[4mhttps://wandb.ai/cooawoo-personal/ApertusV3[0m
[34m[1mwandb[0m: 🚀 View run at [34m[4mhttps://wandb.ai/cooawoo-personal/ApertusV3/runs/y5u2bm5m[0m
[34m[1mwandb[0m: Detected [huggingface_hub.inference, openai] in use.
[34m[1mwandb[0m: Use W&B Weave for improved LLM call tracing. Install Weave with `pip install weave` then add `import weave` to the top of your script.
[34m[1mwandb[0m: For more information, check out the docs at: https://weave-docs.wandb.ai/
[34m[1mwandb[0m: [33mWARNING[0m Saving files without folders. If you want to preserve subdirectories pass base_path to wandb.save, i.e. wandb.save("/mnt/folder/file.h5", base_path="/mnt")
[2025-11-23 20:12:01,631] [INFO] [axolotl.utils.callbacks.on_train_begin:793] [PID:56413] The Axolotl config has been saved to the WandB run under files.
  0%|                                                                                         | 0/321 [00:00<?, ?it/s][2025-11-23 20:12:01,631] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:56413] Running evaluation step...
[2025-11-23 20:12:05,200] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:56413] generate_batches time: 1.6791253089904785
[2025-11-23 20:12:06,950] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:56413] generate_batches time: 1.7496144771575928
[2025-11-23 20:12:08,625] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:56413] generate_batches time: 1.6745047569274902
[2025-11-23 20:12:10,305] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:56413] generate_batches time: 1.6801190376281738
[2025-11-23 20:12:10,306] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:434] [PID:56413] gather_len_batches: [28, 28]

  0%|                                                                                          | 0/14 [00:00<?, ?it/s][A
 14%|███████████▋                                                                      | 2/14 [00:05<00:32,  2.71s/it][A
 21%|█████████████████▌                                                                | 3/14 [00:09<00:38,  3.48s/it][A
 29%|███████████████████████▍                                                          | 4/14 [00:14<00:38,  3.87s/it][A
 36%|█████████████████████████████▎                                                    | 5/14 [00:19<00:37,  4.11s/it][A
 43%|███████████████████████████████████▏                                              | 6/14 [00:23<00:34,  4.27s/it][A
 50%|█████████████████████████████████████████                                         | 7/14 [00:28<00:30,  4.36s/it][A
 57%|██████████████████████████████████████████████▊                                   | 8/14 [00:32<00:26,  4.42s/it][A
 64%|████████████████████████████████████████████████████▋                             | 9/14 [00:37<00:22,  4.53s/it][A
 71%|█████████████████████████████████████████████████████████▊                       | 10/14 [00:42<00:18,  4.53s/it][A
 79%|███████████████████████████████████████████████████████████████▋                 | 11/14 [00:46<00:13,  4.55s/it][A
 86%|█████████████████████████████████████████████████████████████████████▍           | 12/14 [00:51<00:09,  4.54s/it][A
 93%|███████████████████████████████████████████████████████████████████████████▏     | 13/14 [00:55<00:04,  4.54s/it][A
100%|█████████████████████████████████████████████████████████████████████████████████| 14/14 [01:01<00:00,  4.86s/it][A                                                                                                                      
                                                                                                                      [A{'eval_loss': 0.988910973072052, 'eval_runtime': 101.0978, 'eval_samples_per_second': 1.978, 'eval_steps_per_second': 0.989, 'memory/max_active (GiB)': 6.25, 'memory/max_allocated (GiB)': 5.32, 'memory/device_reserved (GiB)': 10.43, 'epoch': 0}
  0%|                                                                                         | 0/321 [01:49<?, ?it/s]
100%|█████████████████████████████████████████████████████████████████████████████████| 14/14 [01:01<00:00,  4.86s/it][A
                                                                                                                      [A  0%|▏                                                                            | 1/321 [03:16<17:28:43, 196.64s/it]                                                                                                                      {'loss': 1.0707, 'grad_norm': 1.6197212934494019, 'learning_rate': 0.0, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 601.59, 'epoch': 0.0}
  0%|▏                                                                            | 1/321 [03:19<17:28:43, 196.64s/it]  1%|▍                                                                            | 2/321 [04:43<11:40:35, 131.77s/it]                                                                                                                      {'loss': 1.003, 'grad_norm': 1.5806200504302979, 'learning_rate': 6.25e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 226.76, 'epoch': 0.01}
  1%|▍                                                                            | 2/321 [04:43<11:40:35, 131.77s/it]  1%|▋                                                                             | 3/321 [06:07<9:44:11, 110.22s/it]                                                                                                                      {'loss': 0.9711, 'grad_norm': 1.6702836751937866, 'learning_rate': 1.25e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 269.86, 'epoch': 0.01}
  1%|▋                                                                             | 3/321 [06:08<9:44:11, 110.22s/it]  1%|▉                                                                              | 4/321 [07:31<8:47:54, 99.92s/it]                                                                                                                      {'loss': 1.1543, 'grad_norm': 1.7134039402008057, 'learning_rate': 1.8750000000000003e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 255.3, 'epoch': 0.01}
  1%|▉                                                                              | 4/321 [07:32<8:47:54, 99.92s/it]  2%|█▏                                                                             | 5/321 [08:56<8:16:35, 94.29s/it]                                                                                                                      {'loss': 1.0927, 'grad_norm': 1.6467750072479248, 'learning_rate': 2.5e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 278.74, 'epoch': 0.02}
  2%|█▏                                                                             | 5/321 [08:56<8:16:35, 94.29s/it]  2%|█▍                                                                             | 6/321 [10:20<7:57:44, 91.00s/it]                                                                                                                      {'loss': 0.9307, 'grad_norm': 1.5181025266647339, 'learning_rate': 3.125e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 218.42, 'epoch': 0.02}
  2%|█▍                                                                             | 6/321 [10:21<7:57:44, 91.00s/it]  2%|█▋                                                                             | 7/321 [11:44<7:44:35, 88.77s/it]                                                                                                                      {'loss': 0.9993, 'grad_norm': 1.634995937347412, 'learning_rate': 3.7500000000000005e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 252.08, 'epoch': 0.02}
  2%|█▋                                                                             | 7/321 [11:45<7:44:35, 88.77s/it]  2%|█▉                                                                             | 8/321 [13:10<7:38:30, 87.89s/it]                                                                                                                      {'loss': 1.1264, 'grad_norm': 1.6267940998077393, 'learning_rate': 4.3750000000000005e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 244.3, 'epoch': 0.02}
  2%|█▉                                                                             | 8/321 [13:11<7:38:30, 87.89s/it]  3%|██▏                                                                            | 9/321 [14:34<7:30:39, 86.66s/it]                                                                                                                      {'loss': 1.085, 'grad_norm': 1.600043535232544, 'learning_rate': 5e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 270.31, 'epoch': 0.03}
  3%|██▏                                                                            | 9/321 [14:35<7:30:39, 86.66s/it]  3%|██▍                                                                           | 10/321 [15:59<7:26:30, 86.14s/it]                                                                                                                      {'loss': 1.012, 'grad_norm': 1.4651414155960083, 'learning_rate': 4.999874073411688e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 273.22, 'epoch': 0.03}
  3%|██▍                                                                           | 10/321 [16:00<7:26:30, 86.14s/it]  3%|██▋                                                                           | 11/321 [17:23<7:21:38, 85.48s/it]                                                                                                                      {'loss': 0.9937, 'grad_norm': 1.5557442903518677, 'learning_rate': 4.999496306332755e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 250.48, 'epoch': 0.03}
  3%|██▋                                                                           | 11/321 [17:24<7:21:38, 85.48s/it]  4%|██▉                                                                           | 12/321 [18:47<7:17:58, 85.05s/it]                                                                                                                      {'loss': 1.0222, 'grad_norm': 1.538008213043213, 'learning_rate': 4.998866736819938e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 278.69, 'epoch': 0.04}
  4%|██▉                                                                           | 12/321 [18:48<7:17:58, 85.05s/it]  4%|███▏                                                                          | 13/321 [20:12<7:15:31, 84.84s/it]                                                                                                                      {'loss': 1.187, 'grad_norm': 1.605036973953247, 'learning_rate': 4.997985428296869e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 234.03, 'epoch': 0.04}
  4%|███▏                                                                          | 13/321 [20:12<7:15:31, 84.84s/it]  4%|███▍                                                                          | 14/321 [21:36<7:13:08, 84.65s/it]                                                                                                                      {'loss': 1.0617, 'grad_norm': 1.5834779739379883, 'learning_rate': 4.996852469547688e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 246.27, 'epoch': 0.04}
  4%|███▍                                                                          | 14/321 [21:36<7:13:08, 84.65s/it]  5%|███▋                                                                          | 15/321 [23:00<7:11:19, 84.57s/it]                                                                                                                      {'loss': 1.1794, 'grad_norm': 1.5763788223266602, 'learning_rate': 4.9954679747081e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 218.62, 'epoch': 0.05}
  5%|███▋                                                                          | 15/321 [23:01<7:11:19, 84.57s/it]  5%|███▉                                                                          | 16/321 [24:24<7:08:53, 84.37s/it]                                                                                                                      {'loss': 1.0266, 'grad_norm': 1.5322924852371216, 'learning_rate': 4.993832083253874e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 252.07, 'epoch': 0.05}
  5%|███▉                                                                          | 16/321 [24:25<7:08:53, 84.37s/it]  5%|████▏                                                                         | 17/321 [25:49<7:07:31, 84.38s/it]                                                                                                                      {'loss': 1.0751, 'grad_norm': 1.486175298690796, 'learning_rate': 4.991944959986793e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 248.5, 'epoch': 0.05}
  5%|████▏                                                                         | 17/321 [25:49<7:07:31, 84.38s/it]  6%|████▎                                                                         | 18/321 [27:13<7:06:01, 84.36s/it]                                                                                                                      {'loss': 1.2084, 'grad_norm': 1.4569875001907349, 'learning_rate': 4.989806795018054e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 250.26, 'epoch': 0.06}
  6%|████▎                                                                         | 18/321 [27:13<7:06:01, 84.36s/it]  6%|████▌                                                                         | 19/321 [28:38<7:05:11, 84.48s/it]                                                                                                                      {'loss': 0.9472, 'grad_norm': 1.328399419784546, 'learning_rate': 4.987417803749112e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 237.58, 'epoch': 0.06}
  6%|████▌                                                                         | 19/321 [28:38<7:05:11, 84.48s/it]  6%|████▊                                                                         | 20/321 [30:02<7:04:21, 84.59s/it]                                                                                                                      {'loss': 1.036, 'grad_norm': 1.3710676431655884, 'learning_rate': 4.984778226849983e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 226.08, 'epoch': 0.06}
  6%|████▊                                                                         | 20/321 [30:03<7:04:21, 84.59s/it]  7%|█████                                                                         | 21/321 [31:27<7:02:33, 84.51s/it]                                                                                                                      {'loss': 0.9215, 'grad_norm': 1.1496919393539429, 'learning_rate': 4.981888330234998e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 278.02, 'epoch': 0.07}
  7%|█████                                                                         | 21/321 [31:27<7:02:33, 84.51s/it]  7%|█████▎                                                                        | 22/321 [32:51<7:00:06, 84.30s/it]                                                                                                                      {'loss': 1.1005, 'grad_norm': 1.4201538562774658, 'learning_rate': 4.978748405036014e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 281.0, 'epoch': 0.07}
  7%|█████▎                                                                        | 22/321 [32:51<7:00:06, 84.30s/it]  7%|█████▌                                                                        | 23/321 [34:15<6:58:36, 84.28s/it]                                                                                                                      {'loss': 1.0545, 'grad_norm': 1.4113389253616333, 'learning_rate': 4.975358767573085e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 257.2, 'epoch': 0.07}
  7%|█████▌                                                                        | 23/321 [34:15<6:58:36, 84.28s/it]  7%|█████▊                                                                        | 24/321 [35:39<6:56:56, 84.23s/it]                                                                                                                      {'loss': 1.0993, 'grad_norm': 1.4391158819198608, 'learning_rate': 4.971719759322596e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 220.03, 'epoch': 0.07}
  7%|█████▊                                                                        | 24/321 [35:40<6:56:56, 84.23s/it]  8%|██████                                                                        | 25/321 [37:03<6:55:30, 84.23s/it]                                                                                                                      {'loss': 1.122, 'grad_norm': 1.3014352321624756, 'learning_rate': 4.967831746882863e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 259.1, 'epoch': 0.08}
  8%|██████                                                                        | 25/321 [37:04<6:55:30, 84.23s/it]  8%|██████▎                                                                       | 26/321 [38:27<6:54:00, 84.21s/it]                                                                                                                      {'loss': 1.0228, 'grad_norm': 1.292205572128296, 'learning_rate': 4.9636951219372e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 280.36, 'epoch': 0.08}
  8%|██████▎                                                                       | 26/321 [38:28<6:54:00, 84.21s/it]  8%|██████▌                                                                       | 27/321 [39:52<6:52:52, 84.26s/it]                                                                                                                      {'loss': 0.9374, 'grad_norm': 1.232285737991333, 'learning_rate': 4.959310301214458e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 294.23, 'epoch': 0.08}
  8%|██████▌                                                                       | 27/321 [39:52<6:52:52, 84.26s/it]  9%|██████▊                                                                       | 28/321 [41:16<6:51:35, 84.28s/it]                                                                                                                      {'loss': 0.9699, 'grad_norm': 1.2958266735076904, 'learning_rate': 4.954677726447049e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 286.38, 'epoch': 0.09}
  9%|██████▊                                                                       | 28/321 [41:17<6:51:35, 84.28s/it]  9%|███████                                                                       | 29/321 [42:42<6:52:20, 84.73s/it]                                                                                                                      {'loss': 1.0362, 'grad_norm': 1.34305739402771, 'learning_rate': 4.949797864326442e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 242.83, 'epoch': 0.09}
  9%|███████                                                                       | 29/321 [42:42<6:52:20, 84.73s/it]  9%|███████▎                                                                      | 30/321 [44:07<6:51:19, 84.81s/it]                                                                                                                      {'loss': 1.0888, 'grad_norm': 1.4706913232803345, 'learning_rate': 4.944671206456148e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 257.72, 'epoch': 0.09}
  9%|███████▎                                                                      | 30/321 [44:07<6:51:19, 84.81s/it] 10%|███████▌                                                                      | 31/321 [45:31<6:48:30, 84.52s/it]                                                                                                                      {'loss': 1.0239, 'grad_norm': 1.333347201347351, 'learning_rate': 4.939298269302194e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 269.16, 'epoch': 0.1}
 10%|███████▌                                                                      | 31/321 [45:31<6:48:30, 84.52s/it] 10%|███████▊                                                                      | 32/321 [46:55<6:46:06, 84.31s/it]                                                                                                                      {'loss': 1.1593, 'grad_norm': 1.3513065576553345, 'learning_rate': 4.933679594141096e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 253.65, 'epoch': 0.1}
 10%|███████▊                                                                      | 32/321 [46:55<6:46:06, 84.31s/it] 10%|████████                                                                      | 33/321 [48:19<6:44:54, 84.36s/it]                                                                                                                      {'loss': 1.0812, 'grad_norm': 1.299193263053894, 'learning_rate': 4.9278157470053305e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 224.94, 'epoch': 0.1}
 10%|████████                                                                      | 33/321 [48:20<6:44:54, 84.36s/it] 11%|████████▎                                                                     | 34/321 [49:43<6:43:16, 84.31s/it]                                                                                                                      {'loss': 0.9783, 'grad_norm': 1.269655466079712, 'learning_rate': 4.9217073186263075e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 231.45, 'epoch': 0.11}
 11%|████████▎                                                                     | 34/321 [49:44<6:43:16, 84.31s/it] 11%|████████▌                                                                     | 35/321 [51:08<6:42:05, 84.36s/it]                                                                                                                      {'loss': 1.0083, 'grad_norm': 1.1106597185134888, 'learning_rate': 4.915354924374864e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 268.38, 'epoch': 0.11}
 11%|████████▌                                                                     | 35/321 [51:08<6:42:05, 84.36s/it] 11%|████████▋                                                                     | 36/321 [52:32<6:40:20, 84.28s/it]                                                                                                                      {'loss': 1.0229, 'grad_norm': 1.2213459014892578, 'learning_rate': 4.908759204199268e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 233.85, 'epoch': 0.11}
 11%|████████▋                                                                     | 36/321 [52:32<6:40:20, 84.28s/it] 12%|████████▉                                                                     | 37/321 [53:56<6:39:06, 84.32s/it]                                                                                                                      {'loss': 0.9884, 'grad_norm': 1.175650715827942, 'learning_rate': 4.901920822560753e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 262.0, 'epoch': 0.12}
 12%|████████▉                                                                     | 37/321 [53:57<6:39:06, 84.32s/it] 12%|█████████▏                                                                    | 38/321 [55:20<6:36:58, 84.16s/it]                                                                                                                      {'loss': 1.0021, 'grad_norm': 1.2762914896011353, 'learning_rate': 4.89484046836657e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 242.85, 'epoch': 0.12}
 12%|█████████▏                                                                    | 38/321 [55:21<6:36:58, 84.16s/it] 12%|█████████▍                                                                    | 39/321 [56:44<6:35:53, 84.23s/it]                                                                                                                      {'loss': 1.007, 'grad_norm': 1.2643359899520874, 'learning_rate': 4.887518854900603e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 262.52, 'epoch': 0.12}
 12%|█████████▍                                                                    | 39/321 [56:45<6:35:53, 84.23s/it] 12%|█████████▋                                                                    | 40/321 [58:09<6:35:15, 84.40s/it]                                                                                                                      {'loss': 1.1502, 'grad_norm': 1.2804560661315918, 'learning_rate': 4.879956719751491e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 267.45, 'epoch': 0.12}
 12%|█████████▋                                                                    | 40/321 [58:10<6:35:15, 84.40s/it] 13%|█████████▉                                                                    | 41/321 [59:33<6:33:21, 84.29s/it]                                                                                                                      {'loss': 0.9886, 'grad_norm': 1.2043167352676392, 'learning_rate': 4.87215482473834e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 281.06, 'epoch': 0.13}
 13%|█████████▉                                                                    | 41/321 [59:34<6:33:21, 84.29s/it] 13%|█████████▉                                                                  | 42/321 [1:00:57<6:31:51, 84.27s/it]                                                                                                                      {'loss': 0.9434, 'grad_norm': 1.1862658262252808, 'learning_rate': 4.864113955833967e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 257.1, 'epoch': 0.13}
 13%|█████████▉                                                                  | 42/321 [1:00:58<6:31:51, 84.27s/it] 13%|██████████▏                                                                 | 43/321 [1:02:22<6:31:17, 84.45s/it]                                                                                                                      {'loss': 0.9869, 'grad_norm': 1.3842424154281616, 'learning_rate': 4.855834923085721e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 193.13, 'epoch': 0.13}
 13%|██████████▏                                                                 | 43/321 [1:02:23<6:31:17, 84.45s/it] 14%|██████████▍                                                                 | 44/321 [1:03:46<6:29:03, 84.27s/it]                                                                                                                      {'loss': 1.1097, 'grad_norm': 1.3309319019317627, 'learning_rate': 4.847318560533882e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 277.3, 'epoch': 0.14}
 14%|██████████▍                                                                 | 44/321 [1:03:47<6:29:03, 84.27s/it] 14%|██████████▋                                                                 | 45/321 [1:05:10<6:27:38, 84.27s/it]                                                                                                                      {'loss': 1.0366, 'grad_norm': 1.311844825744629, 'learning_rate': 4.838565726127636e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 271.51, 'epoch': 0.14}
 14%|██████████▋                                                                 | 45/321 [1:05:11<6:27:38, 84.27s/it] 14%|██████████▉                                                                 | 46/321 [1:06:35<6:26:20, 84.29s/it]                                                                                                                      {'loss': 1.1309, 'grad_norm': 1.3362048864364624, 'learning_rate': 4.829577301638642e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 233.39, 'epoch': 0.14}
 14%|██████████▉                                                                 | 46/321 [1:06:35<6:26:20, 84.29s/it] 15%|███████████▏                                                                | 47/321 [1:07:59<6:24:31, 84.20s/it]                                                                                                                      {'loss': 0.9964, 'grad_norm': 1.2753310203552246, 'learning_rate': 4.8203541925722016e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 252.88, 'epoch': 0.15}
 15%|███████████▏                                                                | 47/321 [1:07:59<6:24:31, 84.20s/it] 15%|███████████▎                                                                | 48/321 [1:09:23<6:22:57, 84.17s/it]                                                                                                                      {'loss': 1.0953, 'grad_norm': 1.3100335597991943, 'learning_rate': 4.810897328076045e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 215.18, 'epoch': 0.15}
 15%|███████████▎                                                                | 48/321 [1:09:23<6:22:57, 84.17s/it] 15%|███████████▌                                                                | 49/321 [1:10:47<6:21:53, 84.24s/it]                                                                                                                      {'loss': 0.9432, 'grad_norm': 1.1930677890777588, 'learning_rate': 4.801207660846717e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 243.95, 'epoch': 0.15}
 15%|███████████▌                                                                | 49/321 [1:10:48<6:21:53, 84.24s/it] 16%|███████████▊                                                                | 50/321 [1:12:12<6:21:34, 84.48s/it]                                                                                                                      {'loss': 1.1859, 'grad_norm': 1.365744948387146, 'learning_rate': 4.7912861670336065e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 215.59, 'epoch': 0.16}
 16%|███████████▊                                                                | 50/321 [1:12:13<6:21:34, 84.48s/it] 16%|████████████                                                                | 51/321 [1:13:36<6:19:36, 84.36s/it]                                                                                                                      {'loss': 0.9836, 'grad_norm': 1.0761271715164185, 'learning_rate': 4.781133846140606e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 294.11, 'epoch': 0.16}
 16%|████████████                                                                | 51/321 [1:13:37<6:19:36, 84.36s/it] 16%|████████████▎                                                               | 52/321 [1:15:00<6:17:35, 84.22s/it]                                                                                                                      {'loss': 1.0754, 'grad_norm': 1.4568887948989868, 'learning_rate': 4.770751720925422e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 213.19, 'epoch': 0.16}
 16%|████████████▎                                                               | 52/321 [1:15:01<6:17:35, 84.22s/it] 17%|████████████▌                                                               | 53/321 [1:16:25<6:16:37, 84.32s/it]                                                                                                                      {'loss': 0.995, 'grad_norm': 1.1964445114135742, 'learning_rate': 4.760140837296542e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 252.97, 'epoch': 0.16}
 17%|████████████▌                                                               | 53/321 [1:16:25<6:16:37, 84.32s/it] 17%|████████████▊                                                               | 54/321 [1:17:49<6:15:11, 84.31s/it]                                                                                                                      {'loss': 1.0447, 'grad_norm': 1.1619316339492798, 'learning_rate': 4.7493022642078654e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 272.83, 'epoch': 0.17}
 17%|████████████▊                                                               | 54/321 [1:17:50<6:15:11, 84.31s/it] 17%|█████████████                                                               | 55/321 [1:19:14<6:14:03, 84.37s/it]                                                                                                                      {'loss': 1.0922, 'grad_norm': 1.2452646493911743, 'learning_rate': 4.7382370935510165e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 235.3, 'epoch': 0.17}
 17%|█████████████                                                               | 55/321 [1:19:14<6:14:03, 84.37s/it] 17%|█████████████▎                                                              | 56/321 [1:20:38<6:12:28, 84.33s/it]                                                                                                                      {'loss': 0.9644, 'grad_norm': 1.1803754568099976, 'learning_rate': 4.726946440045348e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 247.53, 'epoch': 0.17}
 17%|█████████████▎                                                              | 56/321 [1:20:38<6:12:28, 84.33s/it] 18%|█████████████▍                                                              | 57/321 [1:22:02<6:10:59, 84.32s/it]                                                                                                                      {'loss': 1.0771, 'grad_norm': 1.2493764162063599, 'learning_rate': 4.715431441125639e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 237.1, 'epoch': 0.18}
 18%|█████████████▍                                                              | 57/321 [1:22:03<6:10:59, 84.32s/it] 18%|█████████████▋                                                              | 58/321 [1:23:26<6:09:10, 84.22s/it]                                                                                                                      {'loss': 0.9219, 'grad_norm': 1.0815844535827637, 'learning_rate': 4.703693256827515e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 293.1, 'epoch': 0.18}
 18%|█████████████▋                                                              | 58/321 [1:23:27<6:09:10, 84.22s/it] 18%|█████████████▉                                                              | 59/321 [1:24:50<6:07:36, 84.18s/it]                                                                                                                      {'loss': 0.9587, 'grad_norm': 1.1191669702529907, 'learning_rate': 4.691733069670575e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 267.94, 'epoch': 0.18}
 18%|█████████████▉                                                              | 59/321 [1:24:51<6:07:36, 84.18s/it] 19%|██████████████▏                                                             | 60/321 [1:26:15<6:07:30, 84.48s/it]                                                                                                                      {'loss': 0.9993, 'grad_norm': 1.1878468990325928, 'learning_rate': 4.679552084539271e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 252.03, 'epoch': 0.19}
 19%|██████████████▏                                                             | 60/321 [1:26:16<6:07:30, 84.48s/it] 19%|██████████████▍                                                             | 61/321 [1:27:40<6:05:36, 84.37s/it]                                                                                                                      {'loss': 1.0253, 'grad_norm': 1.232089877128601, 'learning_rate': 4.667151528561522e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 261.9, 'epoch': 0.19}
 19%|██████████████▍                                                             | 61/321 [1:27:40<6:05:36, 84.37s/it] 19%|██████████████▋                                                             | 62/321 [1:29:04<6:03:48, 84.28s/it]                                                                                                                      {'loss': 0.8668, 'grad_norm': 1.0602437257766724, 'learning_rate': 4.6545326509850965e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 245.53, 'epoch': 0.19}
 19%|██████████████▋                                                             | 62/321 [1:29:04<6:03:48, 84.28s/it] 20%|██████████████▉                                                             | 63/321 [1:30:28<6:03:12, 84.47s/it]                                                                                                                      {'loss': 1.031, 'grad_norm': 1.1383373737335205, 'learning_rate': 4.641696723051753e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 247.55, 'epoch': 0.2}
 20%|██████████████▉                                                             | 63/321 [1:30:29<6:03:12, 84.47s/it] 20%|███████████████▏                                                            | 64/321 [1:31:53<6:01:23, 84.37s/it]                                                                                                                      {'loss': 0.9563, 'grad_norm': 1.0882190465927124, 'learning_rate': 4.628645037869183e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 272.62, 'epoch': 0.2}
 20%|███████████████▏                                                            | 64/321 [1:31:53<6:01:23, 84.37s/it] 20%|███████████████▍                                                            | 65/321 [1:33:17<5:59:54, 84.35s/it]                                                                                                                      {'loss': 0.9893, 'grad_norm': 1.1062604188919067, 'learning_rate': 4.615378910280735e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 246.54, 'epoch': 0.2}
 20%|███████████████▍                                                            | 65/321 [1:33:17<5:59:54, 84.35s/it] 21%|███████████████▋                                                            | 66/321 [1:34:41<5:58:20, 84.32s/it]                                                                                                                      {'loss': 0.9894, 'grad_norm': 1.0851901769638062, 'learning_rate': 4.60189967673296e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 292.29, 'epoch': 0.21}
 21%|███████████████▋                                                            | 66/321 [1:34:42<5:58:20, 84.32s/it] 21%|███████████████▊                                                            | 67/321 [1:36:05<5:56:40, 84.25s/it]                                                                                                                      {'loss': 0.978, 'grad_norm': 1.056918978691101, 'learning_rate': 4.588208695140972e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 282.22, 'epoch': 0.21}
 21%|███████████████▊                                                            | 67/321 [1:36:06<5:56:40, 84.25s/it] 21%|████████████████                                                            | 68/321 [1:37:30<5:55:30, 84.31s/it]                                                                                                                      {'loss': 0.9175, 'grad_norm': 1.1538704633712769, 'learning_rate': 4.574307344751654e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 258.71, 'epoch': 0.21}
 21%|████████████████                                                            | 68/321 [1:37:30<5:55:30, 84.31s/it] 21%|████████████████▎                                                           | 69/321 [1:38:54<5:54:04, 84.30s/it]                                                                                                                      {'loss': 1.0606, 'grad_norm': 1.1888858079910278, 'learning_rate': 4.560197026004706e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 255.15, 'epoch': 0.21}
 21%|████████████████▎                                                           | 69/321 [1:38:55<5:54:04, 84.30s/it] 22%|████████████████▌                                                           | 70/321 [1:40:19<5:53:33, 84.52s/it]                                                                                                                      {'loss': 0.9934, 'grad_norm': 1.1920467615127563, 'learning_rate': 4.5458791603915695e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 203.93, 'epoch': 0.22}
 22%|████████████████▌                                                           | 70/321 [1:40:20<5:53:33, 84.52s/it] 22%|████████████████▊                                                           | 71/321 [1:41:45<5:53:53, 84.93s/it]                                                                                                                      {'loss': 1.015, 'grad_norm': 1.242038607597351, 'learning_rate': 4.5313551903122195e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 188.27, 'epoch': 0.22}
 22%|████████████████▊                                                           | 71/321 [1:41:45<5:53:53, 84.93s/it] 22%|█████████████████                                                           | 72/321 [1:43:09<5:51:14, 84.64s/it]                                                                                                                      {'loss': 1.0911, 'grad_norm': 1.14454984664917, 'learning_rate': 4.516626578929857e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 264.85, 'epoch': 0.22}
 22%|█████████████████                                                           | 72/321 [1:43:09<5:51:14, 84.64s/it] 23%|█████████████████▎                                                          | 73/321 [1:44:33<5:49:43, 84.61s/it]                                                                                                                      {'loss': 1.2249, 'grad_norm': 1.3430501222610474, 'learning_rate': 4.501694810023506e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 246.23, 'epoch': 0.23}
 23%|█████████████████▎                                                          | 73/321 [1:44:34<5:49:43, 84.61s/it] 23%|█████████████████▌                                                          | 74/321 [1:45:57<5:47:31, 84.42s/it]                                                                                                                      {'loss': 1.0565, 'grad_norm': 1.1634619235992432, 'learning_rate': 4.486561387838539e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 268.55, 'epoch': 0.23}
 23%|█████████████████▌                                                          | 74/321 [1:45:58<5:47:31, 84.42s/it] 23%|█████████████████▊                                                          | 75/321 [1:47:22<5:46:01, 84.40s/it]                                                                                                                      {'loss': 0.9692, 'grad_norm': 1.1156361103057861, 'learning_rate': 4.471227836935139e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 273.01, 'epoch': 0.23}
 23%|█████████████████▊                                                          | 75/321 [1:47:22<5:46:01, 84.40s/it] 24%|█████████████████▉                                                          | 76/321 [1:48:46<5:44:30, 84.37s/it]                                                                                                                      {'loss': 1.0058, 'grad_norm': 1.025247573852539, 'learning_rate': 4.455695702034705e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 291.86, 'epoch': 0.24}
 24%|█████████████████▉                                                          | 76/321 [1:48:47<5:44:30, 84.37s/it] 24%|██████████████████▏                                                         | 77/321 [1:50:10<5:42:27, 84.21s/it]                                                                                                                      {'loss': 1.0706, 'grad_norm': 1.2375205755233765, 'learning_rate': 4.439966547864243e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 275.32, 'epoch': 0.24}
 24%|██████████████████▏                                                         | 77/321 [1:50:10<5:42:27, 84.21s/it] 24%|██████████████████▍                                                         | 78/321 [1:51:34<5:40:41, 84.12s/it]                                                                                                                      {'loss': 0.9044, 'grad_norm': 1.1084588766098022, 'learning_rate': 4.424041958998732e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 283.6, 'epoch': 0.24}
 24%|██████████████████▍                                                         | 78/321 [1:51:34<5:40:41, 84.12s/it] 25%|██████████████████▋                                                         | 79/321 [1:52:58<5:39:24, 84.15s/it]                                                                                                                      {'loss': 1.0753, 'grad_norm': 1.1392239332199097, 'learning_rate': 4.407923539701486e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 268.31, 'epoch': 0.25}
 25%|██████████████████▋                                                         | 79/321 [1:52:59<5:39:24, 84.15s/it] 25%|██████████████████▉                                                         | 80/321 [1:54:23<5:39:15, 84.46s/it]                                                                                                                      {'loss': 0.9837, 'grad_norm': 1.298553705215454, 'learning_rate': 4.391612913762549e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 279.03, 'epoch': 0.25}
 25%|██████████████████▉                                                         | 80/321 [1:54:24<5:39:15, 84.46s/it] 25%|███████████████████▏                                                        | 81/321 [1:55:48<5:38:28, 84.62s/it]                                                                                                                      {'loss': 1.108, 'grad_norm': 1.22377610206604, 'learning_rate': 4.375111724335102e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 201.77, 'epoch': 0.25}
 25%|███████████████████▏                                                        | 81/321 [1:55:49<5:38:28, 84.62s/it][2025-11-23 22:07:50,842] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:56413] Running evaluation step...
[2025-11-23 22:07:52,613] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:56413] generate_batches time: 0.8630285263061523
[2025-11-23 22:07:53,473] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:56413] generate_batches time: 0.8603687286376953
[2025-11-23 22:07:54,341] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:56413] generate_batches time: 0.8670752048492432
[2025-11-23 22:07:55,206] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:56413] generate_batches time: 0.8644821643829346
[2025-11-23 22:07:57,211] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:434] [PID:56413] gather_len_batches: [28, 28]

  0%|                                                                                          | 0/14 [00:00<?, ?it/s][A
 14%|███████████▋                                                                      | 2/14 [00:05<00:33,  2.80s/it][A
 21%|█████████████████▌                                                                | 3/14 [00:10<00:39,  3.56s/it][A
 29%|███████████████████████▍                                                          | 4/14 [00:14<00:39,  3.94s/it][A
 36%|█████████████████████████████▎                                                    | 5/14 [00:19<00:37,  4.14s/it][A
 43%|███████████████████████████████████▏                                              | 6/14 [00:23<00:34,  4.27s/it][A
 50%|█████████████████████████████████████████                                         | 7/14 [00:28<00:30,  4.40s/it][A
 57%|██████████████████████████████████████████████▊                                   | 8/14 [00:33<00:26,  4.45s/it][A
 64%|████████████████████████████████████████████████████▋                             | 9/14 [00:37<00:22,  4.54s/it][A
 71%|█████████████████████████████████████████████████████████▊                       | 10/14 [00:42<00:18,  4.56s/it][A
 79%|███████████████████████████████████████████████████████████████▋                 | 11/14 [00:47<00:13,  4.58s/it][A
 86%|█████████████████████████████████████████████████████████████████████▍           | 12/14 [00:51<00:09,  4.56s/it][A
 93%|███████████████████████████████████████████████████████████████████████████▏     | 13/14 [00:56<00:04,  4.55s/it][A
100%|█████████████████████████████████████████████████████████████████████████████████| 14/14 [01:00<00:00,  4.59s/it][A                                                                                                                      
                                                                                                                      [A{'eval_loss': 0.9508650898933411, 'eval_runtime': 65.8146, 'eval_samples_per_second': 3.039, 'eval_steps_per_second': 1.519, 'memory/max_active (GiB)': 5.33, 'memory/max_allocated (GiB)': 5.33, 'memory/device_reserved (GiB)': 7.96, 'epoch': 0.25}
 25%|███████████████████▏                                                        | 81/321 [1:57:01<5:38:28, 84.62s/it]
100%|█████████████████████████████████████████████████████████████████████████████████| 14/14 [01:00<00:00,  4.59s/it][A
                                                                                                                      [A[2025-11-23 22:09:03,033] [WARNING] [py.warnings._showwarnmsg:110] [PID:56413] /root/miniconda3/envs/py3.11/lib/python3.11/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:680: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  warnings.warn(

[2025-11-23 22:09:37,022] [INFO] [axolotl.core.trainers.base._save:671] [PID:56413] Saving model checkpoint to apertus-12b-nonzero-trained/cpt-part2-instruct-part1/checkpoint-81
 26%|███████████████████▏                                                       | 82/321 [2:00:45<9:51:05, 148.39s/it]                                                                                                                      {'loss': 1.0298, 'grad_norm': 1.17324697971344, 'learning_rate': 4.358421633769934e-06, 'memory/max_active (GiB)': 10.52, 'memory/max_allocated (GiB)': 10.52, 'memory/device_reserved (GiB)': 22.21, 'tokens_per_second_per_gpu': 290.3, 'epoch': 0.25}
 26%|███████████████████▏                                                       | 82/321 [2:00:47<9:51:05, 148.39s/it] 26%|███████████████████▍                                                       | 83/321 [2:02:13<8:35:43, 130.02s/it]                                                                                                                      {'loss': 1.0187, 'grad_norm': 1.217233419418335, 'learning_rate': 4.341544323447978e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 223.79, 'epoch': 0.26}
 26%|███████████████████▍                                                       | 83/321 [2:02:13<8:35:43, 130.02s/it] 26%|███████████████████▋                                                       | 84/321 [2:03:37<7:39:22, 116.30s/it]                                                                                                                      {'loss': 1.0762, 'grad_norm': 1.175107479095459, 'learning_rate': 4.324481493610919e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 265.66, 'epoch': 0.26}
 26%|███████████████████▋                                                       | 84/321 [2:03:37<7:39:22, 116.30s/it] 26%|███████████████████▊                                                       | 85/321 [2:05:01<7:00:04, 106.80s/it]                                                                                                                      {'loss': 1.0378, 'grad_norm': 1.1359074115753174, 'learning_rate': 4.307234863189917e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 273.94, 'epoch': 0.26}
 26%|███████████████████▊                                                       | 85/321 [2:05:02<7:00:04, 106.80s/it] 27%|████████████████████                                                       | 86/321 [2:06:26<6:31:50, 100.04s/it]                                                                                                                      {'loss': 1.0584, 'grad_norm': 1.130911946296692, 'learning_rate': 4.289806169632434e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 239.45, 'epoch': 0.27}
 27%|████████████████████                                                       | 86/321 [2:06:26<6:31:50, 100.04s/it] 27%|████████████████████▌                                                       | 87/321 [2:07:50<6:11:51, 95.35s/it]                                                                                                                      {'loss': 1.0906, 'grad_norm': 1.2168638706207275, 'learning_rate': 4.272197168727204e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 243.02, 'epoch': 0.27}
 27%|████████████████████▌                                                       | 87/321 [2:07:51<6:11:51, 95.35s/it] 27%|████████████████████▊                                                       | 88/321 [2:09:14<5:57:17, 92.01s/it]                                                                                                                      {'loss': 1.0303, 'grad_norm': 1.1335277557373047, 'learning_rate': 4.254409634427356e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 262.91, 'epoch': 0.27}
 27%|████████████████████▊                                                       | 88/321 [2:09:15<5:57:17, 92.01s/it] 28%|█████████████████████                                                       | 89/321 [2:10:38<5:46:28, 89.60s/it]                                                                                                                      {'loss': 1.0297, 'grad_norm': 1.1685644388198853, 'learning_rate': 4.236445358671696e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 278.16, 'epoch': 0.28}
 28%|█████████████████████                                                       | 89/321 [2:10:39<5:46:28, 89.60s/it] 28%|█████████████████████▎                                                      | 90/321 [2:12:03<5:39:21, 88.14s/it]                                                                                                                      {'loss': 0.9308, 'grad_norm': 1.1180850267410278, 'learning_rate': 4.218306151204188e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 235.96, 'epoch': 0.28}
 28%|█████████████████████▎                                                      | 90/321 [2:12:04<5:39:21, 88.14s/it] 28%|█████████████████████▌                                                      | 91/321 [2:13:27<5:33:15, 86.94s/it]                                                                                                                      {'loss': 1.0304, 'grad_norm': 1.04005765914917, 'learning_rate': 4.1999938393916424e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 258.77, 'epoch': 0.28}
 28%|█████████████████████▌                                                      | 91/321 [2:13:28<5:33:15, 86.94s/it] 29%|█████████████████████▊                                                      | 92/321 [2:14:51<5:28:37, 86.10s/it]                                                                                                                      {'loss': 1.0081, 'grad_norm': 1.1530929803848267, 'learning_rate': 4.18151026803962e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 217.64, 'epoch': 0.29}
 29%|█████████████████████▊                                                      | 92/321 [2:14:52<5:28:37, 86.10s/it] 29%|██████████████████████                                                      | 93/321 [2:16:16<5:25:47, 85.73s/it]                                                                                                                      {'loss': 1.0432, 'grad_norm': 1.2654894590377808, 'learning_rate': 4.162857299206584e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 208.65, 'epoch': 0.29}
 29%|██████████████████████                                                      | 93/321 [2:16:17<5:25:47, 85.73s/it] 29%|██████████████████████▎                                                     | 94/321 [2:17:40<5:22:25, 85.22s/it]                                                                                                                      {'loss': 1.0782, 'grad_norm': 1.2404170036315918, 'learning_rate': 4.144036812016317e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 230.24, 'epoch': 0.29}
 29%|██████████████████████▎                                                     | 94/321 [2:17:41<5:22:25, 85.22s/it] 30%|██████████████████████▍                                                     | 95/321 [2:19:05<5:20:08, 84.99s/it]                                                                                                                      {'loss': 1.0297, 'grad_norm': 1.2881935834884644, 'learning_rate': 4.1250507024686115e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 220.16, 'epoch': 0.3}
 30%|██████████████████████▍                                                     | 95/321 [2:19:05<5:20:08, 84.99s/it] 30%|██████████████████████▋                                                     | 96/321 [2:20:29<5:17:27, 84.66s/it]                                                                                                                      {'loss': 1.0292, 'grad_norm': 1.2049273252487183, 'learning_rate': 4.105900883248269e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 271.41, 'epoch': 0.3}
 30%|██████████████████████▋                                                     | 96/321 [2:20:29<5:17:27, 84.66s/it] 30%|██████████████████████▉                                                     | 97/321 [2:21:53<5:15:17, 84.46s/it]                                                                                                                      {'loss': 1.0422, 'grad_norm': 1.2610715627670288, 'learning_rate': 4.08658928353241e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 240.32, 'epoch': 0.3}
 30%|██████████████████████▉                                                     | 97/321 [2:21:53<5:15:17, 84.46s/it] 31%|███████████████████████▏                                                    | 98/321 [2:23:17<5:13:22, 84.32s/it]                                                                                                                      {'loss': 1.0359, 'grad_norm': 1.0812574625015259, 'learning_rate': 4.06711784879613e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 280.96, 'epoch': 0.3}
 31%|███████████████████████▏                                                    | 98/321 [2:23:17<5:13:22, 84.32s/it] 31%|███████████████████████▍                                                    | 99/321 [2:24:41<5:12:02, 84.34s/it]                                                                                                                      {'loss': 1.0014, 'grad_norm': 1.1631346940994263, 'learning_rate': 4.047488540616503e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 256.33, 'epoch': 0.31}
 31%|███████████████████████▍                                                    | 99/321 [2:24:41<5:12:02, 84.34s/it] 31%|███████████████████████▎                                                   | 100/321 [2:26:06<5:11:15, 84.51s/it]                                                                                                                      {'loss': 1.031, 'grad_norm': 1.1784089803695679, 'learning_rate': 4.027703336474979e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 244.4, 'epoch': 0.31}
 31%|███████████████████████▎                                                   | 100/321 [2:26:06<5:11:15, 84.51s/it] 31%|███████████████████████▌                                                   | 101/321 [2:27:30<5:09:39, 84.45s/it]                                                                                                                      {'loss': 0.9472, 'grad_norm': 1.0539867877960205, 'learning_rate': 4.0077642295581605e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 229.31, 'epoch': 0.31}
 31%|███████████████████████▌                                                   | 101/321 [2:27:31<5:09:39, 84.45s/it] 32%|███████████████████████▊                                                   | 102/321 [2:28:54<5:07:44, 84.31s/it]                                                                                                                      {'loss': 1.0011, 'grad_norm': 1.2435665130615234, 'learning_rate': 3.987673228557017e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 227.58, 'epoch': 0.32}
 32%|███████████████████████▊                                                   | 102/321 [2:28:55<5:07:44, 84.31s/it] 32%|████████████████████████                                                   | 103/321 [2:30:19<5:06:31, 84.37s/it]                                                                                                                      {'loss': 1.021, 'grad_norm': 1.172280192375183, 'learning_rate': 3.967432357464518e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 264.4, 'epoch': 0.32}
 32%|████████████████████████                                                   | 103/321 [2:30:19<5:06:31, 84.37s/it] 32%|████████████████████████▎                                                  | 104/321 [2:31:43<5:04:40, 84.24s/it]                                                                                                                      {'loss': 0.8797, 'grad_norm': 1.1349763870239258, 'learning_rate': 3.947043655371734e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 224.04, 'epoch': 0.32}
 32%|████████████████████████▎                                                  | 104/321 [2:31:43<5:04:40, 84.24s/it] 33%|████████████████████████▌                                                  | 105/321 [2:33:07<5:03:51, 84.41s/it]                                                                                                                      {'loss': 1.0143, 'grad_norm': 1.0708993673324585, 'learning_rate': 3.9265091762624225e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 272.34, 'epoch': 0.33}
 33%|████████████████████████▌                                                  | 105/321 [2:33:08<5:03:51, 84.41s/it] 33%|████████████████████████▊                                                  | 106/321 [2:34:32<5:02:11, 84.33s/it]                                                                                                                      {'loss': 0.9115, 'grad_norm': 1.0402605533599854, 'learning_rate': 3.905830988806101e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 239.93, 'epoch': 0.33}
 33%|████████████████████████▊                                                  | 106/321 [2:34:32<5:02:11, 84.33s/it] 33%|█████████████████████████                                                  | 107/321 [2:35:56<5:00:24, 84.23s/it]                                                                                                                      {'loss': 1.0215, 'grad_norm': 1.0951251983642578, 'learning_rate': 3.885011176149647e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 294.68, 'epoch': 0.33}
 33%|█████████████████████████                                                  | 107/321 [2:35:56<5:00:24, 84.23s/it] 34%|█████████████████████████▏                                                 | 108/321 [2:37:20<4:59:01, 84.23s/it]                                                                                                                      {'loss': 1.0047, 'grad_norm': 1.1082464456558228, 'learning_rate': 3.864051835707444e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 272.87, 'epoch': 0.34}
 34%|█████████████████████████▏                                                 | 108/321 [2:37:20<4:59:01, 84.23s/it] 34%|█████████████████████████▍                                                 | 109/321 [2:38:44<4:57:41, 84.25s/it]                                                                                                                      {'loss': 1.0707, 'grad_norm': 1.1749076843261719, 'learning_rate': 3.842955078950079e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 278.82, 'epoch': 0.34}
 34%|█████████████████████████▍                                                 | 109/321 [2:38:45<4:57:41, 84.25s/it] 34%|█████████████████████████▋                                                 | 110/321 [2:40:09<4:56:59, 84.45s/it]                                                                                                                      {'loss': 0.9983, 'grad_norm': 1.0836745500564575, 'learning_rate': 3.8217230311916365e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 282.88, 'epoch': 0.34}
 34%|█████████████████████████▋                                                 | 110/321 [2:40:10<4:56:59, 84.45s/it] 35%|█████████████████████████▉                                                 | 111/321 [2:41:33<4:55:10, 84.33s/it]                                                                                                                      {'loss': 0.9582, 'grad_norm': 1.0989550352096558, 'learning_rate': 3.800357831375583e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 237.58, 'epoch': 0.35}
 35%|█████████████████████████▉                                                 | 111/321 [2:41:34<4:55:10, 84.33s/it] 35%|██████████████████████████▏                                                | 112/321 [2:42:57<4:53:15, 84.19s/it]                                                                                                                      {'loss': 0.8836, 'grad_norm': 1.0700154304504395, 'learning_rate': 3.778861631859298e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 255.91, 'epoch': 0.35}
 35%|██████████████████████████▏                                                | 112/321 [2:42:57<4:53:15, 84.19s/it] 35%|██████████████████████████▍                                                | 113/321 [2:44:22<4:52:26, 84.36s/it]                                                                                                                      {'loss': 1.0224, 'grad_norm': 1.082262635231018, 'learning_rate': 3.7572365981972335e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 253.03, 'epoch': 0.35}
 35%|██████████████████████████▍                                                | 113/321 [2:44:22<4:52:26, 84.36s/it] 36%|██████████████████████████▋                                                | 114/321 [2:45:46<4:50:44, 84.27s/it]                                                                                                                      {'loss': 1.0862, 'grad_norm': 1.0929186344146729, 'learning_rate': 3.735484908922759e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 287.73, 'epoch': 0.35}
 36%|██████████████████████████▋                                                | 114/321 [2:45:46<4:50:44, 84.27s/it] 36%|██████████████████████████▊                                                | 115/321 [2:47:11<4:50:10, 84.52s/it]                                                                                                                      {'loss': 1.026, 'grad_norm': 1.1979351043701172, 'learning_rate': 3.7136087553286916e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 250.96, 'epoch': 0.36}
 36%|██████████████████████████▊                                                | 115/321 [2:47:11<4:50:10, 84.52s/it] 36%|███████████████████████████                                                | 116/321 [2:48:35<4:48:08, 84.33s/it]                                                                                                                      {'loss': 1.1131, 'grad_norm': 1.2269561290740967, 'learning_rate': 3.6916103412465405e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 249.68, 'epoch': 0.36}
 36%|███████████████████████████                                                | 116/321 [2:48:35<4:48:08, 84.33s/it] 36%|███████████████████████████▎                                               | 117/321 [2:49:59<4:46:41, 84.32s/it]                                                                                                                      {'loss': 1.0193, 'grad_norm': 1.0766003131866455, 'learning_rate': 3.6694918828244923e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 242.66, 'epoch': 0.36}
 36%|███████████████████████████▎                                               | 117/321 [2:50:00<4:46:41, 84.32s/it] 37%|███████████████████████████▌                                               | 118/321 [2:51:23<4:45:11, 84.29s/it]                                                                                                                      {'loss': 1.0006, 'grad_norm': 1.1366127729415894, 'learning_rate': 3.647255608304154e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 244.23, 'epoch': 0.37}
 37%|███████████████████████████▌                                               | 118/321 [2:51:24<4:45:11, 84.29s/it] 37%|███████████████████████████▊                                               | 119/321 [2:52:48<4:43:54, 84.33s/it]                                                                                                                      {'loss': 0.998, 'grad_norm': 1.044385313987732, 'learning_rate': 3.6249037577960744e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 262.54, 'epoch': 0.37}
 37%|███████████████████████████▊                                               | 119/321 [2:52:48<4:43:54, 84.33s/it] 37%|████████████████████████████                                               | 120/321 [2:54:13<4:43:16, 84.56s/it]                                                                                                                      {'loss': 1.1329, 'grad_norm': 1.19260573387146, 'learning_rate': 3.6024385830540758e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 270.09, 'epoch': 0.37}
 37%|████████████████████████████                                               | 120/321 [2:54:13<4:43:16, 84.56s/it] 38%|████████████████████████████▎                                              | 121/321 [2:55:37<4:41:21, 84.41s/it]                                                                                                                      {'loss': 1.0602, 'grad_norm': 1.1376501321792603, 'learning_rate': 3.5798623472484074e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 258.92, 'epoch': 0.38}
 38%|████████████████████████████▎                                              | 121/321 [2:55:37<4:41:21, 84.41s/it] 38%|████████████████████████████▌                                              | 122/321 [2:57:01<4:39:51, 84.38s/it]                                                                                                                      {'loss': 1.0524, 'grad_norm': 1.084455966949463, 'learning_rate': 3.5571773247377495e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 247.91, 'epoch': 0.38}
 38%|████████████████████████████▌                                              | 122/321 [2:57:02<4:39:51, 84.38s/it] 38%|████████████████████████████▋                                              | 123/321 [2:58:26<4:38:52, 84.51s/it]                                                                                                                      {'loss': 1.0213, 'grad_norm': 1.122373342514038, 'learning_rate': 3.5343858008400955e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 242.17, 'epoch': 0.38}
 38%|████████████████████████████▋                                              | 123/321 [2:58:26<4:38:52, 84.51s/it] 39%|████████████████████████████▉                                              | 124/321 [2:59:50<4:36:40, 84.26s/it]                                                                                                                      {'loss': 1.1666, 'grad_norm': 1.2248936891555786, 'learning_rate': 3.511490071602523e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 271.4, 'epoch': 0.39}
 39%|████████████████████████████▉                                              | 124/321 [2:59:50<4:36:40, 84.26s/it] 39%|█████████████████████████████▏                                             | 125/321 [3:01:14<4:35:23, 84.30s/it]                                                                                                                      {'loss': 1.0331, 'grad_norm': 1.151007056236267, 'learning_rate': 3.4884924435698875e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 220.09, 'epoch': 0.39}
 39%|█████████████████████████████▏                                             | 125/321 [3:01:15<4:35:23, 84.30s/it] 39%|█████████████████████████████▍                                             | 126/321 [3:02:38<4:33:44, 84.23s/it]                                                                                                                      {'loss': 1.0298, 'grad_norm': 1.1915990114212036, 'learning_rate': 3.465395233552458e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 209.63, 'epoch': 0.39}
 39%|█████████████████████████████▍                                             | 126/321 [3:02:39<4:33:44, 84.23s/it] 40%|█████████████████████████████▋                                             | 127/321 [3:04:03<4:32:35, 84.31s/it]                                                                                                                      {'loss': 1.0943, 'grad_norm': 1.1742106676101685, 'learning_rate': 3.4422007683925224e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 225.51, 'epoch': 0.39}
 40%|█████████████████████████████▋                                             | 127/321 [3:04:03<4:32:35, 84.31s/it] 40%|█████████████████████████████▉                                             | 128/321 [3:05:27<4:31:01, 84.26s/it]                                                                                                                      {'loss': 1.0194, 'grad_norm': 1.0896235704421997, 'learning_rate': 3.418911384729971e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 263.59, 'epoch': 0.4}
 40%|█████████████████████████████▉                                             | 128/321 [3:05:27<4:31:01, 84.26s/it] 40%|██████████████████████████████▏                                            | 129/321 [3:06:51<4:29:28, 84.21s/it]                                                                                                                      {'loss': 1.0018, 'grad_norm': 1.1581729650497437, 'learning_rate': 3.395529428766907e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 257.46, 'epoch': 0.4}
 40%|██████████████████████████████▏                                            | 129/321 [3:06:51<4:29:28, 84.21s/it] 40%|██████████████████████████████▎                                            | 130/321 [3:08:16<4:28:46, 84.43s/it]                                                                                                                      {'loss': 1.0411, 'grad_norm': 1.175955891609192, 'learning_rate': 3.3720572560312854e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 236.72, 'epoch': 0.4}
 40%|██████████████████████████████▎                                            | 130/321 [3:08:16<4:28:46, 84.43s/it] 41%|██████████████████████████████▌                                            | 131/321 [3:09:40<4:27:17, 84.41s/it]                                                                                                                      {'loss': 1.0492, 'grad_norm': 1.1743146181106567, 'learning_rate': 3.3484972311396114e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 213.68, 'epoch': 0.41}
 41%|██████████████████████████████▌                                            | 131/321 [3:09:41<4:27:17, 84.41s/it] 41%|██████████████████████████████▊                                            | 132/321 [3:11:04<4:25:31, 84.29s/it]                                                                                                                      {'loss': 0.9835, 'grad_norm': 1.1525609493255615, 'learning_rate': 3.3248517275587292e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 249.99, 'epoch': 0.41}
 41%|██████████████████████████████▊                                            | 132/321 [3:11:05<4:25:31, 84.29s/it] 41%|███████████████████████████████                                            | 133/321 [3:12:29<4:24:26, 84.40s/it]                                                                                                                      {'loss': 0.9272, 'grad_norm': 1.0017986297607422, 'learning_rate': 3.3011231273667155e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 275.82, 'epoch': 0.41}
 41%|███████████████████████████████                                            | 133/321 [3:12:29<4:24:26, 84.40s/it] 42%|███████████████████████████████▎                                           | 134/321 [3:13:53<4:22:35, 84.26s/it]                                                                                                                      {'loss': 1.0101, 'grad_norm': 1.2642676830291748, 'learning_rate': 3.2773138210129037e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 226.27, 'epoch': 0.42}
 42%|███████████████████████████████▎                                           | 134/321 [3:13:53<4:22:35, 84.26s/it] 42%|███████████████████████████████▌                                           | 135/321 [3:15:17<4:21:29, 84.35s/it]                                                                                                                      {'loss': 0.9722, 'grad_norm': 1.0782043933868408, 'learning_rate': 3.253426207077069e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 272.59, 'epoch': 0.42}
 42%|███████████████████████████████▌                                           | 135/321 [3:15:18<4:21:29, 84.35s/it] 42%|███████████████████████████████▊                                           | 136/321 [3:16:41<4:19:35, 84.19s/it]                                                                                                                      {'loss': 0.9993, 'grad_norm': 1.0649064779281616, 'learning_rate': 3.2294626920277928e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 283.84, 'epoch': 0.42}
 42%|███████████████████████████████▊                                           | 136/321 [3:16:42<4:19:35, 84.19s/it] 43%|████████████████████████████████                                           | 137/321 [3:18:05<4:18:21, 84.25s/it]                                                                                                                      {'loss': 0.9257, 'grad_norm': 1.1523919105529785, 'learning_rate': 3.20542568998003e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 242.2, 'epoch': 0.43}
 43%|████████████████████████████████                                           | 137/321 [3:18:06<4:18:21, 84.25s/it] 43%|████████████████████████████████▏                                          | 138/321 [3:19:30<4:17:01, 84.27s/it]                                                                                                                      {'loss': 1.0698, 'grad_norm': 1.1235501766204834, 'learning_rate': 3.181317622451909e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 250.6, 'epoch': 0.43}
 43%|████████████████████████████████▏                                          | 138/321 [3:19:30<4:17:01, 84.27s/it] 43%|████████████████████████████████▍                                          | 139/321 [3:20:54<4:15:48, 84.33s/it]                                                                                                                      {'loss': 0.9824, 'grad_norm': 1.1147905588150024, 'learning_rate': 3.1571409181207867e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 265.69, 'epoch': 0.43}
 43%|████████████████████████████████▍                                          | 139/321 [3:20:55<4:15:48, 84.33s/it] 44%|████████████████████████████████▋                                          | 140/321 [3:22:19<4:15:02, 84.55s/it]                                                                                                                      {'loss': 1.1103, 'grad_norm': 1.2737592458724976, 'learning_rate': 3.132898012578577e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 215.6, 'epoch': 0.44}
 44%|████████████████████████████████▋                                          | 140/321 [3:22:20<4:15:02, 84.55s/it] 44%|████████████████████████████████▉                                          | 141/321 [3:23:43<4:13:19, 84.44s/it]                                                                                                                      {'loss': 1.026, 'grad_norm': 1.079110860824585, 'learning_rate': 3.108591348086388e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 277.92, 'epoch': 0.44}
 44%|████████████████████████████████▉                                          | 141/321 [3:23:44<4:13:19, 84.44s/it] 44%|█████████████████████████████████▏                                         | 142/321 [3:25:08<4:11:34, 84.32s/it]                                                                                                                      {'loss': 0.9481, 'grad_norm': 1.0909180641174316, 'learning_rate': 3.0842233733284866e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 249.09, 'epoch': 0.44}
 44%|█████████████████████████████████▏                                         | 142/321 [3:25:08<4:11:34, 84.32s/it] 45%|█████████████████████████████████▍                                         | 143/321 [3:26:32<4:10:27, 84.43s/it]                                                                                                                      {'loss': 0.9532, 'grad_norm': 1.0944827795028687, 'learning_rate': 3.0597965431656125e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 265.95, 'epoch': 0.44}
 45%|█████████████████████████████████▍                                         | 143/321 [3:26:33<4:10:27, 84.43s/it] 45%|█████████████████████████████████▋                                         | 144/321 [3:27:57<4:08:56, 84.39s/it]                                                                                                                      {'loss': 1.0587, 'grad_norm': 1.2467942237854004, 'learning_rate': 3.0353133183876745e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 262.63, 'epoch': 0.45}
 45%|█████████████████████████████████▋                                         | 144/321 [3:27:57<4:08:56, 84.39s/it] 45%|█████████████████████████████████▉                                         | 145/321 [3:29:21<4:07:34, 84.40s/it]                                                                                                                      {'loss': 1.031, 'grad_norm': 1.065109133720398, 'learning_rate': 3.0107761654658464e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 247.49, 'epoch': 0.45}
 45%|█████████████████████████████████▉                                         | 145/321 [3:29:21<4:07:34, 84.40s/it] 45%|██████████████████████████████████                                         | 146/321 [3:30:45<4:05:39, 84.23s/it]                                                                                                                      {'loss': 0.9158, 'grad_norm': 1.1226528882980347, 'learning_rate': 2.986187556304091e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 246.81, 'epoch': 0.45}
 45%|██████████████████████████████████                                         | 146/321 [3:30:45<4:05:39, 84.23s/it] 46%|██████████████████████████████████▎                                        | 147/321 [3:32:09<4:04:29, 84.31s/it]                                                                                                                      {'loss': 1.0666, 'grad_norm': 1.144322156906128, 'learning_rate': 2.961549967990139e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 241.92, 'epoch': 0.46}
 46%|██████████████████████████████████▎                                        | 147/321 [3:32:10<4:04:29, 84.31s/it] 46%|██████████████████████████████████▌                                        | 148/321 [3:33:34<4:03:04, 84.31s/it]                                                                                                                      {'loss': 1.0668, 'grad_norm': 1.135191559791565, 'learning_rate': 2.9368658825459452e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 240.09, 'epoch': 0.46}
 46%|██████████████████████████████████▌                                        | 148/321 [3:33:34<4:03:04, 84.31s/it] 46%|██████████████████████████████████▊                                        | 149/321 [3:34:58<4:01:45, 84.33s/it]                                                                                                                      {'loss': 0.9521, 'grad_norm': 1.0023117065429688, 'learning_rate': 2.912137786677639e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 260.22, 'epoch': 0.46}
 46%|██████████████████████████████████▊                                        | 149/321 [3:34:58<4:01:45, 84.33s/it] 47%|███████████████████████████████████                                        | 150/321 [3:36:23<4:00:38, 84.44s/it]                                                                                                                      {'loss': 1.034, 'grad_norm': 1.099552869796753, 'learning_rate': 2.8873681715250197e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 244.94, 'epoch': 0.47}
 47%|███████████████████████████████████                                        | 150/321 [3:36:23<4:00:38, 84.44s/it] 47%|███████████████████████████████████▎                                       | 151/321 [3:37:47<3:58:59, 84.35s/it]                                                                                                                      {'loss': 0.9944, 'grad_norm': 1.1635023355484009, 'learning_rate': 2.8625595324105925e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 217.02, 'epoch': 0.47}
 47%|███████████████████████████████████▎                                       | 151/321 [3:37:47<3:58:59, 84.35s/it] 47%|███████████████████████████████████▌                                       | 152/321 [3:39:11<3:57:27, 84.31s/it]                                                                                                                      {'loss': 0.8878, 'grad_norm': 1.003408670425415, 'learning_rate': 2.8377143685881835e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 255.49, 'epoch': 0.47}
 47%|███████████████████████████████████▌                                       | 152/321 [3:39:12<3:57:27, 84.31s/it] 48%|███████████████████████████████████▋                                       | 153/321 [3:40:36<3:56:19, 84.40s/it]                                                                                                                      {'loss': 1.0171, 'grad_norm': 1.1482794284820557, 'learning_rate': 2.812835182991166e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 270.83, 'epoch': 0.48}
 48%|███████████████████████████████████▋                                       | 153/321 [3:40:36<3:56:19, 84.40s/it] 48%|███████████████████████████████████▉                                       | 154/321 [3:42:00<3:54:38, 84.30s/it]                                                                                                                      {'loss': 0.9019, 'grad_norm': 1.0886751413345337, 'learning_rate': 2.7879244819803104e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 280.07, 'epoch': 0.48}
 48%|███████████████████████████████████▉                                       | 154/321 [3:42:00<3:54:38, 84.30s/it] 48%|████████████████████████████████████▏                                      | 155/321 [3:43:24<3:53:32, 84.41s/it]                                                                                                                      {'loss': 0.9503, 'grad_norm': 1.1200906038284302, 'learning_rate': 2.7629847750912885e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 200.1, 'epoch': 0.48}
 48%|████████████████████████████████████▏                                      | 155/321 [3:43:25<3:53:32, 84.41s/it] 49%|████████████████████████████████████▍                                      | 156/321 [3:44:49<3:51:58, 84.36s/it]                                                                                                                      {'loss': 1.0338, 'grad_norm': 1.2571245431900024, 'learning_rate': 2.7380185747818628e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 218.37, 'epoch': 0.49}
 49%|████████████████████████████████████▍                                      | 156/321 [3:44:49<3:51:58, 84.36s/it] 49%|████████████████████████████████████▋                                      | 157/321 [3:46:13<3:50:26, 84.31s/it]                                                                                                                      {'loss': 1.1125, 'grad_norm': 1.215632438659668, 'learning_rate': 2.713028396178776e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 244.39, 'epoch': 0.49}
 49%|████████████████████████████████████▋                                      | 157/321 [3:46:13<3:50:26, 84.31s/it] 49%|████████████████████████████████████▉                                      | 158/321 [3:47:36<3:48:31, 84.12s/it]                                                                                                                      {'loss': 0.931, 'grad_norm': 1.0532673597335815, 'learning_rate': 2.6880167568243716e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 267.16, 'epoch': 0.49}
 49%|████████████████████████████████████▉                                      | 158/321 [3:47:37<3:48:31, 84.12s/it] 50%|█████████████████████████████████████▏                                     | 159/321 [3:49:01<3:47:28, 84.25s/it]                                                                                                                      {'loss': 1.0284, 'grad_norm': 1.187434434890747, 'learning_rate': 2.6629861764229824e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 241.21, 'epoch': 0.49}
 50%|█████████████████████████████████████▏                                     | 159/321 [3:49:02<3:47:28, 84.25s/it] 50%|█████████████████████████████████████▍                                     | 160/321 [3:50:26<3:46:33, 84.43s/it]                                                                                                                      {'loss': 1.0686, 'grad_norm': 1.2007198333740234, 'learning_rate': 2.6379391765870828e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 247.31, 'epoch': 0.5}
 50%|█████████████████████████████████████▍                                     | 160/321 [3:50:26<3:46:33, 84.43s/it] 50%|█████████████████████████████████████▌                                     | 161/321 [3:51:50<3:44:43, 84.27s/it]                                                                                                                      {'loss': 0.9932, 'grad_norm': 1.0815006494522095, 'learning_rate': 2.6128782805832605e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 261.2, 'epoch': 0.5}
 50%|█████████████████████████████████████▌                                     | 161/321 [3:51:50<3:44:43, 84.27s/it] 50%|█████████████████████████████████████▊                                     | 162/321 [3:53:15<3:44:00, 84.53s/it]                                                                                                                      {'loss': 0.9761, 'grad_norm': 1.0441396236419678, 'learning_rate': 2.5878060130780225e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 242.26, 'epoch': 0.5}
 50%|█████████████████████████████████████▊                                     | 162/321 [3:53:15<3:44:00, 84.53s/it][2025-11-24 00:05:17,558] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:56413] Running evaluation step...
[2025-11-24 00:05:19,330] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:56413] generate_batches time: 0.8684334754943848
[2025-11-24 00:05:20,204] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:56413] generate_batches time: 0.8733880519866943
[2025-11-24 00:05:21,077] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:56413] generate_batches time: 0.8724789619445801
[2025-11-24 00:05:21,969] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:56413] generate_batches time: 0.8925192356109619
[2025-11-24 00:05:23,852] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:434] [PID:56413] gather_len_batches: [28, 28]

  0%|                                                                                          | 0/14 [00:00<?, ?it/s][A
 14%|███████████▋                                                                      | 2/14 [00:05<00:33,  2.79s/it][A
 21%|█████████████████▌                                                                | 3/14 [00:10<00:39,  3.56s/it][A
 29%|███████████████████████▍                                                          | 4/14 [00:14<00:39,  3.93s/it][A
 36%|█████████████████████████████▎                                                    | 5/14 [00:19<00:37,  4.15s/it][A
 43%|███████████████████████████████████▏                                              | 6/14 [00:23<00:34,  4.29s/it][A
 50%|█████████████████████████████████████████                                         | 7/14 [00:28<00:30,  4.40s/it][A
 57%|██████████████████████████████████████████████▊                                   | 8/14 [00:33<00:26,  4.45s/it][A
 64%|████████████████████████████████████████████████████▋                             | 9/14 [00:37<00:22,  4.54s/it][A
 71%|█████████████████████████████████████████████████████████▊                       | 10/14 [00:42<00:18,  4.56s/it][A
 79%|███████████████████████████████████████████████████████████████▋                 | 11/14 [00:47<00:13,  4.57s/it][A
 86%|█████████████████████████████████████████████████████████████████████▍           | 12/14 [00:51<00:09,  4.56s/it][A
 93%|███████████████████████████████████████████████████████████████████████████▏     | 13/14 [00:56<00:04,  4.55s/it][A
100%|█████████████████████████████████████████████████████████████████████████████████| 14/14 [01:00<00:00,  4.58s/it][A                                                                                                                      
                                                                                                                      [A{'eval_loss': 0.9381009340286255, 'eval_runtime': 65.7653, 'eval_samples_per_second': 3.041, 'eval_steps_per_second': 1.521, 'memory/max_active (GiB)': 5.33, 'memory/max_allocated (GiB)': 5.33, 'memory/device_reserved (GiB)': 7.96, 'epoch': 0.5}
 50%|█████████████████████████████████████▊                                     | 162/321 [3:54:27<3:44:00, 84.53s/it]
100%|█████████████████████████████████████████████████████████████████████████████████| 14/14 [01:00<00:00,  4.58s/it][A
                                                                                                                      [A[2025-11-24 00:06:29,625] [WARNING] [py.warnings._showwarnmsg:110] [PID:56413] /root/miniconda3/envs/py3.11/lib/python3.11/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:680: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  warnings.warn(

[2025-11-24 00:07:03,285] [INFO] [axolotl.core.trainers.base._save:671] [PID:56413] Saving model checkpoint to apertus-12b-nonzero-trained/cpt-part2-instruct-part1/checkpoint-162
 51%|█████████████████████████████████████▌                                    | 163/321 [3:58:13<6:31:39, 148.73s/it]                                                                                                                      {'loss': 0.946, 'grad_norm': 1.112912654876709, 'learning_rate': 2.562724899883458e-06, 'memory/max_active (GiB)': 10.52, 'memory/max_allocated (GiB)': 10.52, 'memory/device_reserved (GiB)': 22.21, 'tokens_per_second_per_gpu': 170.34, 'epoch': 0.51}
 51%|█████████████████████████████████████▌                                    | 163/321 [3:58:15<6:31:39, 148.73s/it] 51%|█████████████████████████████████████▊                                    | 164/321 [3:59:41<5:41:04, 130.35s/it]                                                                                                                      {'loss': 1.0585, 'grad_norm': 1.1496325731277466, 'learning_rate': 2.537637467702777e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 260.09, 'epoch': 0.51}
 51%|█████████████████████████████████████▊                                    | 164/321 [3:59:41<5:41:04, 130.35s/it] 51%|██████████████████████████████████████                                    | 165/321 [4:01:05<5:02:40, 116.41s/it]                                                                                                                      {'loss': 1.0054, 'grad_norm': 1.1854218244552612, 'learning_rate': 2.512546243875776e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 267.08, 'epoch': 0.51}
 51%|██████████████████████████████████████                                    | 165/321 [4:01:05<5:02:40, 116.41s/it] 52%|██████████████████████████████████████▎                                   | 166/321 [4:02:29<4:36:04, 106.87s/it]                                                                                                                      {'loss': 1.0774, 'grad_norm': 1.1840040683746338, 'learning_rate': 2.4874537561242253e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 219.36, 'epoch': 0.52}
 52%|██████████████████████████████████████▎                                   | 166/321 [4:02:30<4:36:04, 106.87s/it] 52%|██████████████████████████████████████▍                                   | 167/321 [4:03:54<4:16:48, 100.05s/it]                                                                                                                      {'loss': 0.9828, 'grad_norm': 1.0664703845977783, 'learning_rate': 2.462362532297224e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 268.79, 'epoch': 0.52}
 52%|██████████████████████████████████████▍                                   | 167/321 [4:03:54<4:16:48, 100.05s/it] 52%|███████████████████████████████████████▎                                   | 168/321 [4:05:18<4:03:15, 95.39s/it]                                                                                                                      {'loss': 0.9803, 'grad_norm': 1.110974907875061, 'learning_rate': 2.4372751001165427e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 240.31, 'epoch': 0.52}
 52%|███████████████████████████████████████▎                                   | 168/321 [4:05:19<4:03:15, 95.39s/it] 53%|███████████████████████████████████████▍                                   | 169/321 [4:06:42<3:52:48, 91.90s/it]                                                                                                                      {'loss': 0.959, 'grad_norm': 1.1394504308700562, 'learning_rate': 2.4121939869219784e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 250.38, 'epoch': 0.53}
 53%|███████████████████████████████████████▍                                   | 169/321 [4:06:42<3:52:48, 91.90s/it] 53%|███████████████████████████████████████▋                                   | 170/321 [4:08:07<3:46:19, 89.93s/it]                                                                                                                      {'loss': 1.0489, 'grad_norm': 1.094244360923767, 'learning_rate': 2.3871217194167407e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 202.03, 'epoch': 0.53}
 53%|███████████████████████████████████████▋                                   | 170/321 [4:08:08<3:46:19, 89.93s/it] 53%|███████████████████████████████████████▉                                   | 171/321 [4:09:31<3:40:38, 88.26s/it]                                                                                                                      {'loss': 1.1694, 'grad_norm': 1.1464594602584839, 'learning_rate': 2.362060823412919e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 298.67, 'epoch': 0.53}
 53%|███████████████████████████████████████▉                                   | 171/321 [4:09:32<3:40:38, 88.26s/it] 54%|████████████████████████████████████████▏                                  | 172/321 [4:10:56<3:36:08, 87.04s/it]                                                                                                                      {'loss': 1.0414, 'grad_norm': 1.06938636302948, 'learning_rate': 2.3370138235770184e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 252.29, 'epoch': 0.53}
 54%|████████████████████████████████████████▏                                  | 172/321 [4:10:56<3:36:08, 87.04s/it] 54%|████████████████████████████████████████▍                                  | 173/321 [4:12:20<3:32:59, 86.35s/it]                                                                                                                      {'loss': 1.0678, 'grad_norm': 1.2457433938980103, 'learning_rate': 2.3119832431756284e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 182.26, 'epoch': 0.54}
 54%|████████████████████████████████████████▍                                  | 173/321 [4:12:21<3:32:59, 86.35s/it] 54%|████████████████████████████████████████▋                                  | 174/321 [4:13:44<3:29:50, 85.65s/it]                                                                                                                      {'loss': 1.0005, 'grad_norm': 1.0913677215576172, 'learning_rate': 2.286971603821226e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 263.56, 'epoch': 0.54}
 54%|████████████████████████████████████████▋                                  | 174/321 [4:13:45<3:29:50, 85.65s/it] 55%|████████████████████████████████████████▉                                  | 175/321 [4:15:09<3:27:35, 85.31s/it]                                                                                                                      {'loss': 0.9663, 'grad_norm': 1.0227277278900146, 'learning_rate': 2.261981425218138e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 243.96, 'epoch': 0.54}
 55%|████████████████████████████████████████▉                                  | 175/321 [4:15:09<3:27:35, 85.31s/it] 55%|█████████████████████████████████████████                                  | 176/321 [4:16:33<3:25:08, 84.88s/it]                                                                                                                      {'loss': 1.0276, 'grad_norm': 1.1219170093536377, 'learning_rate': 2.2370152249087114e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 276.66, 'epoch': 0.55}
 55%|█████████████████████████████████████████                                  | 176/321 [4:16:33<3:25:08, 84.88s/it] 55%|█████████████████████████████████████████▎                                 | 177/321 [4:17:57<3:23:11, 84.66s/it]                                                                                                                      {'loss': 0.938, 'grad_norm': 1.0849862098693848, 'learning_rate': 2.2120755180196904e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 238.61, 'epoch': 0.55}
 55%|█████████████████████████████████████████▎                                 | 177/321 [4:17:58<3:23:11, 84.66s/it] 55%|█████████████████████████████████████████▌                                 | 178/321 [4:19:21<3:21:12, 84.43s/it]                                                                                                                      {'loss': 1.0311, 'grad_norm': 1.2568954229354858, 'learning_rate': 2.1871648170088347e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 235.23, 'epoch': 0.55}
 55%|█████████████████████████████████████████▌                                 | 178/321 [4:19:21<3:21:12, 84.43s/it] 56%|█████████████████████████████████████████▊                                 | 179/321 [4:20:45<3:19:34, 84.33s/it]                                                                                                                      {'loss': 0.9932, 'grad_norm': 1.1091254949569702, 'learning_rate': 2.1622856314118178e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 284.74, 'epoch': 0.56}
 56%|█████████████████████████████████████████▊                                 | 179/321 [4:20:45<3:19:34, 84.33s/it] 56%|██████████████████████████████████████████                                 | 180/321 [4:22:10<3:18:39, 84.54s/it]                                                                                                                      {'loss': 1.0071, 'grad_norm': 1.0457913875579834, 'learning_rate': 2.1374404675894083e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 223.01, 'epoch': 0.56}
 56%|██████████████████████████████████████████                                 | 180/321 [4:22:11<3:18:39, 84.54s/it] 56%|██████████████████████████████████████████▎                                | 181/321 [4:23:34<3:16:57, 84.41s/it]                                                                                                                      {'loss': 1.0311, 'grad_norm': 1.1284812688827515, 'learning_rate': 2.1126318284749807e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 237.74, 'epoch': 0.56}
 56%|██████████████████████████████████████████▎                                | 181/321 [4:23:35<3:16:57, 84.41s/it] 57%|██████████████████████████████████████████▌                                | 182/321 [4:24:58<3:15:21, 84.33s/it]                                                                                                                      {'loss': 1.0926, 'grad_norm': 1.1905620098114014, 'learning_rate': 2.087862213322362e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 236.32, 'epoch': 0.57}
 57%|██████████████████████████████████████████▌                                | 182/321 [4:24:59<3:15:21, 84.33s/it] 57%|██████████████████████████████████████████▊                                | 183/321 [4:26:22<3:13:50, 84.28s/it]                                                                                                                      {'loss': 1.1385, 'grad_norm': 1.290487289428711, 'learning_rate': 2.063134117454055e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 244.39, 'epoch': 0.57}
 57%|██████████████████████████████████████████▊                                | 183/321 [4:26:23<3:13:50, 84.28s/it] 57%|██████████████████████████████████████████▉                                | 184/321 [4:27:46<3:12:00, 84.09s/it]                                                                                                                      {'loss': 1.0504, 'grad_norm': 1.194574236869812, 'learning_rate': 2.0384500320098604e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 272.71, 'epoch': 0.57}
 57%|██████████████████████████████████████████▉                                | 184/321 [4:27:47<3:12:00, 84.09s/it] 58%|███████████████████████████████████████████▏                               | 185/321 [4:29:10<3:10:36, 84.09s/it]                                                                                                                      {'loss': 0.9961, 'grad_norm': 1.0818146467208862, 'learning_rate': 2.01381244369591e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 277.23, 'epoch': 0.58}
 58%|███████████████████████████████████████████▏                               | 185/321 [4:29:11<3:10:36, 84.09s/it] 58%|███████████████████████████████████████████▍                               | 186/321 [4:30:34<3:09:01, 84.01s/it]                                                                                                                      {'loss': 1.1073, 'grad_norm': 1.256514072418213, 'learning_rate': 1.9892238345341544e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 268.38, 'epoch': 0.58}
 58%|███████████████████████████████████████████▍                               | 186/321 [4:30:35<3:09:01, 84.01s/it] 58%|███████████████████████████████████████████▋                               | 187/321 [4:31:58<3:07:46, 84.08s/it]                                                                                                                      {'loss': 1.053, 'grad_norm': 1.0561461448669434, 'learning_rate': 1.964686681612327e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 269.69, 'epoch': 0.58}
 58%|███████████████████████████████████████████▋                               | 187/321 [4:31:59<3:07:46, 84.08s/it] 59%|███████████████████████████████████████████▉                               | 188/321 [4:33:22<3:06:16, 84.03s/it]                                                                                                                      {'loss': 0.9842, 'grad_norm': 1.1104298830032349, 'learning_rate': 1.9402034568343888e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 248.65, 'epoch': 0.58}
 59%|███████████████████████████████████████████▉                               | 188/321 [4:33:23<3:06:16, 84.03s/it] 59%|████████████████████████████████████████████▏                              | 189/321 [4:34:46<3:05:03, 84.12s/it]                                                                                                                      {'loss': 1.0516, 'grad_norm': 1.1195905208587646, 'learning_rate': 1.9157766266715142e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 249.02, 'epoch': 0.59}
 59%|████████████████████████████████████████████▏                              | 189/321 [4:34:47<3:05:03, 84.12s/it] 59%|████████████████████████████████████████████▍                              | 190/321 [4:36:11<3:04:09, 84.35s/it]                                                                                                                      {'loss': 1.0985, 'grad_norm': 1.3045098781585693, 'learning_rate': 1.8914086519136133e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 287.58, 'epoch': 0.59}
 59%|████████████████████████████████████████████▍                              | 190/321 [4:36:12<3:04:09, 84.35s/it] 60%|████████████████████████████████████████████▋                              | 191/321 [4:37:35<3:02:33, 84.26s/it]                                                                                                                      {'loss': 0.9277, 'grad_norm': 1.0648003816604614, 'learning_rate': 1.8671019874214237e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 261.3, 'epoch': 0.59}
 60%|████████████████████████████████████████████▋                              | 191/321 [4:37:36<3:02:33, 84.26s/it] 60%|████████████████████████████████████████████▊                              | 192/321 [4:38:59<3:00:58, 84.18s/it]                                                                                                                      {'loss': 0.8614, 'grad_norm': 1.017914056777954, 'learning_rate': 1.8428590818792135e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 293.93, 'epoch': 0.6}
 60%|████████████████████████████████████████████▊                              | 192/321 [4:39:00<3:00:58, 84.18s/it] 60%|█████████████████████████████████████████████                              | 193/321 [4:40:24<2:59:44, 84.25s/it]                                                                                                                      {'loss': 0.9765, 'grad_norm': 1.1081737279891968, 'learning_rate': 1.8186823775480917e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 265.35, 'epoch': 0.6}
 60%|█████████████████████████████████████████████                              | 193/321 [4:40:24<2:59:44, 84.25s/it] 60%|█████████████████████████████████████████████▎                             | 194/321 [4:41:48<2:58:08, 84.16s/it]                                                                                                                      {'loss': 1.0352, 'grad_norm': 1.0698168277740479, 'learning_rate': 1.7945743100199706e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 257.14, 'epoch': 0.6}
 60%|█████████████████████████████████████████████▎                             | 194/321 [4:41:48<2:58:08, 84.16s/it] 61%|█████████████████████████████████████████████▌                             | 195/321 [4:43:12<2:56:45, 84.17s/it]                                                                                                                      {'loss': 0.8613, 'grad_norm': 1.059094786643982, 'learning_rate': 1.7705373079722083e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 273.85, 'epoch': 0.61}
 61%|█████████████████████████████████████████████▌                             | 195/321 [4:43:12<2:56:45, 84.17s/it] 61%|█████████████████████████████████████████████▊                             | 196/321 [4:44:36<2:55:15, 84.12s/it]                                                                                                                      {'loss': 1.0066, 'grad_norm': 1.116012692451477, 'learning_rate': 1.7465737929229317e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 257.33, 'epoch': 0.61}
 61%|█████████████████████████████████████████████▊                             | 196/321 [4:44:36<2:55:15, 84.12s/it] 61%|██████████████████████████████████████████████                             | 197/321 [4:46:01<2:54:10, 84.28s/it]                                                                                                                      {'loss': 1.0308, 'grad_norm': 1.0928958654403687, 'learning_rate': 1.722686178987097e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 251.66, 'epoch': 0.61}
 61%|██████████████████████████████████████████████                             | 197/321 [4:46:01<2:54:10, 84.28s/it] 62%|██████████████████████████████████████████████▎                            | 198/321 [4:47:25<2:52:42, 84.25s/it]                                                                                                                      {'loss': 0.995, 'grad_norm': 1.023337960243225, 'learning_rate': 1.6988768726332856e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 278.19, 'epoch': 0.62}
 62%|██████████████████████████████████████████████▎                            | 198/321 [4:47:25<2:52:42, 84.25s/it] 62%|██████████████████████████████████████████████▍                            | 199/321 [4:48:49<2:51:20, 84.26s/it]                                                                                                                      {'loss': 1.0271, 'grad_norm': 1.0589625835418701, 'learning_rate': 1.6751482724412716e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 287.96, 'epoch': 0.62}
 62%|██████████████████████████████████████████████▍                            | 199/321 [4:48:50<2:51:20, 84.26s/it] 62%|██████████████████████████████████████████████▋                            | 200/321 [4:50:14<2:50:08, 84.36s/it]                                                                                                                      {'loss': 1.0333, 'grad_norm': 1.1294515132904053, 'learning_rate': 1.651502768860389e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 263.53, 'epoch': 0.62}
 62%|██████████████████████████████████████████████▋                            | 200/321 [4:50:14<2:50:08, 84.36s/it] 63%|██████████████████████████████████████████████▉                            | 201/321 [4:51:38<2:48:31, 84.27s/it]                                                                                                                      {'loss': 0.8891, 'grad_norm': 1.1605868339538574, 'learning_rate': 1.6279427439687154e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 261.75, 'epoch': 0.62}
 63%|██████████████████████████████████████████████▉                            | 201/321 [4:51:38<2:48:31, 84.27s/it] 63%|███████████████████████████████████████████████▏                           | 202/321 [4:53:01<2:46:47, 84.09s/it]                                                                                                                      {'loss': 0.9938, 'grad_norm': 1.1702234745025635, 'learning_rate': 1.6044705712330932e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 244.23, 'epoch': 0.63}
 63%|███████████████████████████████████████████████▏                           | 202/321 [4:53:02<2:46:47, 84.09s/it] 63%|███████████████████████████████████████████████▍                           | 203/321 [4:54:26<2:45:33, 84.18s/it]                                                                                                                      {'loss': 1.0815, 'grad_norm': 1.2182884216308594, 'learning_rate': 1.5810886152700302e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 275.96, 'epoch': 0.63}
 63%|███████████████████████████████████████████████▍                           | 203/321 [4:54:26<2:45:33, 84.18s/it] 64%|███████████████████████████████████████████████▋                           | 204/321 [4:55:50<2:43:58, 84.09s/it]                                                                                                                      {'loss': 0.9183, 'grad_norm': 1.1190128326416016, 'learning_rate': 1.5577992316074783e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 255.61, 'epoch': 0.63}
 64%|███████████████████████████████████████████████▋                           | 204/321 [4:55:50<2:43:58, 84.09s/it] 64%|███████████████████████████████████████████████▉                           | 205/321 [4:57:14<2:42:45, 84.18s/it]                                                                                                                      {'loss': 1.0041, 'grad_norm': 1.1254746913909912, 'learning_rate': 1.5346047664475422e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 258.89, 'epoch': 0.64}
 64%|███████████████████████████████████████████████▉                           | 205/321 [4:57:15<2:42:45, 84.18s/it] 64%|████████████████████████████████████████████████▏                          | 206/321 [4:58:38<2:41:19, 84.17s/it]                                                                                                                      {'loss': 0.8467, 'grad_norm': 1.0838048458099365, 'learning_rate': 1.511507556430114e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 210.54, 'epoch': 0.64}
 64%|████████████████████████████████████████████████▏                          | 206/321 [4:58:39<2:41:19, 84.17s/it] 64%|████████████████████████████████████████████████▎                          | 207/321 [5:00:02<2:39:55, 84.17s/it]                                                                                                                      {'loss': 1.0289, 'grad_norm': 1.092328667640686, 'learning_rate': 1.4885099283974774e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 266.7, 'epoch': 0.64}
 64%|████████████████████████████████████████████████▎                          | 207/321 [5:00:03<2:39:55, 84.17s/it] 65%|████████████████████████████████████████████████▌                          | 208/321 [5:01:26<2:38:14, 84.02s/it]                                                                                                                      {'loss': 1.0087, 'grad_norm': 1.0726559162139893, 'learning_rate': 1.465614199159905e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 276.76, 'epoch': 0.65}
 65%|████████████████████████████████████████████████▌                          | 208/321 [5:01:27<2:38:14, 84.02s/it] 65%|████████████████████████████████████████████████▊                          | 209/321 [5:02:50<2:36:57, 84.08s/it]                                                                                                                      {'loss': 1.0155, 'grad_norm': 1.1290485858917236, 'learning_rate': 1.4428226752622509e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 288.07, 'epoch': 0.65}
 65%|████████████████████████████████████████████████▊                          | 209/321 [5:02:51<2:36:57, 84.08s/it] 65%|█████████████████████████████████████████████████                          | 210/321 [5:04:15<2:35:59, 84.32s/it]                                                                                                                      {'loss': 1.0551, 'grad_norm': 1.1111782789230347, 'learning_rate': 1.420137652751593e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 217.5, 'epoch': 0.65}
 65%|█████████████████████████████████████████████████                          | 210/321 [5:04:16<2:35:59, 84.32s/it] 66%|█████████████████████████████████████████████████▎                         | 211/321 [5:05:39<2:34:22, 84.21s/it]                                                                                                                      {'loss': 1.0287, 'grad_norm': 1.2353746891021729, 'learning_rate': 1.3975614169459253e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 285.27, 'epoch': 0.66}
 66%|█████████████████████████████████████████████████▎                         | 211/321 [5:05:40<2:34:22, 84.21s/it] 66%|█████████████████████████████████████████████████▌                         | 212/321 [5:07:03<2:32:46, 84.10s/it]                                                                                                                      {'loss': 1.0155, 'grad_norm': 1.122206449508667, 'learning_rate': 1.3750962422039269e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 244.15, 'epoch': 0.66}
 66%|█████████████████████████████████████████████████▌                         | 212/321 [5:07:03<2:32:46, 84.10s/it] 66%|█████████████████████████████████████████████████▊                         | 213/321 [5:08:28<2:31:46, 84.32s/it]                                                                                                                      {'loss': 0.9299, 'grad_norm': 1.0615808963775635, 'learning_rate': 1.3527443916958466e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 245.75, 'epoch': 0.66}
 66%|█████████████████████████████████████████████████▊                         | 213/321 [5:08:28<2:31:46, 84.32s/it] 67%|██████████████████████████████████████████████████                         | 214/321 [5:09:52<2:30:15, 84.25s/it]                                                                                                                      {'loss': 0.9946, 'grad_norm': 1.172391653060913, 'learning_rate': 1.3305081171755092e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 216.4, 'epoch': 0.67}
 67%|██████████████████████████████████████████████████                         | 214/321 [5:09:52<2:30:15, 84.25s/it] 67%|██████████████████████████████████████████████████▏                        | 215/321 [5:11:18<2:29:49, 84.81s/it]                                                                                                                      {'loss': 0.9605, 'grad_norm': 1.121498942375183, 'learning_rate': 1.3083896587534606e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 244.61, 'epoch': 0.67}
 67%|██████████████████████████████████████████████████▏                        | 215/321 [5:11:18<2:29:49, 84.81s/it] 67%|██████████████████████████████████████████████████▍                        | 216/321 [5:12:42<2:28:02, 84.59s/it]                                                                                                                      {'loss': 1.0718, 'grad_norm': 1.1676145792007446, 'learning_rate': 1.2863912446713084e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 279.47, 'epoch': 0.67}
 67%|██████████████████████████████████████████████████▍                        | 216/321 [5:12:43<2:28:02, 84.59s/it] 68%|██████████████████████████████████████████████████▋                        | 217/321 [5:14:06<2:26:08, 84.31s/it]                                                                                                                      {'loss': 1.0508, 'grad_norm': 1.1473935842514038, 'learning_rate': 1.2645150910772413e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 231.37, 'epoch': 0.67}
 68%|██████████████████████████████████████████████████▋                        | 217/321 [5:14:06<2:26:08, 84.31s/it] 68%|██████████████████████████████████████████████████▉                        | 218/321 [5:15:30<2:24:41, 84.29s/it]                                                                                                                      {'loss': 0.9644, 'grad_norm': 1.080910086631775, 'learning_rate': 1.2427634018027673e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 226.84, 'epoch': 0.68}
 68%|██████████████████████████████████████████████████▉                        | 218/321 [5:15:30<2:24:41, 84.29s/it] 68%|███████████████████████████████████████████████████▏                       | 219/321 [5:16:54<2:23:20, 84.32s/it]                                                                                                                      {'loss': 0.939, 'grad_norm': 1.0595552921295166, 'learning_rate': 1.2211383681407022e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 238.29, 'epoch': 0.68}
 68%|███████████████████████████████████████████████████▏                       | 219/321 [5:16:55<2:23:20, 84.32s/it] 69%|███████████████████████████████████████████████████▍                       | 220/321 [5:18:19<2:22:13, 84.49s/it]                                                                                                                      {'loss': 1.0639, 'grad_norm': 1.0457508563995361, 'learning_rate': 1.1996421686244179e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 262.67, 'epoch': 0.68}
 69%|███████████████████████████████████████████████████▍                       | 220/321 [5:18:20<2:22:13, 84.49s/it] 69%|███████████████████████████████████████████████████▋                       | 221/321 [5:19:43<2:20:41, 84.42s/it]                                                                                                                      {'loss': 0.8781, 'grad_norm': 0.9589599370956421, 'learning_rate': 1.1782769688083647e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 296.69, 'epoch': 0.69}
 69%|███████████████████████████████████████████████████▋                       | 221/321 [5:19:44<2:20:41, 84.42s/it] 69%|███████████████████████████████████████████████████▊                       | 222/321 [5:21:08<2:19:07, 84.32s/it]                                                                                                                      {'loss': 0.9861, 'grad_norm': 1.1475130319595337, 'learning_rate': 1.1570449210499213e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 216.12, 'epoch': 0.69}
 69%|███████████████████████████████████████████████████▊                       | 222/321 [5:21:08<2:19:07, 84.32s/it] 69%|████████████████████████████████████████████████████                       | 223/321 [5:22:32<2:17:44, 84.33s/it]                                                                                                                      {'loss': 0.9971, 'grad_norm': 1.1211942434310913, 'learning_rate': 1.135948164292557e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 279.57, 'epoch': 0.69}
 69%|████████████████████████████████████████████████████                       | 223/321 [5:22:32<2:17:44, 84.33s/it] 70%|████████████████████████████████████████████████████▎                      | 224/321 [5:23:56<2:16:14, 84.27s/it]                                                                                                                      {'loss': 0.9648, 'grad_norm': 1.047781229019165, 'learning_rate': 1.1149888238503537e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 284.17, 'epoch': 0.7}
 70%|████████████████████████████████████████████████████▎                      | 224/321 [5:23:57<2:16:14, 84.27s/it] 70%|████████████████████████████████████████████████████▌                      | 225/321 [5:25:21<2:14:55, 84.33s/it]                                                                                                                      {'loss': 1.0801, 'grad_norm': 1.1516579389572144, 'learning_rate': 1.0941690111939002e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 262.78, 'epoch': 0.7}
 70%|████████████████████████████████████████████████████▌                      | 225/321 [5:25:21<2:14:55, 84.33s/it] 70%|████████████████████████████████████████████████████▊                      | 226/321 [5:26:45<2:13:34, 84.36s/it]                                                                                                                      {'loss': 0.9445, 'grad_norm': 1.0098861455917358, 'learning_rate': 1.0734908237375783e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 251.29, 'epoch': 0.7}
 70%|████████████████████████████████████████████████████▊                      | 226/321 [5:26:46<2:13:34, 84.36s/it] 71%|█████████████████████████████████████████████████████                      | 227/321 [5:28:09<2:12:05, 84.31s/it]                                                                                                                      {'loss': 1.1309, 'grad_norm': 1.3098565340042114, 'learning_rate': 1.0529563446282665e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 252.36, 'epoch': 0.71}
 71%|█████████████████████████████████████████████████████                      | 227/321 [5:28:10<2:12:05, 84.31s/it] 71%|█████████████████████████████████████████████████████▎                     | 228/321 [5:29:33<2:10:34, 84.24s/it]                                                                                                                      {'loss': 1.0352, 'grad_norm': 1.1672003269195557, 'learning_rate': 1.0325676425354828e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 262.74, 'epoch': 0.71}
 71%|█████████████████████████████████████████████████████▎                     | 228/321 [5:29:34<2:10:34, 84.24s/it] 71%|█████████████████████████████████████████████████████▌                     | 229/321 [5:30:57<2:09:05, 84.19s/it]                                                                                                                      {'loss': 0.9856, 'grad_norm': 1.0596116781234741, 'learning_rate': 1.0123267714429826e-06, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 267.44, 'epoch': 0.71}
 71%|█████████████████████████████████████████████████████▌                     | 229/321 [5:30:58<2:09:05, 84.19s/it] 72%|█████████████████████████████████████████████████████▋                     | 230/321 [5:32:22<2:08:08, 84.48s/it]                                                                                                                      {'loss': 0.8815, 'grad_norm': 1.134597659111023, 'learning_rate': 9.922357704418394e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 217.36, 'epoch': 0.72}
 72%|█████████████████████████████████████████████████████▋                     | 230/321 [5:32:23<2:08:08, 84.48s/it] 72%|█████████████████████████████████████████████████████▉                     | 231/321 [5:33:46<2:06:26, 84.30s/it]                                                                                                                      {'loss': 1.0184, 'grad_norm': 1.1056898832321167, 'learning_rate': 9.722966635250222e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 267.84, 'epoch': 0.72}
 72%|█████████████████████████████████████████████████████▉                     | 231/321 [5:33:47<2:06:26, 84.30s/it] 72%|██████████████████████████████████████████████████████▏                    | 232/321 [5:35:10<2:04:54, 84.21s/it]                                                                                                                      {'loss': 0.9684, 'grad_norm': 1.1118706464767456, 'learning_rate': 9.525114593834975e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 261.44, 'epoch': 0.72}
 72%|██████████████████████████████████████████████████████▏                    | 232/321 [5:35:11<2:04:54, 84.21s/it] 73%|██████████████████████████████████████████████████████▍                    | 233/321 [5:36:35<2:03:38, 84.31s/it]                                                                                                                      {'loss': 1.0317, 'grad_norm': 1.0323221683502197, 'learning_rate': 9.328821512038716e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 237.54, 'epoch': 0.72}
 73%|██████████████████████████████████████████████████████▍                    | 233/321 [5:36:35<2:03:38, 84.31s/it] 73%|██████████████████████████████████████████████████████▋                    | 234/321 [5:37:59<2:02:06, 84.21s/it]                                                                                                                      {'loss': 1.044, 'grad_norm': 1.1051764488220215, 'learning_rate': 9.134107164675898e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 258.3, 'epoch': 0.73}
 73%|██████████████████████████████████████████████████████▋                    | 234/321 [5:37:59<2:02:06, 84.21s/it] 73%|██████████████████████████████████████████████████████▉                    | 235/321 [5:39:23<2:00:52, 84.33s/it]                                                                                                                      {'loss': 1.0853, 'grad_norm': 1.1827173233032227, 'learning_rate': 8.940991167517313e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 245.2, 'epoch': 0.73}
 73%|██████████████████████████████████████████████████████▉                    | 235/321 [5:39:24<2:00:52, 84.33s/it] 74%|███████████████████████████████████████████████████████▏                   | 236/321 [5:40:47<1:59:18, 84.22s/it]                                                                                                                      {'loss': 0.9509, 'grad_norm': 1.075758934020996, 'learning_rate': 8.749492975313897e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 253.46, 'epoch': 0.73}
 74%|███████████████████████████████████████████████████████▏                   | 236/321 [5:40:48<1:59:18, 84.22s/it] 74%|███████████████████████████████████████████████████████▎                   | 237/321 [5:42:11<1:57:49, 84.16s/it]                                                                                                                      {'loss': 0.967, 'grad_norm': 1.1519496440887451, 'learning_rate': 8.559631879836838e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 276.2, 'epoch': 0.74}
 74%|███████████████████████████████████████████████████████▎                   | 237/321 [5:42:12<1:57:49, 84.16s/it] 74%|███████████████████████████████████████████████████████▌                   | 238/321 [5:43:35<1:56:20, 84.11s/it]                                                                                                                      {'loss': 0.951, 'grad_norm': 1.0192068815231323, 'learning_rate': 8.371427007934174e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 274.18, 'epoch': 0.74}
 74%|███████████████████████████████████████████████████████▌                   | 238/321 [5:43:36<1:56:20, 84.11s/it] 74%|███████████████████████████████████████████████████████▊                   | 239/321 [5:45:00<1:55:03, 84.19s/it]                                                                                                                      {'loss': 1.0073, 'grad_norm': 1.0550429821014404, 'learning_rate': 8.184897319603813e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 286.49, 'epoch': 0.74}
 74%|███████████████████████████████████████████████████████▊                   | 239/321 [5:45:00<1:55:03, 84.19s/it] 75%|████████████████████████████████████████████████████████                   | 240/321 [5:46:25<1:54:06, 84.53s/it]                                                                                                                      {'loss': 1.0637, 'grad_norm': 1.1591717004776, 'learning_rate': 8.000061606083579e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 236.97, 'epoch': 0.75}
 75%|████████████████████████████████████████████████████████                   | 240/321 [5:46:26<1:54:06, 84.53s/it] 75%|████████████████████████████████████████████████████████▎                  | 241/321 [5:47:50<1:52:51, 84.64s/it]                                                                                                                      {'loss': 0.9995, 'grad_norm': 1.053633689880371, 'learning_rate': 7.816938487958131e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 248.85, 'epoch': 0.75}
 75%|████████████████████████████████████████████████████████▎                  | 241/321 [5:47:51<1:52:51, 84.64s/it] 75%|████████████████████████████████████████████████████████▌                  | 242/321 [5:49:14<1:51:11, 84.45s/it]                                                                                                                      {'loss': 1.0043, 'grad_norm': 1.1090668439865112, 'learning_rate': 7.635546413283054e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 259.3, 'epoch': 0.75}
 75%|████████████████████████████████████████████████████████▌                  | 242/321 [5:49:15<1:51:11, 84.45s/it] 76%|████████████████████████████████████████████████████████▊                  | 243/321 [5:50:40<1:50:16, 84.83s/it]                                                                                                                      {'loss': 0.9729, 'grad_norm': 1.0594099760055542, 'learning_rate': 7.455903655726437e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 230.92, 'epoch': 0.76}
 76%|████████████████████████████████████████████████████████▊                  | 243/321 [5:50:40<1:50:16, 84.83s/it][2025-11-24 02:02:42,412] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:56413] Running evaluation step...
[2025-11-24 02:02:44,166] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:56413] generate_batches time: 0.8606412410736084
[2025-11-24 02:02:45,026] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:56413] generate_batches time: 0.8599286079406738
[2025-11-24 02:02:45,889] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:56413] generate_batches time: 0.8633642196655273
[2025-11-24 02:02:46,745] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:56413] generate_batches time: 0.8551990985870361
[2025-11-24 02:02:48,695] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:434] [PID:56413] gather_len_batches: [28, 28]

  0%|                                                                                          | 0/14 [00:00<?, ?it/s][A
 14%|███████████▋                                                                      | 2/14 [00:05<00:33,  2.79s/it][A
 21%|█████████████████▌                                                                | 3/14 [00:10<00:38,  3.53s/it][A
 29%|███████████████████████▍                                                          | 4/14 [00:14<00:39,  3.92s/it][A
 36%|█████████████████████████████▎                                                    | 5/14 [00:19<00:37,  4.13s/it][A
 43%|███████████████████████████████████▏                                              | 6/14 [00:23<00:34,  4.27s/it][A
 50%|█████████████████████████████████████████                                         | 7/14 [00:28<00:30,  4.40s/it][A
 57%|██████████████████████████████████████████████▊                                   | 8/14 [00:32<00:26,  4.44s/it][A
 64%|████████████████████████████████████████████████████▋                             | 9/14 [00:37<00:22,  4.53s/it][A
 71%|█████████████████████████████████████████████████████████▊                       | 10/14 [00:42<00:18,  4.56s/it][A
 79%|███████████████████████████████████████████████████████████████▋                 | 11/14 [00:46<00:13,  4.57s/it][A
 86%|█████████████████████████████████████████████████████████████████████▍           | 12/14 [00:51<00:09,  4.55s/it][A
 93%|███████████████████████████████████████████████████████████████████████████▏     | 13/14 [00:55<00:04,  4.54s/it][A
100%|█████████████████████████████████████████████████████████████████████████████████| 14/14 [01:00<00:00,  4.58s/it][A                                                                                                                      
                                                                                                                      [A{'eval_loss': 0.9329361319541931, 'eval_runtime': 65.6709, 'eval_samples_per_second': 3.045, 'eval_steps_per_second': 1.523, 'memory/max_active (GiB)': 5.33, 'memory/max_allocated (GiB)': 5.33, 'memory/device_reserved (GiB)': 7.96, 'epoch': 0.76}
 76%|████████████████████████████████████████████████████████▊                  | 243/321 [5:51:52<1:50:16, 84.83s/it]
100%|█████████████████████████████████████████████████████████████████████████████████| 14/14 [01:00<00:00,  4.58s/it][A
                                                                                                                      [A[2025-11-24 02:03:54,374] [WARNING] [py.warnings._showwarnmsg:110] [PID:56413] /root/miniconda3/envs/py3.11/lib/python3.11/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:680: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  warnings.warn(

[2025-11-24 02:04:28,018] [INFO] [axolotl.core.trainers.base._save:671] [PID:56413] Saving model checkpoint to apertus-12b-nonzero-trained/cpt-part2-instruct-part1/checkpoint-243
 76%|████████████████████████████████████████████████████████▏                 | 244/321 [5:55:37<3:10:38, 148.56s/it]                                                                                                                      {'loss': 0.9457, 'grad_norm': 1.0276963710784912, 'learning_rate': 7.278028312727961e-07, 'memory/max_active (GiB)': 10.52, 'memory/max_allocated (GiB)': 10.52, 'memory/device_reserved (GiB)': 22.21, 'tokens_per_second_per_gpu': 253.5, 'epoch': 0.76}
 76%|████████████████████████████████████████████████████████▏                 | 244/321 [5:55:38<3:10:38, 148.56s/it] 76%|████████████████████████████████████████████████████████▍                 | 245/321 [5:57:04<2:44:45, 130.07s/it]                                                                                                                      {'loss': 0.9978, 'grad_norm': 1.1874089241027832, 'learning_rate': 7.101938303675674e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 251.36, 'epoch': 0.76}
 76%|████████████████████████████████████████████████████████▍                 | 245/321 [5:57:04<2:44:45, 130.07s/it] 77%|████████████████████████████████████████████████████████▋                 | 246/321 [5:58:28<2:25:12, 116.17s/it]                                                                                                                      {'loss': 1.0106, 'grad_norm': 1.0439109802246094, 'learning_rate': 6.927651368100843e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 270.87, 'epoch': 0.76}
 77%|████████████████████████████████████████████████████████▋                 | 246/321 [5:58:28<2:25:12, 116.17s/it] 77%|████████████████████████████████████████████████████████▉                 | 247/321 [5:59:52<2:11:34, 106.68s/it]                                                                                                                      {'loss': 0.9494, 'grad_norm': 1.1237667798995972, 'learning_rate': 6.755185063890818e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 245.8, 'epoch': 0.77}
 77%|████████████████████████████████████████████████████████▉                 | 247/321 [5:59:53<2:11:34, 106.68s/it] 77%|█████████████████████████████████████████████████████████▉                 | 248/321 [6:01:17<2:01:39, 99.99s/it]                                                                                                                      {'loss': 1.0191, 'grad_norm': 1.0766805410385132, 'learning_rate': 6.584556765520231e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 237.51, 'epoch': 0.77}
 77%|█████████████████████████████████████████████████████████▉                 | 248/321 [6:01:17<2:01:39, 99.99s/it] 78%|██████████████████████████████████████████████████████████▏                | 249/321 [6:02:41<1:54:27, 95.38s/it]                                                                                                                      {'loss': 0.8837, 'grad_norm': 0.9258257746696472, 'learning_rate': 6.415783662300662e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 296.18, 'epoch': 0.77}
 78%|██████████████████████████████████████████████████████████▏                | 249/321 [6:02:42<1:54:27, 95.38s/it] 78%|██████████████████████████████████████████████████████████▍                | 250/321 [6:04:06<1:49:06, 92.20s/it]                                                                                                                      {'loss': 0.9587, 'grad_norm': 1.0103826522827148, 'learning_rate': 6.248882756648988e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 229.17, 'epoch': 0.78}
 78%|██████████████████████████████████████████████████████████▍                | 250/321 [6:04:07<1:49:06, 92.20s/it] 78%|██████████████████████████████████████████████████████████▋                | 251/321 [6:05:30<1:44:42, 89.76s/it]                                                                                                                      {'loss': 1.0377, 'grad_norm': 1.1081342697143555, 'learning_rate': 6.083870862374513e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 246.53, 'epoch': 0.78}
 78%|██████████████████████████████████████████████████████████▋                | 251/321 [6:05:31<1:44:42, 89.76s/it] 79%|██████████████████████████████████████████████████████████▉                | 252/321 [6:06:54<1:41:11, 87.99s/it]                                                                                                                      {'loss': 1.0436, 'grad_norm': 1.1047958135604858, 'learning_rate': 5.920764602985141e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 270.52, 'epoch': 0.78}
 79%|██████████████████████████████████████████████████████████▉                | 252/321 [6:06:54<1:41:11, 87.99s/it] 79%|███████████████████████████████████████████████████████████                | 253/321 [6:08:19<1:38:35, 87.00s/it]                                                                                                                      {'loss': 1.0627, 'grad_norm': 1.2016037702560425, 'learning_rate': 5.759580410012691e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 195.81, 'epoch': 0.79}
 79%|███████████████████████████████████████████████████████████                | 253/321 [6:08:19<1:38:35, 87.00s/it] 79%|███████████████████████████████████████████████████████████▎               | 254/321 [6:09:43<1:36:07, 86.09s/it]                                                                                                                      {'loss': 0.998, 'grad_norm': 1.0834356546401978, 'learning_rate': 5.600334521357581e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 242.21, 'epoch': 0.79}
 79%|███████████████████████████████████████████████████████████▎               | 254/321 [6:09:43<1:36:07, 86.09s/it] 79%|███████████████████████████████████████████████████████████▌               | 255/321 [6:11:07<1:34:09, 85.59s/it]                                                                                                                      {'loss': 0.9662, 'grad_norm': 0.9826862812042236, 'learning_rate': 5.443042979652957e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 291.44, 'epoch': 0.79}
 79%|███████████████████████████████████████████████████████████▌               | 255/321 [6:11:08<1:34:09, 85.59s/it] 80%|███████████████████████████████████████████████████████████▊               | 256/321 [6:12:31<1:32:18, 85.20s/it]                                                                                                                      {'loss': 1.0468, 'grad_norm': 1.1095789670944214, 'learning_rate': 5.287721630648615e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 266.3, 'epoch': 0.8}
 80%|███████████████████████████████████████████████████████████▊               | 256/321 [6:12:32<1:32:18, 85.20s/it] 80%|████████████████████████████████████████████████████████████               | 257/321 [6:13:55<1:30:33, 84.90s/it]                                                                                                                      {'loss': 0.9454, 'grad_norm': 1.0189043283462524, 'learning_rate': 5.134386121614615e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 249.46, 'epoch': 0.8}
 80%|████████████████████████████████████████████████████████████               | 257/321 [6:13:56<1:30:33, 84.90s/it] 80%|████████████████████████████████████████████████████████████▎              | 258/321 [6:15:20<1:28:56, 84.71s/it]                                                                                                                      {'loss': 1.1164, 'grad_norm': 1.1255347728729248, 'learning_rate': 4.983051899764946e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 263.7, 'epoch': 0.8}
 80%|████████████████████████████████████████████████████████████▎              | 258/321 [6:15:20<1:28:56, 84.71s/it] 81%|████████████████████████████████████████████████████████████▌              | 259/321 [6:16:44<1:27:24, 84.58s/it]                                                                                                                      {'loss': 1.035, 'grad_norm': 1.1415752172470093, 'learning_rate': 4.833734210701435e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 262.83, 'epoch': 0.81}
 81%|████████████████████████████████████████████████████████████▌              | 259/321 [6:16:45<1:27:24, 84.58s/it] 81%|████████████████████████████████████████████████████████████▋              | 260/321 [6:18:09<1:26:10, 84.76s/it]                                                                                                                      {'loss': 1.0225, 'grad_norm': 1.1672132015228271, 'learning_rate': 4.6864480968778103e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 215.62, 'epoch': 0.81}
 81%|████████████████████████████████████████████████████████████▋              | 260/321 [6:18:10<1:26:10, 84.76s/it] 81%|████████████████████████████████████████████████████████████▉              | 261/321 [6:19:33<1:24:34, 84.58s/it]                                                                                                                      {'loss': 1.0604, 'grad_norm': 1.246152639389038, 'learning_rate': 4.541208396084304e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 244.61, 'epoch': 0.81}
 81%|████████████████████████████████████████████████████████████▉              | 261/321 [6:19:34<1:24:34, 84.58s/it] 82%|█████████████████████████████████████████████████████████████▏             | 262/321 [6:20:57<1:23:01, 84.42s/it]                                                                                                                      {'loss': 0.9826, 'grad_norm': 1.0648834705352783, 'learning_rate': 4.39802973995295e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 267.21, 'epoch': 0.81}
 82%|█████████████████████████████████████████████████████████████▏             | 262/321 [6:20:58<1:23:01, 84.42s/it] 82%|█████████████████████████████████████████████████████████████▍             | 263/321 [6:22:22<1:21:45, 84.58s/it]                                                                                                                      {'loss': 0.8953, 'grad_norm': 1.028927206993103, 'learning_rate': 4.2569265524834756e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 250.7, 'epoch': 0.82}
 82%|█████████████████████████████████████████████████████████████▍             | 263/321 [6:22:23<1:21:45, 84.58s/it] 82%|█████████████████████████████████████████████████████████████▋             | 264/321 [6:23:46<1:20:09, 84.38s/it]                                                                                                                      {'loss': 0.9975, 'grad_norm': 1.1642611026763916, 'learning_rate': 4.117913048590283e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 217.58, 'epoch': 0.82}
 82%|█████████████████████████████████████████████████████████████▋             | 264/321 [6:23:47<1:20:09, 84.38s/it] 83%|█████████████████████████████████████████████████████████████▉             | 265/321 [6:25:10<1:18:39, 84.28s/it]                                                                                                                      {'loss': 1.0602, 'grad_norm': 1.1528633832931519, 'learning_rate': 3.9810032326704106e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 274.15, 'epoch': 0.82}
 83%|█████████████████████████████████████████████████████████████▉             | 265/321 [6:25:11<1:18:39, 84.28s/it] 83%|██████████████████████████████████████████████████████████████▏            | 266/321 [6:26:34<1:17:09, 84.17s/it]                                                                                                                      {'loss': 0.9829, 'grad_norm': 1.0524338483810425, 'learning_rate': 3.8462108971926564e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 285.43, 'epoch': 0.83}
 83%|██████████████████████████████████████████████████████████████▏            | 266/321 [6:26:35<1:17:09, 84.17s/it] 83%|██████████████████████████████████████████████████████████████▍            | 267/321 [6:27:59<1:15:51, 84.29s/it]                                                                                                                      {'loss': 0.9959, 'grad_norm': 1.0532660484313965, 'learning_rate': 3.713549621308174e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 263.35, 'epoch': 0.83}
 83%|██████████████████████████████████████████████████████████████▍            | 267/321 [6:27:59<1:15:51, 84.29s/it] 83%|██████████████████████████████████████████████████████████████▌            | 268/321 [6:29:23<1:14:21, 84.19s/it]                                                                                                                      {'loss': 0.9816, 'grad_norm': 1.112229347229004, 'learning_rate': 3.5830327694824777e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 224.88, 'epoch': 0.83}
 83%|██████████████████████████████████████████████████████████████▌            | 268/321 [6:29:23<1:14:21, 84.19s/it] 84%|██████████████████████████████████████████████████████████████▊            | 269/321 [6:30:47<1:13:01, 84.25s/it]                                                                                                                      {'loss': 0.8755, 'grad_norm': 0.9872240424156189, 'learning_rate': 3.4546734901490466e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 289.05, 'epoch': 0.84}
 84%|██████████████████████████████████████████████████████████████▊            | 269/321 [6:30:48<1:13:01, 84.25s/it] 84%|███████████████████████████████████████████████████████████████            | 270/321 [6:32:12<1:11:50, 84.52s/it]                                                                                                                      {'loss': 0.989, 'grad_norm': 1.0368531942367554, 'learning_rate': 3.3284847143847834e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 258.12, 'epoch': 0.84}
 84%|███████████████████████████████████████████████████████████████            | 270/321 [6:32:13<1:11:50, 84.52s/it] 84%|███████████████████████████████████████████████████████████████▎           | 271/321 [6:33:37<1:10:24, 84.49s/it]                                                                                                                      {'loss': 0.9384, 'grad_norm': 1.0477018356323242, 'learning_rate': 3.2044791546072985e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 245.31, 'epoch': 0.84}
 84%|███████████████████████████████████████████████████████████████▎           | 271/321 [6:33:37<1:10:24, 84.49s/it] 85%|███████████████████████████████████████████████████████████████▌           | 272/321 [6:35:01<1:08:55, 84.40s/it]                                                                                                                      {'loss': 0.9811, 'grad_norm': 1.171923041343689, 'learning_rate': 3.0826693032942586e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 225.1, 'epoch': 0.85}
 85%|███████████████████████████████████████████████████████████████▌           | 272/321 [6:35:01<1:08:55, 84.40s/it] 85%|███████████████████████████████████████████████████████████████▊           | 273/321 [6:36:26<1:07:37, 84.54s/it]                                                                                                                      {'loss': 0.9374, 'grad_norm': 1.0876950025558472, 'learning_rate': 2.963067431724856e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 214.39, 'epoch': 0.85}
 85%|███████████████████████████████████████████████████████████████▊           | 273/321 [6:36:26<1:07:37, 84.54s/it] 85%|████████████████████████████████████████████████████████████████           | 274/321 [6:37:50<1:06:06, 84.40s/it]                                                                                                                      {'loss': 1.0241, 'grad_norm': 1.053083062171936, 'learning_rate': 2.8456855887436074e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 238.82, 'epoch': 0.85}
 85%|████████████████████████████████████████████████████████████████           | 274/321 [6:37:50<1:06:06, 84.40s/it] 86%|████████████████████████████████████████████████████████████████▎          | 275/321 [6:39:14<1:04:40, 84.36s/it]                                                                                                                      {'loss': 1.0228, 'grad_norm': 1.186887502670288, 'learning_rate': 2.730535599546524e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 245.18, 'epoch': 0.86}
 86%|████████████████████████████████████████████████████████████████▎          | 275/321 [6:39:15<1:04:40, 84.36s/it] 86%|████████████████████████████████████████████████████████████████▍          | 276/321 [6:40:38<1:03:11, 84.26s/it]                                                                                                                      {'loss': 0.9747, 'grad_norm': 1.1423249244689941, 'learning_rate': 2.617629064489838e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 272.99, 'epoch': 0.86}
 86%|████████████████████████████████████████████████████████████████▍          | 276/321 [6:40:39<1:03:11, 84.26s/it] 86%|████████████████████████████████████████████████████████████████▋          | 277/321 [6:42:02<1:01:48, 84.28s/it]                                                                                                                      {'loss': 0.9884, 'grad_norm': 1.11011803150177, 'learning_rate': 2.50697735792135e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 273.86, 'epoch': 0.86}
 86%|████████████████████████████████████████████████████████████████▋          | 277/321 [6:42:03<1:01:48, 84.28s/it] 87%|████████████████████████████████████████████████████████████████▉          | 278/321 [6:43:26<1:00:17, 84.13s/it]                                                                                                                      {'loss': 1.0116, 'grad_norm': 1.1002124547958374, 'learning_rate': 2.398591627034588e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 272.84, 'epoch': 0.86}
 87%|████████████████████████████████████████████████████████████████▉          | 278/321 [6:43:27<1:00:17, 84.13s/it] 87%|██████████████████████████████████████████████████████████████████▉          | 279/321 [6:44:51<58:57, 84.21s/it]                                                                                                                      {'loss': 0.995, 'grad_norm': 1.1223676204681396, 'learning_rate': 2.2924827907457841e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 225.7, 'epoch': 0.87}
 87%|██████████████████████████████████████████████████████████████████▉          | 279/321 [6:44:51<58:57, 84.21s/it] 87%|███████████████████████████████████████████████████████████████████▏         | 280/321 [6:46:16<57:42, 84.46s/it]                                                                                                                      {'loss': 1.0682, 'grad_norm': 1.0870057344436646, 'learning_rate': 2.1886615385939502e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 250.45, 'epoch': 0.87}
 87%|███████████████████████████████████████████████████████████████████▏         | 280/321 [6:46:16<57:42, 84.46s/it] 88%|███████████████████████████████████████████████████████████████████▍         | 281/321 [6:47:40<56:11, 84.30s/it]                                                                                                                      {'loss': 0.9928, 'grad_norm': 1.1481472253799438, 'learning_rate': 2.0871383296639487e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 232.85, 'epoch': 0.87}
 88%|███████████████████████████████████████████████████████████████████▍         | 281/321 [6:47:40<56:11, 84.30s/it] 88%|███████████████████████████████████████████████████████████████████▋         | 282/321 [6:49:04<54:44, 84.23s/it]                                                                                                                      {'loss': 1.0073, 'grad_norm': 1.0759752988815308, 'learning_rate': 1.9879233915328312e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 258.56, 'epoch': 0.88}
 88%|███████████████████████████████████████████████████████████████████▋         | 282/321 [6:49:04<54:44, 84.23s/it] 88%|███████████████████████████████████████████████████████████████████▉         | 283/321 [6:50:28<53:25, 84.36s/it]                                                                                                                      {'loss': 0.917, 'grad_norm': 1.0300629138946533, 'learning_rate': 1.891026719239547e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 272.44, 'epoch': 0.88}
 88%|███████████████████████████████████████████████████████████████████▉         | 283/321 [6:50:29<53:25, 84.36s/it] 88%|████████████████████████████████████████████████████████████████████         | 284/321 [6:51:52<51:57, 84.25s/it]                                                                                                                      {'loss': 1.0037, 'grad_norm': 1.145206332206726, 'learning_rate': 1.7964580742779847e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 263.19, 'epoch': 0.88}
 88%|████████████████████████████████████████████████████████████████████         | 284/321 [6:51:53<51:57, 84.25s/it] 89%|████████████████████████████████████████████████████████████████████▎        | 285/321 [6:53:17<50:34, 84.28s/it]                                                                                                                      {'loss': 0.9455, 'grad_norm': 1.0800131559371948, 'learning_rate': 1.7042269836135882e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 249.78, 'epoch': 0.89}
 89%|████████████████████████████████████████████████████████████████████▎        | 285/321 [6:53:17<50:34, 84.28s/it] 89%|████████████████████████████████████████████████████████████████████▌        | 286/321 [6:54:41<49:10, 84.30s/it]                                                                                                                      {'loss': 0.9681, 'grad_norm': 1.1393862962722778, 'learning_rate': 1.6143427387236455e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 204.04, 'epoch': 0.89}
 89%|████████████████████████████████████████████████████████████████████▌        | 286/321 [6:54:42<49:10, 84.30s/it] 89%|████████████████████████████████████████████████████████████████████▊        | 287/321 [6:56:05<47:46, 84.30s/it]                                                                                                                      {'loss': 1.0741, 'grad_norm': 1.1298176050186157, 'learning_rate': 1.5268143946611802e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 216.31, 'epoch': 0.89}
 89%|████████████████████████████████████████████████████████████████████▊        | 287/321 [6:56:06<47:46, 84.30s/it] 90%|█████████████████████████████████████████████████████████████████████        | 288/321 [6:57:29<46:19, 84.23s/it]                                                                                                                      {'loss': 1.0059, 'grad_norm': 1.0830976963043213, 'learning_rate': 1.441650769142791e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 237.1, 'epoch': 0.9}
 90%|█████████████████████████████████████████████████████████████████████        | 288/321 [6:57:30<46:19, 84.23s/it] 90%|█████████████████████████████████████████████████████████████████████▎       | 289/321 [6:58:54<44:55, 84.24s/it]                                                                                                                      {'loss': 1.0377, 'grad_norm': 1.178301215171814, 'learning_rate': 1.3588604416603424e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 255.9, 'epoch': 0.9}
 90%|█████████████████████████████████████████████████████████████████████▎       | 289/321 [6:58:54<44:55, 84.24s/it] 90%|█████████████████████████████████████████████████████████████████████▌       | 290/321 [7:00:19<43:37, 84.42s/it]                                                                                                                      {'loss': 1.0237, 'grad_norm': 1.143678903579712, 'learning_rate': 1.278451752616608e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 245.98, 'epoch': 0.9}
 90%|█████████████████████████████████████████████████████████████████████▌       | 290/321 [7:00:19<43:37, 84.42s/it] 91%|█████████████████████████████████████████████████████████████████████▊       | 291/321 [7:01:42<42:07, 84.25s/it]                                                                                                                      {'loss': 1.0035, 'grad_norm': 1.100379228591919, 'learning_rate': 1.2004328024850938e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 281.75, 'epoch': 0.9}
 91%|█████████████████████████████████████████████████████████████████████▊       | 291/321 [7:01:43<42:07, 84.25s/it] 91%|██████████████████████████████████████████████████████████████████████       | 292/321 [7:03:06<40:42, 84.22s/it]                                                                                                                      {'loss': 1.0206, 'grad_norm': 1.086190938949585, 'learning_rate': 1.1248114509939817e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 275.82, 'epoch': 0.91}
 91%|██████████████████████████████████████████████████████████████████████       | 292/321 [7:03:07<40:42, 84.22s/it] 91%|██████████████████████████████████████████████████████████████████████▎      | 293/321 [7:04:31<39:23, 84.39s/it]                                                                                                                      {'loss': 0.9203, 'grad_norm': 1.0309393405914307, 'learning_rate': 1.0515953163342973e-07, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 234.63, 'epoch': 0.91}
 91%|██████████████████████████████████████████████████████████████████████▎      | 293/321 [7:04:32<39:23, 84.39s/it] 92%|██████████████████████████████████████████████████████████████████████▌      | 294/321 [7:05:55<37:55, 84.28s/it]                                                                                                                      {'loss': 1.0443, 'grad_norm': 1.1421688795089722, 'learning_rate': 9.807917743924838e-08, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 270.12, 'epoch': 0.91}
 92%|██████████████████████████████████████████████████████████████████████▌      | 294/321 [7:05:56<37:55, 84.28s/it] 92%|██████████████████████████████████████████████████████████████████████▊      | 295/321 [7:07:20<36:32, 84.33s/it]                                                                                                                      {'loss': 1.0123, 'grad_norm': 1.1251137256622314, 'learning_rate': 9.12407958007322e-08, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 205.26, 'epoch': 0.92}
 92%|██████████████████████████████████████████████████████████████████████▊      | 295/321 [7:07:20<36:32, 84.33s/it] 92%|███████████████████████████████████████████████████████████████████████      | 296/321 [7:08:44<35:05, 84.23s/it]                                                                                                                      {'loss': 1.0279, 'grad_norm': 1.165852427482605, 'learning_rate': 8.464507562513657e-08, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 263.57, 'epoch': 0.92}
 92%|███████████████████████████████████████████████████████████████████████      | 296/321 [7:08:44<35:05, 84.23s/it] 93%|███████████████████████████████████████████████████████████████████████▏     | 297/321 [7:10:08<33:44, 84.37s/it]                                                                                                                      {'loss': 1.0125, 'grad_norm': 1.0877114534378052, 'learning_rate': 7.829268137369311e-08, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 267.64, 'epoch': 0.92}
 93%|███████████████████████████████████████████████████████████████████████▏     | 297/321 [7:10:09<33:44, 84.37s/it] 93%|███████████████████████████████████████████████████████████████████████▍     | 298/321 [7:11:33<32:19, 84.30s/it]                                                                                                                      {'loss': 1.0324, 'grad_norm': 1.1169800758361816, 'learning_rate': 7.21842529946698e-08, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 255.54, 'epoch': 0.93}
 93%|███████████████████████████████████████████████████████████████████████▍     | 298/321 [7:11:33<32:19, 84.30s/it] 93%|███████████████████████████████████████████████████████████████████████▋     | 299/321 [7:12:57<30:55, 84.33s/it]                                                                                                                      {'loss': 1.0295, 'grad_norm': 1.071789264678955, 'learning_rate': 6.632040585890398e-08, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 263.58, 'epoch': 0.93}
 93%|███████████████████████████████████████████████████████████████████████▋     | 299/321 [7:12:58<30:55, 84.33s/it] 93%|███████████████████████████████████████████████████████████████████████▉     | 300/321 [7:14:22<29:35, 84.53s/it]                                                                                                                      {'loss': 0.9931, 'grad_norm': 1.0135157108306885, 'learning_rate': 6.070173069780638e-08, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 248.88, 'epoch': 0.93}
 93%|███████████████████████████████████████████████████████████████████████▉     | 300/321 [7:14:23<29:35, 84.53s/it] 94%|████████████████████████████████████████████████████████████████████████▏    | 301/321 [7:15:46<28:10, 84.51s/it]                                                                                                                      {'loss': 1.1831, 'grad_norm': 1.3325467109680176, 'learning_rate': 5.532879354385234e-08, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 186.27, 'epoch': 0.94}
 94%|████████████████████████████████████████████████████████████████████████▏    | 301/321 [7:15:47<28:10, 84.51s/it] 94%|████████████████████████████████████████████████████████████████████████▍    | 302/321 [7:17:10<26:42, 84.36s/it]                                                                                                                      {'loss': 1.0118, 'grad_norm': 1.229094386100769, 'learning_rate': 5.020213567355825e-08, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 252.47, 'epoch': 0.94}
 94%|████████████████████████████████████████████████████████████████████████▍    | 302/321 [7:17:11<26:42, 84.36s/it] 94%|████████████████████████████████████████████████████████████████████████▋    | 303/321 [7:18:35<25:20, 84.49s/it]                                                                                                                      {'loss': 1.0344, 'grad_norm': 1.151171088218689, 'learning_rate': 4.5322273552951265e-08, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 243.52, 'epoch': 0.94}
 94%|████████████████████████████████████████████████████████████████████████▋    | 303/321 [7:18:36<25:20, 84.49s/it] 95%|████████████████████████████████████████████████████████████████████████▉    | 304/321 [7:20:00<23:55, 84.41s/it]                                                                                                                      {'loss': 1.0096, 'grad_norm': 1.1340292692184448, 'learning_rate': 4.068969878554263e-08, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 226.97, 'epoch': 0.95}
 95%|████████████████████████████████████████████████████████████████████████▉    | 304/321 [7:20:00<23:55, 84.41s/it] 95%|█████████████████████████████████████████████████████████████████████████▏   | 305/321 [7:21:24<22:30, 84.42s/it]                                                                                                                      {'loss': 1.0326, 'grad_norm': 1.086549162864685, 'learning_rate': 3.630487806280086e-08, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 256.11, 'epoch': 0.95}
 95%|█████████████████████████████████████████████████████████████████████████▏   | 305/321 [7:21:24<22:30, 84.42s/it] 95%|█████████████████████████████████████████████████████████████████████████▍   | 306/321 [7:22:48<21:03, 84.26s/it]                                                                                                                      {'loss': 1.0156, 'grad_norm': 1.093493103981018, 'learning_rate': 3.216825311713689e-08, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 226.98, 'epoch': 0.95}
 95%|█████████████████████████████████████████████████████████████████████████▍   | 306/321 [7:22:48<21:03, 84.26s/it] 96%|█████████████████████████████████████████████████████████████████████████▋   | 307/321 [7:24:12<19:39, 84.26s/it]                                                                                                                      {'loss': 1.0178, 'grad_norm': 1.0298274755477905, 'learning_rate': 2.8280240677403813e-08, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 251.02, 'epoch': 0.95}
 96%|█████████████████████████████████████████████████████████████████████████▋   | 307/321 [7:24:13<19:39, 84.26s/it] 96%|█████████████████████████████████████████████████████████████████████████▉   | 308/321 [7:25:36<18:14, 84.18s/it]                                                                                                                      {'loss': 1.1557, 'grad_norm': 1.298093318939209, 'learning_rate': 2.464123242691574e-08, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 247.28, 'epoch': 0.96}
 96%|█████████████████████████████████████████████████████████████████████████▉   | 308/321 [7:25:37<18:14, 84.18s/it] 96%|██████████████████████████████████████████████████████████████████████████   | 309/321 [7:27:00<16:50, 84.21s/it]                                                                                                                      {'loss': 1.0865, 'grad_norm': 1.1392714977264404, 'learning_rate': 2.1251594963986876e-08, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 242.26, 'epoch': 0.96}
 96%|██████████████████████████████████████████████████████████████████████████   | 309/321 [7:27:01<16:50, 84.21s/it] 97%|██████████████████████████████████████████████████████████████████████████▎  | 310/321 [7:28:25<15:29, 84.46s/it]                                                                                                                      {'loss': 1.0349, 'grad_norm': 1.1343621015548706, 'learning_rate': 1.8111669765003005e-08, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 195.59, 'epoch': 0.96}
 97%|██████████████████████████████████████████████████████████████████████████▎  | 310/321 [7:28:26<15:29, 84.46s/it] 97%|██████████████████████████████████████████████████████████████████████████▌  | 311/321 [7:29:50<14:03, 84.35s/it]                                                                                                                      {'loss': 0.9925, 'grad_norm': 1.0840582847595215, 'learning_rate': 1.5221773150017882e-08, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 232.25, 'epoch': 0.97}
 97%|██████████████████████████████████████████████████████████████████████████▌  | 311/321 [7:29:50<14:03, 84.35s/it] 97%|██████████████████████████████████████████████████████████████████████████▊  | 312/321 [7:31:14<12:38, 84.27s/it]                                                                                                                      {'loss': 1.0411, 'grad_norm': 1.0409562587738037, 'learning_rate': 1.2582196250888745e-08, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 269.49, 'epoch': 0.97}
 97%|██████████████████████████████████████████████████████████████████████████▊  | 312/321 [7:31:14<12:38, 84.27s/it] 98%|███████████████████████████████████████████████████████████████████████████  | 313/321 [7:32:38<11:14, 84.33s/it]                                                                                                                      {'loss': 1.0589, 'grad_norm': 1.0978155136108398, 'learning_rate': 1.0193204981946426e-08, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 262.92, 'epoch': 0.97}
 98%|███████████████████████████████████████████████████████████████████████████  | 313/321 [7:32:39<11:14, 84.33s/it] 98%|███████████████████████████████████████████████████████████████████████████▎ | 314/321 [7:34:03<09:50, 84.37s/it]                                                                                                                      {'loss': 0.9217, 'grad_norm': 0.9597069025039673, 'learning_rate': 8.055040013207061e-09, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 256.45, 'epoch': 0.98}
 98%|███████████████████████████████████████████████████████████████████████████▎ | 314/321 [7:34:03<09:50, 84.37s/it] 98%|███████████████████████████████████████████████████████████████████████████▌ | 315/321 [7:35:27<08:26, 84.36s/it]                                                                                                                      {'loss': 0.952, 'grad_norm': 0.9624737501144409, 'learning_rate': 6.1679167461262124e-09, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 254.67, 'epoch': 0.98}
 98%|███████████████████████████████████████████████████████████████████████████▌ | 315/321 [7:35:27<08:26, 84.36s/it] 98%|███████████████████████████████████████████████████████████████████████████▊ | 316/321 [7:36:51<07:01, 84.29s/it]                                                                                                                      {'loss': 0.9395, 'grad_norm': 1.094836711883545, 'learning_rate': 4.53202529190011e-09, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 275.12, 'epoch': 0.98}
 98%|███████████████████████████████████████████████████████████████████████████▊ | 316/321 [7:36:52<07:01, 84.29s/it] 99%|████████████████████████████████████████████████████████████████████████████ | 317/321 [7:38:15<05:37, 84.27s/it]                                                                                                                      {'loss': 0.9859, 'grad_norm': 1.0334573984146118, 'learning_rate': 3.147530452311809e-09, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 275.6, 'epoch': 0.99}
 99%|████████████████████████████████████████████████████████████████████████████ | 317/321 [7:38:16<05:37, 84.27s/it] 99%|████████████████████████████████████████████████████████████████████████████▎| 318/321 [7:39:40<04:12, 84.33s/it]                                                                                                                      {'loss': 1.0089, 'grad_norm': 1.031736135482788, 'learning_rate': 2.01457170313113e-09, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 251.21, 'epoch': 0.99}
 99%|████████████████████████████████████████████████████████████████████████████▎| 318/321 [7:39:40<04:12, 84.33s/it] 99%|████████████████████████████████████████████████████████████████████████████▌| 319/321 [7:41:04<02:48, 84.32s/it]                                                                                                                      {'loss': 1.0596, 'grad_norm': 1.1985392570495605, 'learning_rate': 1.1332631800620164e-09, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 234.8, 'epoch': 0.99}
 99%|████████████████████████████████████████████████████████████████████████████▌| 319/321 [7:41:05<02:48, 84.32s/it]100%|████████████████████████████████████████████████████████████████████████████▊| 320/321 [7:42:29<01:24, 84.48s/it]                                                                                                                      {'loss': 0.9261, 'grad_norm': 0.9646783471107483, 'learning_rate': 5.036936672447868e-10, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 265.11, 'epoch': 0.99}
100%|████████████████████████████████████████████████████████████████████████████▊| 320/321 [7:42:29<01:24, 84.48s/it]100%|█████████████████████████████████████████████████████████████████████████████| 321/321 [7:43:54<00:00, 84.70s/it]                                                                                                                      {'loss': 1.0351, 'grad_norm': 1.0573352575302124, 'learning_rate': 1.2592658831245274e-10, 'memory/max_active (GiB)': 10.01, 'memory/max_allocated (GiB)': 10.01, 'memory/device_reserved (GiB)': 19.29, 'tokens_per_second_per_gpu': 275.29, 'epoch': 1.0}
100%|█████████████████████████████████████████████████████████████████████████████| 321/321 [7:43:55<00:00, 84.70s/it][2025-11-24 03:55:56,708] [WARNING] [py.warnings._showwarnmsg:110] [PID:56413] /root/miniconda3/envs/py3.11/lib/python3.11/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:680: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  warnings.warn(

[2025-11-24 03:56:30,153] [INFO] [axolotl.core.trainers.base._save:671] [PID:56413] Saving model checkpoint to apertus-12b-nonzero-trained/cpt-part2-instruct-part1/checkpoint-321
                                                                                                                      {'train_runtime': 27982.9678, 'train_samples_per_second': 0.184, 'train_steps_per_second': 0.011, 'train_loss': 1.0152113718035807, 'memory/max_active (GiB)': 10.52, 'memory/max_allocated (GiB)': 10.52, 'memory/device_reserved (GiB)': 10.69, 'epoch': 1.0}
100%|█████████████████████████████████████████████████████████████████████████████| 321/321 [7:46:19<00:00, 84.70s/it]100%|█████████████████████████████████████████████████████████████████████████████| 321/321 [7:46:19<00:00, 87.16s/it]
[2025-11-24 03:58:21,009] [INFO] [axolotl.train.save_trained_model:225] [PID:56413] Training completed! Saving trained model to apertus-12b-nonzero-trained/cpt-part2-instruct-part1.
[2025-11-24 03:58:21,011] [WARNING] [py.warnings._showwarnmsg:110] [PID:56413] /root/miniconda3/envs/py3.11/lib/python3.11/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:680: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  warnings.warn(

[2025-11-24 03:58:54,812] [INFO] [axolotl.core.trainers.base._save:671] [PID:56413] Saving model checkpoint to apertus-12b-nonzero-trained/cpt-part2-instruct-part1
[2025-11-24 03:59:31,246] [INFO] [axolotl.train.save_trained_model:346] [PID:56413] Model successfully saved to apertus-12b-nonzero-trained/cpt-part2-instruct-part1