diff --git "a/debug.log" "b/debug.log"
new file mode 100644--- /dev/null
+++ "b/debug.log"
@@ -0,0 +1,823 @@
+[2025-11-17 19:16:13,073] [DEBUG] [axolotl.utils.config.log_gpu_memory_usage:127] [PID:26868] baseline 0.000GB ()
+[2025-11-17 19:16:13,073] [INFO] [axolotl.cli.config.load_cfg:248] [PID:26868] config:
+{
+  "activation_offloading": false,
+  "adapter": "lora",
+  "axolotl_config_path": "seedcoder.yaml",
+  "base_model": "ByteDance-Seed/Seed-Coder-8B-Instruct",
+  "base_model_config": "ByteDance-Seed/Seed-Coder-8B-Instruct",
+  "batch_size": 64,
+  "bf16": true,
+  "capabilities": {
+    "bf16": true,
+    "compute_capability": "sm_90",
+    "fp8": false,
+    "n_gpu": 4,
+    "n_node": 1
+  },
+  "context_parallel_size": 1,
+  "dataloader_num_workers": 4,
+  "dataloader_pin_memory": true,
+  "dataloader_prefetch_factor": 256,
+  "dataset_num_proc": 104,
+  "dataset_prepared_path": "last_run_prepared",
+  "datasets": [
+    {
+      "chat_template": "tokenizer_default",
+      "field_messages": "messages",
+      "message_property_mappings": {
+        "content": "content",
+        "role": "role"
+      },
+      "path": "data_clean.jsonl",
+      "roles": {
+        "assistant": [
+          "assistant"
+        ],
+        "system": [
+          "system"
+        ],
+        "user": [
+          "user"
+        ]
+      },
+      "trust_remote_code": false,
+      "type": "chat_template"
+    }
+  ],
+  "ddp": true,
+  "deepspeed": {
+    "bf16": {
+      "enabled": "auto"
+    },
+    "fp16": {
+      "auto_cast": false,
+      "enabled": "auto",
+      "hysteresis": 2,
+      "initial_scale_power": 32,
+      "loss_scale": 0,
+      "loss_scale_window": 1000,
+      "min_loss_scale": 1
+    },
+    "gradient_accumulation_steps": "auto",
+    "gradient_clipping": "auto",
+    "train_batch_size": "auto",
+    "train_micro_batch_size_per_gpu": "auto",
+    "wall_clock_breakdown": false,
+    "zero_optimization": {
+      "contiguous_gradients": true,
+      "offload_optimizer": {
+        "device": "cpu"
+      },
+      "overlap_comm": true,
+      "stage": 2
+    }
+  },
+  "device": "cuda:0",
+  "device_map": {
+    "": 0
+  },
+  "dion_rank_fraction": 1.0,
+  "dion_rank_multiple_of": 1,
+  "env_capabilities": {
+    "torch_version": "2.8.0"
+  },
+  "eval_batch_size": 4,
+  "eval_causal_lm_metrics": [
+    "sacrebleu",
+    "comet",
+    "ter",
+    "chrf"
+  ],
+  "eval_max_new_tokens": 128,
+  "eval_table_size": 0,
+  "experimental_skip_move_to_device": true,
+  "flash_attention": true,
+  "fp16": false,
+  "gradient_accumulation_steps": 4,
+  "gradient_checkpointing": true,
+  "gradient_checkpointing_kwargs": {
+    "use_reentrant": false
+  },
+  "group_by_length": false,
+  "include_tkps": true,
+  "is_falcon_derived_model": false,
+  "is_llama_derived_model": true,
+  "is_mistral_derived_model": false,
+  "learning_rate": 0.0001,
+  "liger_fused_linear_cross_entropy": true,
+  "liger_glu_activation": true,
+  "liger_layer_norm": true,
+  "liger_rms_norm": true,
+  "liger_rope": true,
+  "lisa_layers_attribute": "model.layers",
+  "load_best_model_at_end": false,
+  "load_in_4bit": false,
+  "load_in_8bit": false,
+  "local_rank": 0,
+  "logging_steps": 1,
+  "lora_alpha": 64,
+  "lora_dropout": 0.05,
+  "lora_r": 64,
+  "lora_target_linear": true,
+  "loraplus_lr_embedding": 1e-06,
+  "lr_scheduler": "cosine",
+  "max_grad_norm": 1.0,
+  "mean_resizing_embeddings": false,
+  "micro_batch_size": 4,
+  "model_config_type": "llama",
+  "num_epochs": 1.0,
+  "optimizer": "adamw_torch",
+  "otel_metrics_host": "localhost",
+  "otel_metrics_port": 8000,
+  "output_dir": "./lora-sout-SC-highseq-len",
+  "pad_to_sequence_len": true,
+  "plugins": [
+    "axolotl.integrations.liger.LigerPlugin"
+  ],
+  "pretrain_multipack_attn": true,
+  "profiler_steps_start": 0,
+  "qlora_sharded_model_loading": false,
+  "ray_num_workers": 1,
+  "resources_per_worker": {
+    "GPU": 1
+  },
+  "sample_packing": false,
+  "sample_packing_bin_size": 200,
+  "sample_packing_group_size": 100000,
+  "save_only_model": false,
+  "save_safetensors": true,
+  "save_steps": 60,
+  "save_total_limit": 100,
+  "sequence_len": 8192,
+  "shuffle_before_merging_datasets": false,
+  "shuffle_merged_datasets": true,
+  "skip_prepare_dataset": false,
+  "streaming_multipack_buffer_size": 10000,
+  "strict": false,
+  "tensor_parallel_size": 1,
+  "tf32": false,
+  "tiled_mlp_use_original_mlp": true,
+  "tokenizer_config": "ByteDance-Seed/Seed-Coder-8B-Instruct",
+  "tokenizer_save_jinja_files": true,
+  "tokenizer_type": "AutoTokenizer",
+  "torch_dtype": "torch.bfloat16",
+  "train_on_inputs": false,
+  "trl": {
+    "log_completions": false,
+    "mask_truncated_completions": false,
+    "ref_model_mixup_alpha": 0.9,
+    "ref_model_sync_steps": 64,
+    "scale_rewards": true,
+    "sync_ref_model": false,
+    "use_vllm": false,
+    "vllm_server_host": "0.0.0.0",
+    "vllm_server_port": 8000
+  },
+  "trust_remote_code": true,
+  "type_of_model": "AutoModelForCausalLM",
+  "use_otel_metrics": false,
+  "use_ray": false,
+  "use_wandb": true,
+  "val_set_size": 0.0,
+  "vllm": {
+    "device": "auto",
+    "dtype": "auto",
+    "gpu_memory_utilization": 0.9,
+    "host": "0.0.0.0",
+    "port": 8000
+  },
+  "wandb_entity": "test-aa",
+  "wandb_name": "No-mods-seedcoder-low-gas-high-seq-len",
+  "wandb_project": "seedcoder",
+  "warmup_ratio": 0.05,
+  "weight_decay": 0.0,
+  "world_size": 4
+}
+[2025-11-17 19:16:13,861] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:278] [PID:26868] EOS: 2 / <[end▁of▁sentence]>
+[2025-11-17 19:16:13,861] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:279] [PID:26868] BOS: 0 / <[begin▁of▁sentence]>
+[2025-11-17 19:16:13,862] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:26868] PAD: 1 / <[PAD▁TOKEN]>
+[2025-11-17 19:16:13,862] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:26868] UNK: None / None
+[2025-11-17 19:16:13,862] [INFO] [axolotl.utils.data.shared.load_preprocessed_dataset:475] [PID:26868] Loading prepared dataset from disk at last_run_prepared/6c95b17c4af71171cd8b6cb73a85e0fb...
+Loading dataset from disk:   0%|                               | 0/104 [00:00<?, ?it/s]Loading dataset from disk: 100%|█████████████████| 104/104 [00:00<00:00, 323356.28it/s]
+[2025-11-17 19:16:14,220] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:406] [PID:26868] total_num_tokens: 113_293_504
+[2025-11-17 19:16:15,105] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:424] [PID:26868] `total_supervised_tokens: 7_308_561`
+[2025-11-17 19:16:15,105] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:522] [PID:26868] total_num_steps: 568
+[2025-11-17 19:16:15,105] [INFO] [axolotl.utils.data.sft._prepare_standard_dataset:121] [PID:26868] Maximum number of steps set at 568
+[2025-11-17 19:16:15,129] [DEBUG] [axolotl.train.setup_model_and_tokenizer:65] [PID:26868] Loading tokenizer... ByteDance-Seed/Seed-Coder-8B-Instruct
+[2025-11-17 19:16:15,595] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:278] [PID:26868] EOS: 2 / <[end▁of▁sentence]>
+[2025-11-17 19:16:15,595] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:279] [PID:26868] BOS: 0 / <[begin▁of▁sentence]>
+[2025-11-17 19:16:15,595] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:26868] PAD: 1 / <[PAD▁TOKEN]>
+[2025-11-17 19:16:15,595] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:26868] UNK: None / None
+[2025-11-17 19:16:15,595] [DEBUG] [axolotl.train.setup_model_and_tokenizer:74] [PID:26868] Loading model
+[2025-11-17 19:16:15,659] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_evaluation_loop:87] [PID:26868] Patched Trainer.evaluation_loop with nanmean loss calculation
+[2025-11-17 19:16:15,660] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_maybe_log_save_evaluate:138] [PID:26868] Patched Trainer._maybe_log_save_evaluate with nanmean loss calculation
+[2025-11-17 19:16:15,680] [INFO] [axolotl.integrations.liger.plugin.pre_model_load:71] [PID:26868] Applying LIGER to llama with kwargs: {'rope': True, 'cross_entropy': None, 'fused_linear_cross_entropy': True, 'rms_norm': True, 'swiglu': True}
+Loading checkpoint shards:   0%|                                 | 0/4 [00:00<?, ?it/s]Loading checkpoint shards:  25%|██████▎                  | 1/4 [00:00<00:02,  1.32it/s]Loading checkpoint shards:  50%|████████████▌            | 2/4 [00:01<00:01,  1.30it/s]Loading checkpoint shards:  75%|██████████████████▊      | 3/4 [00:02<00:00,  1.28it/s]Loading checkpoint shards: 100%|█████████████████████████| 4/4 [00:02<00:00,  1.76it/s]Loading checkpoint shards: 100%|█████████████████████████| 4/4 [00:02<00:00,  1.55it/s]
+[2025-11-17 19:16:18,497] [INFO] [axolotl.loaders.model._configure_embedding_dtypes:345] [PID:26868] Converting modules to torch.bfloat16
+[2025-11-17 19:16:18,500] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:26868] Memory usage after model load 18.938GB (+18.938GB allocated, +20.139GB reserved)
+[2025-11-17 19:16:18,500] [INFO] [axolotl.loaders.adapter.load_lora:80] [PID:26868] found linear modules: ['down_proj', 'gate_proj', 'k_proj', 'o_proj', 'q_proj', 'up_proj', 'v_proj']
+trainable params: 167,772,160 || all params: 8,418,234,368 || trainable%: 1.9930
+[2025-11-17 19:16:19,819] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:26868] after adapters 16.002GB (+16.002GB allocated, +20.436GB reserved)
+[2025-11-17 19:16:21,111] [INFO] [axolotl.train.save_initial_configs:398] [PID:26868] Pre-saving adapter config to ./lora-sout-SC-highseq-len...
+[2025-11-17 19:16:21,112] [INFO] [axolotl.train.save_initial_configs:402] [PID:26868] Pre-saving tokenizer to ./lora-sout-SC-highseq-len...
+[2025-11-17 19:16:21,206] [INFO] [axolotl.train.save_initial_configs:407] [PID:26868] Pre-saving model config to ./lora-sout-SC-highseq-len...
+[2025-11-17 19:16:21,210] [INFO] [axolotl.train.execute_training:196] [PID:26868] Starting trainer...
+Time to load cpu_adam op: 2.3388679027557373 seconds
+[34m[1mwandb[0m: Currently logged in as: [33mpandyamarut[0m ([33mtest-aa[0m) to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin
+[34m[1mwandb[0m: [38;5;178m⢿[0m Waiting for wandb.init()...
+[Am[2K[34m[1mwandb[0m: [38;5;178m⣻[0m Waiting for wandb.init()...
+[Am[2K[34m[1mwandb[0m: Tracking run with wandb version 0.22.3
+[34m[1mwandb[0m: Run data is saved locally in [35m[1m/osmosis/wandb/run-20251117_191627-82b5ivp3[0m
+[34m[1mwandb[0m: Run [1m`wandb offline`[0m to turn off syncing.
+[34m[1mwandb[0m: Syncing run [33mNo-mods-seedcoder-low-gas-high-seq-len[0m
+[34m[1mwandb[0m: ⭐️ View project at [34m[4mhttps://wandb.ai/test-aa/seedcoder[0m
+[34m[1mwandb[0m: 🚀 View run at [34m[4mhttps://wandb.ai/test-aa/seedcoder/runs/82b5ivp3[0m
+[34m[1mwandb[0m: Detected [huggingface_hub.inference] in use.
+[34m[1mwandb[0m: Use W&B Weave for improved LLM call tracing. Install Weave with `pip install weave` then add `import weave` to the top of your script.
+[34m[1mwandb[0m: For more information, check out the docs at: https://weave-docs.wandb.ai/
+[34m[1mwandb[0m: [33mWARNING[0m Saving files without folders. If you want to preserve subdirectories pass base_path to wandb.save, i.e. wandb.save("/mnt/folder/file.h5", base_path="/mnt")
+[2025-11-17 19:16:28,274] [INFO] [axolotl.utils.callbacks.on_train_begin:757] [PID:26868] The Axolotl config has been saved to the WandB run under files.
+[2025-11-17 19:16:28,651] [INFO] [axolotl.utils.callbacks.on_train_begin:820] [PID:26868] The DeepSpeed config has been saved to the WandB run under files.
+  0%|                                                          | 0/568 [00:00<?, ?it/s]  0%|                                                | 1/568 [00:16<2:35:13, 16.43s/it]                                                                                       {'loss': 0.0793, 'grad_norm': 0.0704621821641922, 'learning_rate': 0.0, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.9, 'tokens_per_second_per_gpu': 187.35, 'epoch': 0.0}
+  0%|                                                | 1/568 [00:16<2:35:13, 16.43s/it]  0%|▏                                               | 2/568 [00:30<2:21:54, 15.04s/it]                                                                                       {'loss': 0.0654, 'grad_norm': 0.0758366510272026, 'learning_rate': 3.5714285714285714e-06, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.9, 'tokens_per_second_per_gpu': 252.14, 'epoch': 0.0}
+  0%|▏                                               | 2/568 [00:30<2:21:54, 15.04s/it]  1%|▎                                               | 3/568 [00:44<2:16:06, 14.45s/it]                                                                                       {'loss': 0.0668, 'grad_norm': 0.055336933583021164, 'learning_rate': 7.142857142857143e-06, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.9, 'tokens_per_second_per_gpu': 245.11, 'epoch': 0.01}
+  1%|▎                                               | 3/568 [00:44<2:16:06, 14.45s/it]  1%|▎                                               | 4/568 [00:58<2:13:38, 14.22s/it]                                                                                       {'loss': 0.0804, 'grad_norm': 0.06867281347513199, 'learning_rate': 1.0714285714285714e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.9, 'tokens_per_second_per_gpu': 266.14, 'epoch': 0.01}
+  1%|▎                                               | 4/568 [00:58<2:13:38, 14.22s/it]  1%|▍                                               | 5/568 [01:11<2:11:50, 14.05s/it]                                                                                       {'loss': 0.0775, 'grad_norm': 0.05979232117533684, 'learning_rate': 1.4285714285714285e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 210.91, 'epoch': 0.01}
+  1%|▍                                               | 5/568 [01:11<2:11:50, 14.05s/it]  1%|▌                                               | 6/568 [01:25<2:10:34, 13.94s/it]                                                                                       {'loss': 0.0756, 'grad_norm': 0.053131889551877975, 'learning_rate': 1.785714285714286e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 272.1, 'epoch': 0.01}
+  1%|▌                                               | 6/568 [01:25<2:10:34, 13.94s/it]  1%|▌                                               | 7/568 [01:39<2:09:10, 13.82s/it]                                                                                       {'loss': 0.072, 'grad_norm': 0.056759174913167953, 'learning_rate': 2.1428571428571428e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 227.42, 'epoch': 0.01}
+  1%|▌                                               | 7/568 [01:39<2:09:10, 13.82s/it]  1%|▋                                               | 8/568 [01:53<2:10:09, 13.95s/it]                                                                                       {'loss': 0.0715, 'grad_norm': 0.06201519817113876, 'learning_rate': 2.5e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 203.82, 'epoch': 0.01}
+  1%|▋                                               | 8/568 [01:53<2:10:09, 13.95s/it]  2%|▊                                               | 9/568 [02:07<2:09:12, 13.87s/it]                                                                                       {'loss': 0.0666, 'grad_norm': 0.04195393994450569, 'learning_rate': 2.857142857142857e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 222.56, 'epoch': 0.02}
+  2%|▊                                               | 9/568 [02:07<2:09:12, 13.87s/it]  2%|▊                                              | 10/568 [02:20<2:08:56, 13.87s/it]                                                                                       {'loss': 0.0477, 'grad_norm': 0.04090817645192146, 'learning_rate': 3.2142857142857144e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 225.88, 'epoch': 0.02}
+  2%|▊                                              | 10/568 [02:20<2:08:56, 13.87s/it]  2%|▉                                              | 11/568 [02:34<2:08:27, 13.84s/it]                                                                                       {'loss': 0.0363, 'grad_norm': 0.02770274505019188, 'learning_rate': 3.571428571428572e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 274.59, 'epoch': 0.02}
+  2%|▉                                              | 11/568 [02:34<2:08:27, 13.84s/it]  2%|▉                                              | 12/568 [02:48<2:07:53, 13.80s/it]                                                                                       {'loss': 0.0539, 'grad_norm': 0.035514459013938904, 'learning_rate': 3.928571428571429e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 239.36, 'epoch': 0.02}
+  2%|▉                                              | 12/568 [02:48<2:07:53, 13.80s/it]  2%|█                                              | 13/568 [03:02<2:07:30, 13.78s/it]                                                                                       {'loss': 0.0479, 'grad_norm': 0.031050635501742363, 'learning_rate': 4.2857142857142856e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 249.04, 'epoch': 0.02}
+  2%|█                                              | 13/568 [03:02<2:07:30, 13.78s/it]  2%|█▏                                             | 14/568 [03:16<2:07:28, 13.81s/it]                                                                                       {'loss': 0.0432, 'grad_norm': 0.03735348582267761, 'learning_rate': 4.642857142857143e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 257.22, 'epoch': 0.02}
+  2%|█▏                                             | 14/568 [03:16<2:07:28, 13.81s/it]  3%|█▏                                             | 15/568 [03:29<2:06:58, 13.78s/it]                                                                                       {'loss': 0.0455, 'grad_norm': 0.03353886306285858, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 222.67, 'epoch': 0.03}
+  3%|█▏                                             | 15/568 [03:29<2:06:58, 13.78s/it]  3%|█▎                                             | 16/568 [03:43<2:07:21, 13.84s/it]                                                                                       {'loss': 0.0485, 'grad_norm': 0.03998207673430443, 'learning_rate': 5.3571428571428575e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 217.15, 'epoch': 0.03}
+  3%|█▎                                             | 16/568 [03:43<2:07:21, 13.84s/it]  3%|█▍                                             | 17/568 [03:57<2:07:32, 13.89s/it]                                                                                       {'loss': 0.0424, 'grad_norm': 0.035234443843364716, 'learning_rate': 5.714285714285714e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 236.81, 'epoch': 0.03}
+  3%|█▍                                             | 17/568 [03:57<2:07:32, 13.89s/it]  3%|█▍                                             | 18/568 [04:11<2:07:03, 13.86s/it]                                                                                       {'loss': 0.0488, 'grad_norm': 0.026601383462548256, 'learning_rate': 6.0714285714285715e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 212.35, 'epoch': 0.03}
+  3%|█▍                                             | 18/568 [04:11<2:07:03, 13.86s/it]  3%|█▌                                             | 19/568 [04:25<2:06:39, 13.84s/it]                                                                                       {'loss': 0.0473, 'grad_norm': 0.02926885150372982, 'learning_rate': 6.428571428571429e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 213.49, 'epoch': 0.03}
+  3%|█▌                                             | 19/568 [04:25<2:06:39, 13.84s/it]  4%|█▋                                             | 20/568 [04:39<2:06:14, 13.82s/it]                                                                                       {'loss': 0.037, 'grad_norm': 0.03238575905561447, 'learning_rate': 6.785714285714286e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 228.53, 'epoch': 0.04}
+  4%|█▋                                             | 20/568 [04:39<2:06:14, 13.82s/it]  4%|█▋                                             | 21/568 [04:52<2:05:55, 13.81s/it]                                                                                       {'loss': 0.0388, 'grad_norm': 0.02675304375588894, 'learning_rate': 7.142857142857143e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 211.6, 'epoch': 0.04}
+  4%|█▋                                             | 21/568 [04:52<2:05:55, 13.81s/it]  4%|█▊                                             | 22/568 [05:06<2:05:54, 13.84s/it]                                                                                       {'loss': 0.0344, 'grad_norm': 0.02359805814921856, 'learning_rate': 7.500000000000001e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 203.23, 'epoch': 0.04}
+  4%|█▊                                             | 22/568 [05:06<2:05:54, 13.84s/it]  4%|█▉                                             | 23/568 [05:20<2:05:40, 13.84s/it]                                                                                       {'loss': 0.0416, 'grad_norm': 0.023886678740382195, 'learning_rate': 7.857142857142858e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 237.89, 'epoch': 0.04}
+  4%|█▉                                             | 23/568 [05:20<2:05:40, 13.84s/it]  4%|█▉                                             | 24/568 [05:34<2:05:12, 13.81s/it]                                                                                       {'loss': 0.0407, 'grad_norm': 0.019691243767738342, 'learning_rate': 8.214285714285714e-05, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 219.3, 'epoch': 0.04}
+  4%|█▉                                             | 24/568 [05:34<2:05:12, 13.81s/it]  4%|██                                             | 25/568 [05:48<2:04:35, 13.77s/it]                                                                                       {'loss': 0.0264, 'grad_norm': 0.016602007672190666, 'learning_rate': 8.571428571428571e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 216.69, 'epoch': 0.04}
+  4%|██                                             | 25/568 [05:48<2:04:35, 13.77s/it]  5%|██▏                                            | 26/568 [06:01<2:04:19, 13.76s/it]                                                                                       {'loss': 0.0363, 'grad_norm': 0.04484860971570015, 'learning_rate': 8.92857142857143e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 218.84, 'epoch': 0.05}
+  5%|██▏                                            | 26/568 [06:01<2:04:19, 13.76s/it]  5%|██▏                                            | 27/568 [06:15<2:04:49, 13.84s/it]                                                                                       {'loss': 0.0351, 'grad_norm': 0.027309689670801163, 'learning_rate': 9.285714285714286e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 256.78, 'epoch': 0.05}
+  5%|██▏                                            | 27/568 [06:15<2:04:49, 13.84s/it]  5%|██▎                                            | 28/568 [06:29<2:03:50, 13.76s/it]                                                                                       {'loss': 0.0448, 'grad_norm': 0.07278674095869064, 'learning_rate': 9.642857142857143e-05, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 221.97, 'epoch': 0.05}
+  5%|██▎                                            | 28/568 [06:29<2:03:50, 13.76s/it]  5%|██▍                                            | 29/568 [06:43<2:03:21, 13.73s/it]                                                                                       {'loss': 0.0265, 'grad_norm': 0.01788918487727642, 'learning_rate': 0.0001, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 201.33, 'epoch': 0.05}
+  5%|██▍                                            | 29/568 [06:43<2:03:21, 13.73s/it]  5%|██▍                                            | 30/568 [06:56<2:03:29, 13.77s/it]                                                                                       {'loss': 0.0279, 'grad_norm': 0.018637865781784058, 'learning_rate': 9.999915384288722e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 249.42, 'epoch': 0.05}
+  5%|██▍                                            | 30/568 [06:56<2:03:29, 13.77s/it]  5%|██▌                                            | 31/568 [07:10<2:02:59, 13.74s/it]                                                                                       {'loss': 0.0335, 'grad_norm': 0.017141852527856827, 'learning_rate': 9.999661540018812e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 205.36, 'epoch': 0.05}
+  5%|██▌                                            | 31/568 [07:10<2:02:59, 13.74s/it]  6%|██▋                                            | 32/568 [07:24<2:02:38, 13.73s/it]                                                                                       {'loss': 0.0283, 'grad_norm': 0.017104296013712883, 'learning_rate': 9.999238475781957e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 235.13, 'epoch': 0.06}
+  6%|██▋                                            | 32/568 [07:24<2:02:38, 13.73s/it]  6%|██▋                                            | 33/568 [07:38<2:02:39, 13.76s/it]                                                                                       {'loss': 0.0306, 'grad_norm': 0.02139965444803238, 'learning_rate': 9.998646205897309e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 170.31, 'epoch': 0.06}
+  6%|██▋                                            | 33/568 [07:38<2:02:39, 13.76s/it]  6%|██▊                                            | 34/568 [07:51<2:02:26, 13.76s/it]                                                                                       {'loss': 0.0244, 'grad_norm': 0.01604183204472065, 'learning_rate': 9.997884750411005e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 214.26, 'epoch': 0.06}
+  6%|██▊                                            | 34/568 [07:51<2:02:26, 13.76s/it]  6%|██▉                                            | 35/568 [08:05<2:02:26, 13.78s/it]                                                                                       {'loss': 0.0291, 'grad_norm': 0.018061600625514984, 'learning_rate': 9.99695413509548e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.92, 'tokens_per_second_per_gpu': 220.44, 'epoch': 0.06}
+  6%|██▉                                            | 35/568 [08:05<2:02:26, 13.78s/it]  6%|██▉                                            | 36/568 [08:19<2:02:49, 13.85s/it]                                                                                       {'loss': 0.0298, 'grad_norm': 0.018126940354704857, 'learning_rate': 9.995854391448606e-05, 'memory/max_active (GiB)': 33.2, 'memory/max_allocated (GiB)': 33.2, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 279.61, 'epoch': 0.06}
+  6%|██▉                                            | 36/568 [08:19<2:02:49, 13.85s/it]  7%|███                                            | 37/568 [08:33<2:01:56, 13.78s/it]                                                                                       {'loss': 0.0345, 'grad_norm': 0.017907243221998215, 'learning_rate': 9.994585556692624e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 245.03, 'epoch': 0.07}
+  7%|███                                            | 37/568 [08:33<2:01:56, 13.78s/it]  7%|███▏                                           | 38/568 [08:47<2:01:50, 13.79s/it]                                                                                       {'loss': 0.0277, 'grad_norm': 0.017538614571094513, 'learning_rate': 9.99314767377287e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 210.21, 'epoch': 0.07}
+  7%|███▏                                           | 38/568 [08:47<2:01:50, 13.79s/it]  7%|███▏                                           | 39/568 [09:01<2:01:50, 13.82s/it]                                                                                       {'loss': 0.0273, 'grad_norm': 0.016495617106556892, 'learning_rate': 9.991540791356342e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 233.65, 'epoch': 0.07}
+  7%|███▏                                           | 39/568 [09:01<2:01:50, 13.82s/it]  7%|███▎                                           | 40/568 [09:14<2:01:18, 13.79s/it]                                                                                       {'loss': 0.037, 'grad_norm': 0.020782941952347755, 'learning_rate': 9.989764963830037e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 241.91, 'epoch': 0.07}
+  7%|███▎                                           | 40/568 [09:14<2:01:18, 13.79s/it]  7%|███▍                                           | 41/568 [09:28<2:01:14, 13.80s/it]                                                                                       {'loss': 0.0338, 'grad_norm': 0.01627529039978981, 'learning_rate': 9.987820251299122e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 241.85, 'epoch': 0.07}
+  7%|███▍                                           | 41/568 [09:28<2:01:14, 13.80s/it]  7%|███▍                                           | 42/568 [09:42<2:00:38, 13.76s/it]                                                                                       {'loss': 0.0295, 'grad_norm': 0.03820300102233887, 'learning_rate': 9.985706719584888e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 227.06, 'epoch': 0.07}
+  7%|███▍                                           | 42/568 [09:42<2:00:38, 13.76s/it]  8%|███▌                                           | 43/568 [09:56<2:00:31, 13.77s/it]                                                                                       {'loss': 0.0243, 'grad_norm': 0.03429172560572624, 'learning_rate': 9.983424440222531e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 253.21, 'epoch': 0.08}
+  8%|███▌                                           | 43/568 [09:56<2:00:31, 13.77s/it]  8%|███▋                                           | 44/568 [10:09<2:00:41, 13.82s/it]                                                                                       {'loss': 0.0321, 'grad_norm': 0.018074966967105865, 'learning_rate': 9.980973490458728e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 192.08, 'epoch': 0.08}
+  8%|███▋                                           | 44/568 [10:09<2:00:41, 13.82s/it]  8%|███▋                                           | 45/568 [10:23<2:00:55, 13.87s/it]                                                                                       {'loss': 0.0222, 'grad_norm': 0.012747909873723984, 'learning_rate': 9.978353953249022e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 214.53, 'epoch': 0.08}
+  8%|███▋                                           | 45/568 [10:23<2:00:55, 13.87s/it]  8%|███▊                                           | 46/568 [10:37<2:00:57, 13.90s/it]                                                                                       {'loss': 0.031, 'grad_norm': 0.021370774134993553, 'learning_rate': 9.975565917255016e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 230.11, 'epoch': 0.08}
+  8%|███▊                                           | 46/568 [10:37<2:00:57, 13.90s/it]  8%|███▉                                           | 47/568 [10:51<1:59:54, 13.81s/it]                                                                                       {'loss': 0.0336, 'grad_norm': 0.02628347836434841, 'learning_rate': 9.972609476841367e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 242.83, 'epoch': 0.08}
+  8%|███▉                                           | 47/568 [10:51<1:59:54, 13.81s/it]  8%|███▉                                           | 48/568 [11:05<1:59:59, 13.85s/it]                                                                                       {'loss': 0.0302, 'grad_norm': 0.013385500758886337, 'learning_rate': 9.9694847320726e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 229.15, 'epoch': 0.08}
+  8%|███▉                                           | 48/568 [11:05<1:59:59, 13.85s/it]  9%|████                                           | 49/568 [11:19<1:59:27, 13.81s/it]                                                                                       {'loss': 0.031, 'grad_norm': 0.02378871478140354, 'learning_rate': 9.966191788709716e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 271.72, 'epoch': 0.09}
+  9%|████                                           | 49/568 [11:19<1:59:27, 13.81s/it]  9%|████▏                                          | 50/568 [11:32<1:58:50, 13.77s/it]                                                                                       {'loss': 0.0263, 'grad_norm': 0.01515679806470871, 'learning_rate': 9.962730758206611e-05, 'memory/max_active (GiB)': 33.07, 'memory/max_allocated (GiB)': 33.07, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 213.52, 'epoch': 0.09}
+  9%|████▏                                          | 50/568 [11:32<1:58:50, 13.77s/it]  9%|████▏                                          | 51/568 [11:46<1:58:58, 13.81s/it]                                                                                       {'loss': 0.025, 'grad_norm': 0.017863743007183075, 'learning_rate': 9.959101757706308e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 271.4, 'epoch': 0.09}
+  9%|████▏                                          | 51/568 [11:46<1:58:58, 13.81s/it]  9%|████▎                                          | 52/568 [12:00<1:58:37, 13.79s/it]                                                                                       {'loss': 0.0276, 'grad_norm': 0.015707025304436684, 'learning_rate': 9.955304910036993e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 233.9, 'epoch': 0.09}
+  9%|████▎                                          | 52/568 [12:00<1:58:37, 13.79s/it]  9%|████▍                                          | 53/568 [12:14<1:58:02, 13.75s/it]                                                                                       {'loss': 0.0263, 'grad_norm': 0.023476971313357353, 'learning_rate': 9.951340343707852e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 231.63, 'epoch': 0.09}
+  9%|████▍                                          | 53/568 [12:14<1:58:02, 13.75s/it] 10%|████▍                                          | 54/568 [12:28<1:58:06, 13.79s/it]                                                                                       {'loss': 0.0302, 'grad_norm': 0.019726671278476715, 'learning_rate': 9.947208192904722e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 238.32, 'epoch': 0.1}
+ 10%|████▍                                          | 54/568 [12:28<1:58:06, 13.79s/it] 10%|████▌                                          | 55/568 [12:41<1:58:05, 13.81s/it]                                                                                       {'loss': 0.0223, 'grad_norm': 0.012263119220733643, 'learning_rate': 9.942908597485558e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 285.44, 'epoch': 0.1}
+ 10%|████▌                                          | 55/568 [12:41<1:58:05, 13.81s/it] 10%|████▋                                          | 56/568 [12:55<1:57:48, 13.81s/it]                                                                                       {'loss': 0.0273, 'grad_norm': 0.023821286857128143, 'learning_rate': 9.938441702975689e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 210.08, 'epoch': 0.1}
+ 10%|████▋                                          | 56/568 [12:55<1:57:48, 13.81s/it] 10%|████▋                                          | 57/568 [13:09<1:57:08, 13.75s/it]                                                                                       {'loss': 0.0254, 'grad_norm': 0.019772211089730263, 'learning_rate': 9.933807660562898e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 257.21, 'epoch': 0.1}
+ 10%|████▋                                          | 57/568 [13:09<1:57:08, 13.75s/it] 10%|████▊                                          | 58/568 [13:23<1:56:48, 13.74s/it]                                                                                       {'loss': 0.04, 'grad_norm': 0.018264830112457275, 'learning_rate': 9.929006627092299e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 192.86, 'epoch': 0.1}
+ 10%|████▊                                          | 58/568 [13:23<1:56:48, 13.74s/it] 10%|████▉                                          | 59/568 [13:37<1:57:16, 13.82s/it]                                                                                       {'loss': 0.0227, 'grad_norm': 0.013077943585813046, 'learning_rate': 9.924038765061042e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 208.96, 'epoch': 0.1}
+ 10%|████▉                                          | 59/568 [13:37<1:57:16, 13.82s/it] 11%|████▉                                          | 60/568 [13:50<1:56:55, 13.81s/it]                                                                                       {'loss': 0.0296, 'grad_norm': 0.014941577799618244, 'learning_rate': 9.918904242612795e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 274.37, 'epoch': 0.11}
+ 11%|████▉                                          | 60/568 [13:50<1:56:55, 13.81s/it][2025-11-17 19:30:29,450] [INFO] [axolotl.core.trainers.base._save:665] [PID:26868] Saving model checkpoint to ./lora-sout-SC-highseq-len/checkpoint-60
+ 11%|█████                                          | 61/568 [14:16<2:27:17, 17.43s/it]                                                                                       {'loss': 0.03, 'grad_norm': 0.015369290485978127, 'learning_rate': 9.913603233532067e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 274.21, 'epoch': 0.11}
+ 11%|█████                                          | 61/568 [14:16<2:27:17, 17.43s/it] 11%|█████▏                                         | 62/568 [14:30<2:18:18, 16.40s/it]                                                                                       {'loss': 0.0296, 'grad_norm': 0.016978785395622253, 'learning_rate': 9.908135917238321e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 217.85, 'epoch': 0.11}
+ 11%|█████▏                                         | 62/568 [14:30<2:18:18, 16.40s/it] 11%|█████▏                                         | 63/568 [14:44<2:12:05, 15.69s/it]                                                                                       {'loss': 0.0295, 'grad_norm': 0.01671323925256729, 'learning_rate': 9.902502478779896e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 258.13, 'epoch': 0.11}
+ 11%|█████▏                                         | 63/568 [14:44<2:12:05, 15.69s/it] 11%|█████▎                                         | 64/568 [14:58<2:07:16, 15.15s/it]                                                                                       {'loss': 0.0276, 'grad_norm': 0.018349679186940193, 'learning_rate': 9.896703108827759e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 177.42, 'epoch': 0.11}
+ 11%|█████▎                                         | 64/568 [14:58<2:07:16, 15.15s/it] 11%|█████▍                                         | 65/568 [15:12<2:04:01, 14.80s/it]                                                                                       {'loss': 0.0314, 'grad_norm': 0.014011568389832973, 'learning_rate': 9.890738003669029e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 272.18, 'epoch': 0.11}
+ 11%|█████▍                                         | 65/568 [15:12<2:04:01, 14.80s/it] 12%|█████▍                                         | 66/568 [15:26<2:01:09, 14.48s/it]                                                                                       {'loss': 0.0251, 'grad_norm': 0.014893765561282635, 'learning_rate': 9.884607365200356e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 216.34, 'epoch': 0.12}
+ 12%|█████▍                                         | 66/568 [15:26<2:01:09, 14.48s/it] 12%|█████▌                                         | 67/568 [15:40<1:59:46, 14.34s/it]                                                                                       {'loss': 0.0274, 'grad_norm': 0.018648602068424225, 'learning_rate': 9.878311400921072e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 233.16, 'epoch': 0.12}
+ 12%|█████▌                                         | 67/568 [15:40<1:59:46, 14.34s/it] 12%|█████▋                                         | 68/568 [15:54<1:58:08, 14.18s/it]                                                                                       {'loss': 0.0407, 'grad_norm': 0.017016688361763954, 'learning_rate': 9.871850323926177e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 264.42, 'epoch': 0.12}
+ 12%|█████▋                                         | 68/568 [15:54<1:58:08, 14.18s/it] 12%|█████▋                                         | 69/568 [16:07<1:56:52, 14.05s/it]                                                                                       {'loss': 0.0225, 'grad_norm': 0.014960701577365398, 'learning_rate': 9.865224352899119e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 255.76, 'epoch': 0.12}
+ 12%|█████▋                                         | 69/568 [16:07<1:56:52, 14.05s/it] 12%|█████▊                                         | 70/568 [16:21<1:55:58, 13.97s/it]                                                                                       {'loss': 0.0279, 'grad_norm': 0.0164256040006876, 'learning_rate': 9.858433712104403e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 268.45, 'epoch': 0.12}
+ 12%|█████▊                                         | 70/568 [16:21<1:55:58, 13.97s/it] 12%|█████▉                                         | 71/568 [16:35<1:55:49, 13.98s/it]                                                                                       {'loss': 0.0201, 'grad_norm': 0.015238086692988873, 'learning_rate': 9.851478631379982e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 260.5, 'epoch': 0.12}
+ 12%|█████▉                                         | 71/568 [16:35<1:55:49, 13.98s/it] 13%|█████▉                                         | 72/568 [16:49<1:55:18, 13.95s/it]                                                                                       {'loss': 0.0312, 'grad_norm': 0.02131555788218975, 'learning_rate': 9.844359346129503e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 209.98, 'epoch': 0.13}
+ 13%|█████▉                                         | 72/568 [16:49<1:55:18, 13.95s/it] 13%|██████                                         | 73/568 [17:03<1:54:38, 13.90s/it]                                                                                       {'loss': 0.0278, 'grad_norm': 0.018716882914304733, 'learning_rate': 9.837076097314319e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 262.14, 'epoch': 0.13}
+ 13%|██████                                         | 73/568 [17:03<1:54:38, 13.90s/it] 13%|██████                                         | 74/568 [17:17<1:53:48, 13.82s/it]                                                                                       {'loss': 0.0289, 'grad_norm': 0.019890105351805687, 'learning_rate': 9.829629131445342e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 222.02, 'epoch': 0.13}
+ 13%|██████                                         | 74/568 [17:17<1:53:48, 13.82s/it] 13%|██████▏                                        | 75/568 [17:30<1:53:47, 13.85s/it]                                                                                       {'loss': 0.026, 'grad_norm': 0.014958148822188377, 'learning_rate': 9.822018700574695e-05, 'memory/max_active (GiB)': 33.08, 'memory/max_allocated (GiB)': 33.08, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 203.23, 'epoch': 0.13}
+ 13%|██████▏                                        | 75/568 [17:30<1:53:47, 13.85s/it] 13%|██████▎                                        | 76/568 [17:44<1:53:40, 13.86s/it]                                                                                       {'loss': 0.0275, 'grad_norm': 0.017123723402619362, 'learning_rate': 9.814245062287189e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 282.48, 'epoch': 0.13}
+ 13%|██████▎                                        | 76/568 [17:44<1:53:40, 13.86s/it] 14%|██████▎                                        | 77/568 [17:58<1:53:36, 13.88s/it]                                                                                       {'loss': 0.0261, 'grad_norm': 0.015605106949806213, 'learning_rate': 9.806308479691595e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 231.9, 'epoch': 0.14}
+ 14%|██████▎                                        | 77/568 [17:58<1:53:36, 13.88s/it] 14%|██████▍                                        | 78/568 [18:12<1:52:53, 13.82s/it]                                                                                       {'loss': 0.0279, 'grad_norm': 0.01754281111061573, 'learning_rate': 9.798209221411747e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 216.08, 'epoch': 0.14}
+ 14%|██████▍                                        | 78/568 [18:12<1:52:53, 13.82s/it] 14%|██████▌                                        | 79/568 [18:26<1:52:24, 13.79s/it]                                                                                       {'loss': 0.028, 'grad_norm': 0.015901044011116028, 'learning_rate': 9.789947561577445e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 219.98, 'epoch': 0.14}
+ 14%|██████▌                                        | 79/568 [18:26<1:52:24, 13.79s/it] 14%|██████▌                                        | 80/568 [18:39<1:51:58, 13.77s/it]                                                                                       {'loss': 0.0323, 'grad_norm': 0.014627359807491302, 'learning_rate': 9.781523779815179e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 227.07, 'epoch': 0.14}
+ 14%|██████▌                                        | 80/568 [18:39<1:51:58, 13.77s/it] 14%|██████▋                                        | 81/568 [18:53<1:51:49, 13.78s/it]                                                                                       {'loss': 0.0201, 'grad_norm': 0.014229695312678814, 'learning_rate': 9.77293816123866e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 253.31, 'epoch': 0.14}
+ 14%|██████▋                                        | 81/568 [18:53<1:51:49, 13.78s/it] 14%|██████▊                                        | 82/568 [19:07<1:51:44, 13.80s/it]                                                                                       {'loss': 0.0285, 'grad_norm': 0.01579846255481243, 'learning_rate': 9.764190996439181e-05, 'memory/max_active (GiB)': 33.2, 'memory/max_allocated (GiB)': 33.2, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 218.21, 'epoch': 0.14}
+ 14%|██████▊                                        | 82/568 [19:07<1:51:44, 13.80s/it] 15%|██████▊                                        | 83/568 [19:21<1:51:27, 13.79s/it]                                                                                       {'loss': 0.035, 'grad_norm': 0.017533624544739723, 'learning_rate': 9.755282581475769e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 171.89, 'epoch': 0.15}
+ 15%|██████▊                                        | 83/568 [19:21<1:51:27, 13.79s/it] 15%|██████▉                                        | 84/568 [19:35<1:51:43, 13.85s/it]                                                                                       {'loss': 0.0302, 'grad_norm': 0.01710815727710724, 'learning_rate': 9.74621321786517e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 232.88, 'epoch': 0.15}
+ 15%|██████▉                                        | 84/568 [19:35<1:51:43, 13.85s/it] 15%|████████████████████████▉                                                                                                                                              | 85/568 [19:49<1:51:14, 13.82s/it]                                                                                                                                                                                                               {'loss': 0.0261, 'grad_norm': 0.017946865409612656, 'learning_rate': 9.736983212571646e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 220.71, 'epoch': 0.15}
+ 15%|████████████████████████▉                                                                                                                                              | 85/568 [19:49<1:51:14, 13.82s/it] 15%|█████████████████████████▎                                                                                                                                             | 86/568 [20:02<1:51:01, 13.82s/it]                                                                                                                                                                                                               {'loss': 0.0216, 'grad_norm': 0.018858829513192177, 'learning_rate': 9.727592877996585e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 275.95, 'epoch': 0.15}
+ 15%|█████████████████████████▎                                                                                                                                             | 86/568 [20:02<1:51:01, 13.82s/it] 15%|█████████████████████████▌                                                                                                                                             | 87/568 [20:16<1:50:51, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0316, 'grad_norm': 0.01661890745162964, 'learning_rate': 9.718042531967918e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 255.17, 'epoch': 0.15}
+ 15%|█████████████████████████▌                                                                                                                                             | 87/568 [20:16<1:50:51, 13.83s/it] 15%|█████████████████████████▊                                                                                                                                             | 88/568 [20:30<1:51:08, 13.89s/it]                                                                                                                                                                                                               {'loss': 0.028, 'grad_norm': 0.02018609084188938, 'learning_rate': 9.708332497729378e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 237.77, 'epoch': 0.15}
+ 15%|█████████████████████████▊                                                                                                                                             | 88/568 [20:30<1:51:08, 13.89s/it] 16%|██████████████████████████▏                                                                                                                                            | 89/568 [20:44<1:51:01, 13.91s/it]                                                                                                                                                                                                               {'loss': 0.0297, 'grad_norm': 0.01723644696176052, 'learning_rate': 9.698463103929542e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 232.99, 'epoch': 0.16}
+ 16%|██████████████████████████▏                                                                                                                                            | 89/568 [20:44<1:51:01, 13.91s/it] 16%|██████████████████████████▍                                                                                                                                            | 90/568 [20:58<1:50:27, 13.86s/it]                                                                                                                                                                                                               {'loss': 0.0195, 'grad_norm': 0.012760551646351814, 'learning_rate': 9.688434684610726e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 229.76, 'epoch': 0.16}
+ 16%|██████████████████████████▍                                                                                                                                            | 90/568 [20:58<1:50:27, 13.86s/it] 16%|██████████████████████████▊                                                                                                                                            | 91/568 [21:12<1:50:07, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.0284, 'grad_norm': 0.017401110380887985, 'learning_rate': 9.678247579197657e-05, 'memory/max_active (GiB)': 33.2, 'memory/max_allocated (GiB)': 33.2, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 223.43, 'epoch': 0.16}
+ 16%|██████████████████████████▊                                                                                                                                            | 91/568 [21:12<1:50:07, 13.85s/it] 16%|███████████████████████████                                                                                                                                            | 92/568 [21:26<1:49:35, 13.81s/it]                                                                                                                                                                                                               {'loss': 0.0317, 'grad_norm': 0.024753494188189507, 'learning_rate': 9.667902132486009e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 229.08, 'epoch': 0.16}
+ 16%|███████████████████████████                                                                                                                                            | 92/568 [21:26<1:49:35, 13.81s/it] 16%|███████████████████████████▎                                                                                                                                           | 93/568 [21:40<1:50:07, 13.91s/it]                                                                                                                                                                                                               {'loss': 0.0234, 'grad_norm': 0.01416193600744009, 'learning_rate': 9.657398694630712e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 242.9, 'epoch': 0.16}
+ 16%|███████████████████████████▎                                                                                                                                           | 93/568 [21:40<1:50:07, 13.91s/it] 17%|███████████████████████████▋                                                                                                                                           | 94/568 [21:54<1:49:45, 13.89s/it]                                                                                                                                                                                                               {'loss': 0.0285, 'grad_norm': 0.018718473613262177, 'learning_rate': 9.646737621134112e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 194.68, 'epoch': 0.17}
+ 17%|███████████████████████████▋                                                                                                                                           | 94/568 [21:54<1:49:45, 13.89s/it] 17%|███████████████████████████▉                                                                                                                                           | 95/568 [22:07<1:49:44, 13.92s/it]                                                                                                                                                                                                               {'loss': 0.0262, 'grad_norm': 0.015862461179494858, 'learning_rate': 9.635919272833938e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 234.23, 'epoch': 0.17}
+ 17%|███████████████████████████▉                                                                                                                                           | 95/568 [22:07<1:49:44, 13.92s/it] 17%|████████████████████████████▏                                                                                                                                          | 96/568 [22:21<1:49:18, 13.89s/it]                                                                                                                                                                                                               {'loss': 0.0266, 'grad_norm': 0.02045266702771187, 'learning_rate': 9.62494401589108e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 235.08, 'epoch': 0.17}
+ 17%|████████████████████████████▏                                                                                                                                          | 96/568 [22:21<1:49:18, 13.89s/it] 17%|████████████████████████████▌                                                                                                                                          | 97/568 [22:35<1:49:05, 13.90s/it]                                                                                                                                                                                                               {'loss': 0.0251, 'grad_norm': 0.017906654626131058, 'learning_rate': 9.613812221777212e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 196.22, 'epoch': 0.17}
+ 17%|████████████████████████████▌                                                                                                                                          | 97/568 [22:35<1:49:05, 13.90s/it] 17%|████████████████████████████▊                                                                                                                                          | 98/568 [22:49<1:48:25, 13.84s/it]                                                                                                                                                                                                               {'loss': 0.0229, 'grad_norm': 0.014210160821676254, 'learning_rate': 9.602524267262203e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 222.1, 'epoch': 0.17}
+ 17%|████████████████████████████▊                                                                                                                                          | 98/568 [22:49<1:48:25, 13.84s/it] 17%|█████████████████████████████                                                                                                                                          | 99/568 [23:03<1:47:48, 13.79s/it]                                                                                                                                                                                                               {'loss': 0.0303, 'grad_norm': 0.023531822487711906, 'learning_rate': 9.591080534401371e-05, 'memory/max_active (GiB)': 33.08, 'memory/max_allocated (GiB)': 33.08, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 187.48, 'epoch': 0.17}
+ 17%|█████████████████████████████                                                                                                                                          | 99/568 [23:03<1:47:48, 13.79s/it] 18%|█████████████████████████████▏                                                                                                                                        | 100/568 [23:16<1:47:29, 13.78s/it]                                                                                                                                                                                                               {'loss': 0.0229, 'grad_norm': 0.016973018646240234, 'learning_rate': 9.579481410522556e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 258.43, 'epoch': 0.18}
+ 18%|█████████████████████████████▏                                                                                                                                        | 100/568 [23:16<1:47:29, 13.78s/it] 18%|█████████████████████████████▌                                                                                                                                        | 101/568 [23:30<1:47:08, 13.77s/it]                                                                                                                                                                                                               {'loss': 0.0277, 'grad_norm': 0.015115481801331043, 'learning_rate': 9.567727288213005e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 253.4, 'epoch': 0.18}
+ 18%|█████████████████████████████▌                                                                                                                                        | 101/568 [23:30<1:47:08, 13.77s/it] 18%|█████████████████████████████▊                                                                                                                                        | 102/568 [23:44<1:47:22, 13.82s/it]                                                                                                                                                                                                               {'loss': 0.0346, 'grad_norm': 0.017176367342472076, 'learning_rate': 9.555818565306085e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 243.1, 'epoch': 0.18}
+ 18%|█████████████████████████████▊                                                                                                                                        | 102/568 [23:44<1:47:22, 13.82s/it] 18%|██████████████████████████████                                                                                                                                        | 103/568 [23:58<1:46:58, 13.80s/it]                                                                                                                                                                                                               {'loss': 0.0217, 'grad_norm': 0.013678690418601036, 'learning_rate': 9.543755644867822e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 306.35, 'epoch': 0.18}
+ 18%|██████████████████████████████                                                                                                                                        | 103/568 [23:58<1:46:58, 13.80s/it] 18%|██████████████████████████████▍                                                                                                                                       | 104/568 [24:12<1:47:00, 13.84s/it]                                                                                                                                                                                                               {'loss': 0.0244, 'grad_norm': 0.0236887875944376, 'learning_rate': 9.53153893518325e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 207.67, 'epoch': 0.18}
+ 18%|██████████████████████████████▍                                                                                                                                       | 104/568 [24:12<1:47:00, 13.84s/it] 18%|██████████████████████████████▋                                                                                                                                       | 105/568 [24:25<1:46:29, 13.80s/it]                                                                                                                                                                                                               {'loss': 0.0297, 'grad_norm': 0.018131019547581673, 'learning_rate': 9.519168849742604e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 251.96, 'epoch': 0.18}
+ 18%|██████████████████████████████▋                                                                                                                                       | 105/568 [24:25<1:46:29, 13.80s/it] 19%|██████████████████████████████▉                                                                                                                                       | 106/568 [24:39<1:46:29, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0317, 'grad_norm': 0.025396862998604774, 'learning_rate': 9.506645807227311e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 230.94, 'epoch': 0.19}
+ 19%|██████████████████████████████▉                                                                                                                                       | 106/568 [24:39<1:46:29, 13.83s/it] 19%|███████████████████████████████▎                                                                                                                                      | 107/568 [24:53<1:45:55, 13.79s/it]                                                                                                                                                                                                               {'loss': 0.0273, 'grad_norm': 0.020221933722496033, 'learning_rate': 9.493970231495835e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 257.81, 'epoch': 0.19}
+ 19%|███████████████████████████████▎                                                                                                                                      | 107/568 [24:53<1:45:55, 13.79s/it] 19%|███████████████████████████████▌                                                                                                                                      | 108/568 [25:07<1:45:28, 13.76s/it]                                                                                                                                                                                                               {'loss': 0.0527, 'grad_norm': 0.02156631276011467, 'learning_rate': 9.481142551569318e-05, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 212.81, 'epoch': 0.19}
+ 19%|███████████████████████████████▌                                                                                                                                      | 108/568 [25:07<1:45:28, 13.76s/it] 19%|███████████████████████████████▊                                                                                                                                      | 109/568 [25:21<1:45:22, 13.77s/it]                                                                                                                                                                                                               {'loss': 0.0235, 'grad_norm': 0.016724182292819023, 'learning_rate': 9.468163201617062e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 254.96, 'epoch': 0.19}
+ 19%|███████████████████████████████▊                                                                                                                                      | 109/568 [25:21<1:45:22, 13.77s/it] 19%|████████████████████���███████████▏                                                                                                                                     | 110/568 [25:35<1:45:39, 13.84s/it]                                                                                                                                                                                                               {'loss': 0.0295, 'grad_norm': 0.017427809536457062, 'learning_rate': 9.45503262094184e-05, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 221.87, 'epoch': 0.19}
+ 19%|████████████████████████████████▏                                                                                                                                     | 110/568 [25:35<1:45:39, 13.84s/it] 20%|████████████████████████████████▍                                                                                                                                     | 111/568 [25:48<1:45:24, 13.84s/it]                                                                                                                                                                                                               {'loss': 0.0359, 'grad_norm': 0.020861836150288582, 'learning_rate': 9.441751253965021e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 223.3, 'epoch': 0.2}
+ 20%|████████████████████████████████▍                                                                                                                                     | 111/568 [25:48<1:45:24, 13.84s/it] 20%|████████████████████████████████▋                                                                                                                                     | 112/568 [26:02<1:44:57, 13.81s/it]                                                                                                                                                                                                               {'loss': 0.031, 'grad_norm': 0.018341118469834328, 'learning_rate': 9.42831955021153e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 209.9, 'epoch': 0.2}
+ 20%|████████████████████████████████▋                                                                                                                                     | 112/568 [26:02<1:44:57, 13.81s/it] 20%|█████████████████████████████████                                                                                                                                     | 113/568 [26:16<1:44:27, 13.77s/it]                                                                                                                                                                                                               {'loss': 0.0225, 'grad_norm': 0.016992919147014618, 'learning_rate': 9.414737964294636e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 227.0, 'epoch': 0.2}
+ 20%|█████████████████████████████████                                                                                                                                     | 113/568 [26:16<1:44:27, 13.77s/it] 20%|█████████████████████████████████▎                                                                                                                                    | 114/568 [26:30<1:44:04, 13.75s/it]                                                                                                                                                                                                               {'loss': 0.0291, 'grad_norm': 0.01960540935397148, 'learning_rate': 9.401006955900556e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 224.76, 'epoch': 0.2}
+ 20%|█████████████████████████████████▎                                                                                                                                    | 114/568 [26:30<1:44:04, 13.75s/it] 20%|█████████████████████████████████▌                                                                                                                                    | 115/568 [26:44<1:44:25, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0249, 'grad_norm': 0.017585543915629387, 'learning_rate': 9.38712698977291e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 256.21, 'epoch': 0.2}
+ 20%|█████████████████████████████████▌                                                                                                                                    | 115/568 [26:44<1:44:25, 13.83s/it] 20%|█████████████████████████████████▉                                                                                                                                    | 116/568 [26:57<1:44:10, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0293, 'grad_norm': 0.01610531471669674, 'learning_rate': 9.373098535696979e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 188.42, 'epoch': 0.2}
+ 20%|█████████████████████████████████▉                                                                                                                                    | 116/568 [26:57<1:44:10, 13.83s/it] 21%|██████████████████████████████████▏                                                                                                                                   | 117/568 [27:11<1:44:12, 13.86s/it]                                                                                                                                                                                                               {'loss': 0.0315, 'grad_norm': 0.023919539526104927, 'learning_rate': 9.358922068483812e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 211.12, 'epoch': 0.21}
+ 21%|██████████████████████████████████▏                                                                                                                                   | 117/568 [27:11<1:44:12, 13.86s/it] 21%|██████████████████████████████████▍                                                                                                                                   | 118/568 [27:25<1:43:50, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.0225, 'grad_norm': 0.014422469772398472, 'learning_rate': 9.344598067954152e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 225.05, 'epoch': 0.21}
+ 21%|██████████████████████████████████▍                                                                                                                                   | 118/568 [27:25<1:43:50, 13.85s/it] 21%|██████████████████████████████████▊                                                                                                                                   | 119/568 [27:39<1:43:40, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.026, 'grad_norm': 0.012800968252122402, 'learning_rate': 9.330127018922194e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 220.09, 'epoch': 0.21}
+ 21%|██████████████████████████████████▊                                                                                                                                   | 119/568 [27:39<1:43:40, 13.85s/it] 21%|███████████████████████████████████                                                                                                                                   | 120/568 [27:53<1:43:18, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0258, 'grad_norm': 0.01606251299381256, 'learning_rate': 9.315509411179182e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 219.66, 'epoch': 0.21}
+ 21%|███████████████████████████████████                                                                                                                                   | 120/568 [27:53<1:43:18, 13.83s/it][2025-11-17 19:44:31,921] [INFO] [axolotl.core.trainers.base._save:665] [PID:26868] Saving model checkpoint to ./lora-sout-SC-highseq-len/checkpoint-120
+ 21%|███████████████████████████████████▎                                                                                                                                  | 121/568 [28:18<2:09:30, 17.38s/it]                                                                                                                                                                                                               {'loss': 0.0232, 'grad_norm': 0.013337354175746441, 'learning_rate': 9.300745739476829e-05, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 210.47, 'epoch': 0.21}
+ 21%|███████████████████████████████████▎                                                                                                                                  | 121/568 [28:18<2:09:30, 17.38s/it] 21%|███████████████████████████████████▋                                                                                                                                  | 122/568 [28:32<2:00:59, 16.28s/it]                                                                                                                                                                                                               {'loss': 0.0354, 'grad_norm': 0.015440382063388824, 'learning_rate': 9.285836503510562e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 230.88, 'epoch': 0.21}
+ 21%|███████████████████████████████████▋                                                                                                                                  | 122/568 [28:32<2:00:59, 16.28s/it] 22%|███████████████████████████████████▉                                                                                                                                  | 123/568 [28:46<1:55:01, 15.51s/it]                                                                                                                                                                                                               {'loss': 0.0218, 'grad_norm': 0.017215052619576454, 'learning_rate': 9.270782207902629e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 253.47, 'epoch': 0.22}
+ 22%|███████████████████████████████████▉                                                                                                                                  | 123/568 [28:46<1:55:01, 15.51s/it] 22%|████████████████████████████████████▏                                                                                                                                 | 124/568 [29:00<1:50:51, 14.98s/it]                                                                                                                                                                                                               {'loss': 0.0262, 'grad_norm': 0.012593681924045086, 'learning_rate': 9.255583362184999e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 242.97, 'epoch': 0.22}
+ 22%|████████████████████████████████████▏                                                                                                                                 | 124/568 [29:00<1:50:51, 14.98s/it] 22%|████████████████████████████████████▌                                                                                                                                 | 125/568 [29:14<1:48:36, 14.71s/it]                                                                                                                                                                                                               {'loss': 0.025, 'grad_norm': 0.01577092707157135, 'learning_rate': 9.24024048078213e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 248.12, 'epoch': 0.22}
+ 22%|████████████████████████████████████▌                                                                                                                                 | 125/568 [29:14<1:48:36, 14.71s/it] 22%|████████████████████████████████████▊                                                                                                                                 | 126/568 [29:27<1:46:17, 14.43s/it]                                                                                                                                                                                                               {'loss': 0.03, 'grad_norm': 0.019939927384257317, 'learning_rate': 9.224754082993552e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 232.51, 'epoch': 0.22}
+ 22%|████████████████████████████████████▊                                                                                                                                 | 126/568 [29:27<1:46:17, 14.43s/it] 22%|█████████████████████████████████████                                                                                                                                 | 127/568 [29:41<1:44:23, 14.20s/it]                                                                                                                                                                                                               {'loss': 0.032, 'grad_norm': 0.016283361241221428, 'learning_rate': 9.209124692976287e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 192.24, 'epoch': 0.22}
+ 22%|█████████████████████████████████████                                                                                                                                 | 127/568 [29:41<1:44:23, 14.20s/it] 23%|█████████████████████████████████████▍                                                                                                                                | 128/568 [29:55<1:43:35, 14.13s/it]                                                                                                                                                                                                               {'loss': 0.0308, 'grad_norm': 0.014374392107129097, 'learning_rate': 9.193352839727121e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 262.84, 'epoch': 0.23}
+ 23%|█████████████████████████████████████▍                                                                                                                                | 128/568 [29:55<1:43:35, 14.13s/it] 23%|█████████████████████████████████████▋                                                                                                                                | 129/568 [30:09<1:43:02, 14.08s/it]                                                                                                                                                                                                               {'loss': 0.0344, 'grad_norm': 0.021727198734879494, 'learning_rate': 9.177439057064683e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 280.9, 'epoch': 0.23}
+ 23%|█████████████████████████████████████▋                                                                                                                                | 129/568 [30:09<1:43:02, 14.08s/it] 23%|█████████████████████████████████████▉                                                                                                                                | 130/568 [30:23<1:42:32, 14.05s/it]                                                                                                                                                                                                               {'loss': 0.0327, 'grad_norm': 0.023519443348050117, 'learning_rate': 9.16138388361139e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 185.91, 'epoch': 0.23}
+ 23%|█████████████████████████████████████▉                                                                                                                                | 130/568 [30:23<1:42:32, 14.05s/it] 23%|██████████████████████████████████████▎                                                                                                                               | 131/568 [30:37<1:41:53, 13.99s/it]                                                                                                                                                                                                               {'loss': 0.0266, 'grad_norm': 0.015146619640290737, 'learning_rate': 9.145187862775209e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 270.05, 'epoch': 0.23}
+ 23%|██████████████████████████████████████▎                                                                                                                               | 131/568 [30:37<1:41:53, 13.99s/it] 23%|██████████████████████████████████████▌                                                                                                                               | 132/568 [30:51<1:41:08, 13.92s/it]                                                                                                                                                                                                               {'loss': 0.0241, 'grad_norm': 0.017035191878676414, 'learning_rate': 9.128851542731271e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 195.53, 'epoch': 0.23}
+ 23%|██████████████████████████████████████▌                                                                                                                               | 132/568 [30:51<1:41:08, 13.92s/it] 23%|██████████████████████████████████████▊                                                                                                                               | 133/568 [31:04<1:40:33, 13.87s/it]                                                                                                                                                                                                               {'loss': 0.0233, 'grad_norm': 0.013584651052951813, 'learning_rate': 9.112375476403312e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 216.71, 'epoch': 0.23}
+ 23%|██████████████████████████████████████▊                                                                                                                               | 133/568 [31:04<1:40:33, 13.87s/it] 24%|███████████████████████████████████████▏                                                                                                                              | 134/568 [31:18<1:40:40, 13.92s/it]                                                                                                                                                                                                               {'loss': 0.0251, 'grad_norm': 0.015820497646927834, 'learning_rate': 9.09576022144496e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 221.06, 'epoch': 0.24}
+ 24%|███████████████████████████████████████▏                                                                                                                              | 134/568 [31:18<1:40:40, 13.92s/it] 24%|███████████████████████████████████████▍                                                                                                                              | 135/568 [31:32<1:39:54, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.0241, 'grad_norm': 0.013938539661467075, 'learning_rate': 9.079006340220862e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 199.83, 'epoch': 0.24}
+ 24%|███████████████████████████████████████▍                                                                                                                              | 135/568 [31:32<1:39:54, 13.85s/it] 24%|███████████████████████████████████████▋                                                                                                                              | 136/568 [31:46<1:39:23, 13.80s/it]                                                                                                                                                                                                               {'loss': 0.0223, 'grad_norm': 0.01740802638232708, 'learning_rate': 9.062114399787647e-05, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 204.68, 'epoch': 0.24}
+ 24%|███████████████████████████████████████▋                                                                                                                              | 136/568 [31:46<1:39:23, 13.80s/it] 24%|████████████████████████████████████████                                                                                                                              | 137/568 [32:00<1:39:01, 13.79s/it]                                                                                                                                                                                                               {'loss': 0.0254, 'grad_norm': 0.01971898227930069, 'learning_rate': 9.045084971874738e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 186.0, 'epoch': 0.24}
+ 24%|████████████████████████████████████████                                                                                                                              | 137/568 [32:00<1:39:01, 13.79s/it] 24%|████████████████████████████████████████▎                                                                                                                             | 138/568 [32:13<1:39:08, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0249, 'grad_norm': 0.016201715916395187, 'learning_rate': 9.027918632864997e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 230.92, 'epoch': 0.24}
+ 24%|████████████████████████████████████████▎                                                                                                                             | 138/568 [32:13<1:39:08, 13.83s/it] 24%|████████████████████████████████████████▌                                                                                                                             | 139/568 [32:27<1:39:13, 13.88s/it]                                                                                                                                                                                                               {'loss': 0.0302, 'grad_norm': 0.016242053359746933, 'learning_rate': 9.01061596377522e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 202.97, 'epoch': 0.24}
+ 24%|████████████████████████████████████████▌                                                                                                                             | 139/568 [32:27<1:39:13, 13.88s/it] 25%|████████████████████████████████████████▉                                                                                                                             | 140/568 [32:41<1:38:50, 13.86s/it]                                                                                                                                                                                                               {'loss': 0.0216, 'grad_norm': 0.015034438110888004, 'learning_rate': 8.993177550236464e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 269.03, 'epoch': 0.25}
+ 25%|████████████████████████████████████████▉                                                                                                                             | 140/568 [32:41<1:38:50, 13.86s/it] 25%|█████████████████████████████████████████▏                                                                                                                            | 141/568 [32:55<1:38:51, 13.89s/it]                                                                                                                                                                                                               {'loss': 0.0325, 'grad_norm': 0.020838649943470955, 'learning_rate': 8.97560398247424e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 205.08, 'epoch': 0.25}
+ 25%|█████████████████████████████████████████▏                                                                                                                            | 141/568 [32:55<1:38:51, 13.89s/it] 25%|█████████████████████████████████████████▌                                                                                                                            | 142/568 [33:09<1:38:06, 13.82s/it]                                                                                                                                                                                                               {'loss': 0.0265, 'grad_norm': 0.017539363354444504, 'learning_rate': 8.957895855288517e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 156.29, 'epoch': 0.25}
+ 25%|█████████████████████████████████████████▌                                                                                                                            | 142/568 [33:09<1:38:06, 13.82s/it] 25%|█████████████████████████████████████████▊                                                                                                                            | 143/568 [33:23<1:37:35, 13.78s/it]                                                                                                                                                                                                               {'loss': 0.0243, 'grad_norm': 0.02170458808541298, 'learning_rate': 8.940053768033609e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 194.53, 'epoch': 0.25}
+ 25%|█████████████████████████████████████████▊                                                                                                                            | 143/568 [33:23<1:37:35, 13.78s/it] 25%|██████████████████████████████████████████                                                                                                                            | 144/568 [33:36<1:37:27, 13.79s/it]                                                                                                                                                                                                               {'loss': 0.0181, 'grad_norm': 0.02076008729636669, 'learning_rate': 8.922078324597879e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 230.51, 'epoch': 0.25}
+ 25%|██████████████████████████████████████████                                                                                                                            | 144/568 [33:36<1:37:27, 13.79s/it] 26%|██████████████████████████████████████████▍                                                                                                                           | 145/568 [33:50<1:37:30, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0275, 'grad_norm': 0.016680140048265457, 'learning_rate': 8.903970133383297e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 212.15, 'epoch': 0.26}
+ 26%|██████████████████████████████████████████▍                                                                                                                           | 145/568 [33:50<1:37:30, 13.83s/it] 26%|██████████████████████████████████████████▋                                                                                                                           | 146/568 [34:04<1:37:24, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.0276, 'grad_norm': 0.015401001088321209, 'learning_rate': 8.885729807284856e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 226.08, 'epoch': 0.26}
+ 26%|██████████████████████████████████████████▋                                                                                                                           | 146/568 [34:04<1:37:24, 13.85s/it] 26%|██████████████████████████████████████████▉                                                                                                                           | 147/568 [34:18<1:37:01, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0314, 'grad_norm': 0.012874818406999111, 'learning_rate': 8.86735796366982e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 229.62, 'epoch': 0.26}
+ 26%|██████████████████████████████████████████▉                                                                                                                           | 147/568 [34:18<1:37:01, 13.83s/it] 26%|███████████████████████████████████████████▎                                                                                                                          | 148/568 [34:32<1:36:47, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0309, 'grad_norm': 0.018159888684749603, 'learning_rate': 8.848855224356839e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 203.57, 'epoch': 0.26}
+ 26%|███████████████████████████████████████████▎                                                                                                                          | 148/568 [34:32<1:36:47, 13.83s/it] 26%|███████████████████████████████████████████▌                                                                                                                          | 149/568 [34:46<1:36:31, 13.82s/it]                                                                                                                                                                                                               {'loss': 0.0229, 'grad_norm': 0.01516785379499197, 'learning_rate': 8.83022221559489e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 245.74, 'epoch': 0.26}
+ 26%|███████████████████████████████████████████▌                                                                                                                          | 149/568 [34:46<1:36:31, 13.82s/it] 26%|███████████████████████████████████████████▊                                                                                                                          | 150/568 [34:59<1:36:11, 13.81s/it]                                                                                                                                                                                                               {'loss': 0.0245, 'grad_norm': 0.013449499383568764, 'learning_rate': 8.811459568042091e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 238.88, 'epoch': 0.26}
+ 26%|███████████████████████████████████████████▊                                                                                                                          | 150/568 [34:59<1:36:11, 13.81s/it] 27%|████████████████████████████████████████████▏                                                                                                                         | 151/568 [35:13<1:36:25, 13.87s/it]                                                                                                                                                                                                               {'loss': 0.023, 'grad_norm': 0.013881751336157322, 'learning_rate': 8.792567916744346e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 202.23, 'epoch': 0.27}
+ 27%|████████████████████████████████████████████▏                                                                                                                         | 151/568 [35:13<1:36:25, 13.87s/it] 27%|████████████████████████████████████████████▍                                                                                                                         | 152/568 [35:27<1:36:02, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.0288, 'grad_norm': 0.018240036442875862, 'learning_rate': 8.773547901113862e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 245.52, 'epoch': 0.27}
+ 27%|████████████████████████████████████████████▍                                                                                                                         | 152/568 [35:27<1:36:02, 13.85s/it] 27%|████████████████████████████████████████████▋                                                                                                                         | 153/568 [35:41<1:35:48, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.027, 'grad_norm': 0.01917373389005661, 'learning_rate': 8.754400164907497e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 224.35, 'epoch': 0.27}
+ 27%|████████████████████████████████████████████▋                                                                                                                         | 153/568 [35:41<1:35:48, 13.85s/it] 27%|█████████████████████████████████████████████                                                                                                                         | 154/568 [35:55<1:35:28, 13.84s/it]                                                                                                                                                                                                               {'loss': 0.0278, 'grad_norm': 0.021983666345477104, 'learning_rate': 8.73512535620498e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 230.54, 'epoch': 0.27}
+ 27%|█████████████████████████████████████████████                                                                                                                         | 154/568 [35:55<1:35:28, 13.84s/it] 27%|█████████████████████████████████████████████▎                                                                                                                        | 155/568 [36:09<1:35:03, 13.81s/it]                                                                                                                                                                                                               {'loss': 0.0225, 'grad_norm': 0.015930259600281715, 'learning_rate': 8.715724127386972e-05, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 250.48, 'epoch': 0.27}
+ 27%|█████████████████████████████████████████████▎                                                                                                                        | 155/568 [36:09<1:35:03, 13.81s/it] 27%|█████████████████████████████████████████████▌                                                                                                                        | 156/568 [36:22<1:34:42, 13.79s/it]                                                                                                                                                                                                               {'loss': 0.0335, 'grad_norm': 0.030166523531079292, 'learning_rate': 8.69619713511298e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 154.55, 'epoch': 0.27}
+ 27%|█████████████████████████████████████████████▌                                                                                                                        | 156/568 [36:22<1:34:42, 13.79s/it] 28%|█████████████████████████████████████████████▉                                                                                                                        | 157/568 [36:36<1:34:44, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0281, 'grad_norm': 0.017488356679677963, 'learning_rate': 8.676545040299145e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 213.75, 'epoch': 0.28}
+ 28%|█████████████████████████████████████████████▉                                                                                                                        | 157/568 [36:36<1:34:44, 13.83s/it] 28%|██████████████████████████████████████████████▏                                                                                                                       | 158/568 [36:50<1:34:04, 13.77s/it]                                                                                                                                                                                                               {'loss': 0.0337, 'grad_norm': 0.021205434575676918, 'learning_rate': 8.656768508095853e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 232.92, 'epoch': 0.28}
+ 28%|██████████████████████████████████████████████▏                                                                                                                       | 158/568 [36:50<1:34:04, 13.77s/it] 28%|██████████████████████████████████████████████▍                                                                                                                       | 159/568 [37:04<1:33:43, 13.75s/it]                                                                                                                                                                                                               {'loss': 0.0345, 'grad_norm': 0.016779722645878792, 'learning_rate': 8.636868207865244e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 223.68, 'epoch': 0.28}
+ 28%|██████████████████████████████████████████████▍                                                                                                                       | 159/568 [37:04<1:33:43, 13.75s/it] 28%|██████████████████████████████████████████████▊                                                                                                                       | 160/568 [37:17<1:33:42, 13.78s/it]                                                                                                                                                                                                               {'loss': 0.0307, 'grad_norm': 0.01706746593117714, 'learning_rate': 8.61684481315854e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 230.99, 'epoch': 0.28}
+ 28%|██████████████████████████████████████████████▊                                                                                                                       | 160/568 [37:17<1:33:42, 13.78s/it] 28%|███████████████████████████████████████████████                                                                                                                       | 161/568 [37:32<1:34:21, 13.91s/it]                                                                                                                                                                                                               {'loss': 0.0227, 'grad_norm': 0.022076545283198357, 'learning_rate': 8.596699001693255e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 265.9, 'epoch': 0.28}
+ 28%|███████████████████████████████████████████████                                                                                                                       | 161/568 [37:32<1:34:21, 13.91s/it] 29%|███████████████████████████████████████████████▎                                                                                                                      | 162/568 [37:46<1:34:06, 13.91s/it]                                                                                                                                                                                                               {'loss': 0.0271, 'grad_norm': 0.020234091207385063, 'learning_rate': 8.576431455330258e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 264.39, 'epoch': 0.29}
+ 29%|███████████████████████████████████████████████▎                                                                                                                      | 162/568 [37:46<1:34:06, 13.91s/it] 29%|███████████████████████████████████████████████▋                                                                                                                      | 163/568 [37:59<1:33:44, 13.89s/it]                                                                                                                                                                                                               {'loss': 0.0237, 'grad_norm': 0.014648223295807838, 'learning_rate': 8.556042860050687e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 252.27, 'epoch': 0.29}
+ 29%|███████████████████████████████████████████████▋                                                                                                                      | 163/568 [37:59<1:33:44, 13.89s/it] 29%|███████████████████��███████████████████████████▉                                                                                                                      | 164/568 [38:13<1:33:20, 13.86s/it]                                                                                                                                                                                                               {'loss': 0.0293, 'grad_norm': 0.01587636023759842, 'learning_rate': 8.535533905932738e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 238.65, 'epoch': 0.29}
+ 29%|███████████████████████████████████████████████▉                                                                                                                      | 164/568 [38:13<1:33:20, 13.86s/it] 29%|████████████████████████████████████████████████▏                                                                                                                     | 165/568 [38:27<1:33:40, 13.95s/it]                                                                                                                                                                                                               {'loss': 0.0231, 'grad_norm': 0.01702297478914261, 'learning_rate': 8.51490528712831e-05, 'memory/max_active (GiB)': 33.2, 'memory/max_allocated (GiB)': 33.2, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 227.83, 'epoch': 0.29}
+ 29%|████████████████████████████████████████████████▏                                                                                                                     | 165/568 [38:27<1:33:40, 13.95s/it] 29%|████████████████████████████████████████████████▌                                                                                                                     | 166/568 [38:41<1:33:13, 13.91s/it]                                                                                                                                                                                                               {'loss': 0.0231, 'grad_norm': 0.01416053157299757, 'learning_rate': 8.4941577018395e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.94, 'tokens_per_second_per_gpu': 251.57, 'epoch': 0.29}
+ 29%|████████████████████████████████████████████████▌                                                                                                                     | 166/568 [38:41<1:33:13, 13.91s/it] 29%|████████████████████████████████████████████████▊                                                                                                                     | 167/568 [38:55<1:32:45, 13.88s/it]                                                                                                                                                                                                               {'loss': 0.0285, 'grad_norm': 0.017972571775317192, 'learning_rate': 8.473291852294987e-05, 'memory/max_active (GiB)': 33.22, 'memory/max_allocated (GiB)': 33.22, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 261.27, 'epoch': 0.29}
+ 29%|████████████████████████████████████████████████▊                                                                                                                     | 167/568 [38:55<1:32:45, 13.88s/it] 30%|█████████████████████████████████████████████████                                                                                                                     | 168/568 [39:09<1:32:34, 13.89s/it]                                                                                                                                                                                                               {'loss': 0.0241, 'grad_norm': 0.017660530284047127, 'learning_rate': 8.452308444726249e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 229.7, 'epoch': 0.3}
+ 30%|███████████████████████████████████████��█████████                                                                                                                     | 168/568 [39:09<1:32:34, 13.89s/it] 30%|█████████████████████████████████████████████████▍                                                                                                                    | 169/568 [39:23<1:31:54, 13.82s/it]                                                                                                                                                                                                               {'loss': 0.0237, 'grad_norm': 0.017123248428106308, 'learning_rate': 8.43120818934367e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 216.64, 'epoch': 0.3}
+ 30%|█████████████████████████████████████████████████▍                                                                                                                    | 169/568 [39:23<1:31:54, 13.82s/it] 30%|█████████████████████████████████████████████████▋                                                                                                                    | 170/568 [39:36<1:31:43, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0275, 'grad_norm': 0.018590042367577553, 'learning_rate': 8.409991800312493e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 200.01, 'epoch': 0.3}
+ 30%|█████████████████████████████████████████████████▋                                                                                                                    | 170/568 [39:36<1:31:43, 13.83s/it] 30%|█████████████████████████████████████████████████▉                                                                                                                    | 171/568 [39:50<1:31:56, 13.90s/it]                                                                                                                                                                                                               {'loss': 0.0232, 'grad_norm': 0.017341002821922302, 'learning_rate': 8.388659995728663e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 298.39, 'epoch': 0.3}
+ 30%|█████████████████████████████████████████████████▉                                                                                                                    | 171/568 [39:50<1:31:56, 13.90s/it] 30%|██████████████████████████████████████████████████▎                                                                                                                   | 172/568 [40:04<1:31:22, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.0237, 'grad_norm': 0.013644326478242874, 'learning_rate': 8.367213497594502e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 278.24, 'epoch': 0.3}
+ 30%|██████████████████████████████████████████████████▎                                                                                                                   | 172/568 [40:04<1:31:22, 13.85s/it] 30%|██████████████████████████████████████████████████▌                                                                                                                   | 173/568 [40:18<1:30:47, 13.79s/it]                                                                                                                                                                                                               {'loss': 0.031, 'grad_norm': 0.020640840753912926, 'learning_rate': 8.345653031794292e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 207.43, 'epoch': 0.3}
+ 30%|██████████████████████████████████████████████████▌                                                                                                                   | 173/568 [40:18<1:30:47, 13.79s/it] 31%|██████████████████████████████████████████████████▊                                                                                                                   | 174/568 [40:32<1:30:39, 13.81s/it]                                                                                                                                                                                                               {'loss': 0.022, 'grad_norm': 0.016605312004685402, 'learning_rate': 8.323979328069689e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 231.95, 'epoch': 0.31}
+ 31%|██████████████████████████████████████████████████▊                                                                                                                   | 174/568 [40:32<1:30:39, 13.81s/it] 31%|███████████████████████████████████████████████████▏                                                                                                                  | 175/568 [40:45<1:29:47, 13.71s/it]                                                                                                                                                                                                               {'loss': 0.0245, 'grad_norm': 0.016268813982605934, 'learning_rate': 8.302193119995039e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 194.07, 'epoch': 0.31}
+ 31%|███████████████████████████████████████████████████▏                                                                                                                  | 175/568 [40:45<1:29:47, 13.71s/it] 31%|███████████████████████████████████████████████████▍                                                                                                                  | 176/568 [40:59<1:29:45, 13.74s/it]                                                                                                                                                                                                               {'loss': 0.0325, 'grad_norm': 0.021935859695076942, 'learning_rate': 8.280295144952536e-05, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 208.3, 'epoch': 0.31}
+ 31%|███████████████████████████████████████████████████▍                                                                                                                  | 176/568 [40:59<1:29:45, 13.74s/it] 31%|███████████████████████████████████████████████████▋                                                                                                                  | 177/568 [41:13<1:29:40, 13.76s/it]                                                                                                                                                                                                               {'loss': 0.0231, 'grad_norm': 0.01610567793250084, 'learning_rate': 8.258286144107276e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 189.95, 'epoch': 0.31}
+ 31%|███████████████████████████████████████████████████▋                                                                                                                  | 177/568 [41:13<1:29:40, 13.76s/it] 31%|████████████████████████████████████████████████████                                                                                                                  | 178/568 [41:27<1:30:02, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.0294, 'grad_norm': 0.018698574975132942, 'learning_rate': 8.236166862382163e-05, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 259.49, 'epoch': 0.31}
+ 31%|████████████████████████████████████████████████████                                                                                                                  | 178/568 [41:27<1:30:02, 13.85s/it] 32%|████████████████████████████████████████████████████▎                                                                                                                 | 179/568 [41:41<1:29:44, 13.84s/it]                                                                                                                                                                                                               {'loss': 0.0234, 'grad_norm': 0.04257921501994133, 'learning_rate': 8.213938048432697e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 211.54, 'epoch': 0.32}
+ 32%|████████████████████████████████████████████████████▎                                                                                                                 | 179/568 [41:41<1:29:44, 13.84s/it] 32%|████████████████████████████████████████████████████▌                                                                                                                 | 180/568 [41:54<1:29:22, 13.82s/it]                                                                                                                                                                                                               {'loss': 0.0264, 'grad_norm': 0.014702661894261837, 'learning_rate': 8.191600454621642e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 229.19, 'epoch': 0.32}
+ 32%|████████████████████████████████████████████████████▌                                                                                                                 | 180/568 [41:54<1:29:22, 13.82s/it][2025-11-17 19:58:33,048] [INFO] [axolotl.core.trainers.base._save:665] [PID:26868] Saving model checkpoint to ./lora-sout-SC-highseq-len/checkpoint-180
+ 32%|████████████████████████████████████████████████████▉                                                                                                                 | 181/568 [42:20<1:52:07, 17.38s/it]                                                                                                                                                                                                               {'loss': 0.0308, 'grad_norm': 0.025174081325531006, 'learning_rate': 8.169154836993551e-05, 'memory/max_active (GiB)': 33.2, 'memory/max_allocated (GiB)': 33.2, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 187.49, 'epoch': 0.32}
+ 32%|████████████████████████████████████████████████████▉                                                                                                                 | 181/568 [42:20<1:52:07, 17.38s/it] 32%|█████████████████████████████████████████████████████▏                                                                                                                | 182/568 [42:34<1:45:17, 16.37s/it]                                                                                                                                                                                                               {'loss': 0.0313, 'grad_norm': 0.01971006579697132, 'learning_rate': 8.146601955249188e-05, 'memory/max_active (GiB)': 33.2, 'memory/max_allocated (GiB)': 33.2, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 273.19, 'epoch': 0.32}
+ 32%|██████████████████████████████████████████████���██████▏                                                                                                                | 182/568 [42:34<1:45:17, 16.37s/it] 32%|█████████████████████████████████████████████████████▍                                                                                                                | 183/568 [42:48<1:39:41, 15.54s/it]                                                                                                                                                                                                               {'loss': 0.0212, 'grad_norm': 0.01812196522951126, 'learning_rate': 8.1239425727198e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 244.16, 'epoch': 0.32}
+ 32%|█████████████████████████████████████████████████████▍                                                                                                                | 183/568 [42:48<1:39:41, 15.54s/it] 32%|█████████████████████████████████████████████████████▊                                                                                                                | 184/568 [43:01<1:35:56, 14.99s/it]                                                                                                                                                                                                               {'loss': 0.0294, 'grad_norm': 0.017906328663229942, 'learning_rate': 8.1011774563413e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 222.35, 'epoch': 0.32}
+ 32%|█████████████████████████████████████████████████████▊                                                                                                                | 184/568 [43:01<1:35:56, 14.99s/it] 33%|██████████████████████████████████████████████████████                                                                                                                | 185/568 [43:15<1:33:21, 14.63s/it]                                                                                                                                                                                                               {'loss': 0.0195, 'grad_norm': 0.01803252100944519, 'learning_rate': 8.07830737662829e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 244.56, 'epoch': 0.33}
+ 33%|██████████████████████████████████████████████████████                                                                                                                | 185/568 [43:15<1:33:21, 14.63s/it] 33%|██████████████████████████████████████████████████████▎                                                                                                               | 186/568 [43:29<1:31:17, 14.34s/it]                                                                                                                                                                                                               {'loss': 0.0289, 'grad_norm': 0.01990543305873871, 'learning_rate': 8.055333107647999e-05, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 176.15, 'epoch': 0.33}
+ 33%|██████████████████████████████████████████████████████▎                                                                                                               | 186/568 [43:29<1:31:17, 14.34s/it] 33%|██████████████████████████████████████████████████████▋                                                                                                               | 187/568 [43:43<1:30:15, 14.21s/it]                                                                                                                                                                                                               {'loss': 0.0295, 'grad_norm': 0.01972186006605625, 'learning_rate': 8.032255426994069e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 234.79, 'epoch': 0.33}
+ 33%|██████████████████████████████████████████████████████▋                                                                                                               | 187/568 [43:43<1:30:15, 14.21s/it] 33%|██████████████████████████████████████████████████████▉                                                                                                               | 188/568 [43:56<1:28:52, 14.03s/it]                                                                                                                                                                                                               {'loss': 0.0216, 'grad_norm': 0.014673265628516674, 'learning_rate': 8.009075115760243e-05, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 232.11, 'epoch': 0.33}
+ 33%|██████████████████████████████████████████████████████▉                                                                                                               | 188/568 [43:56<1:28:52, 14.03s/it] 33%|███████████████████████████████████████████████████████▏                                                                                                              | 189/568 [44:10<1:28:17, 13.98s/it]                                                                                                                                                                                                               {'loss': 0.0276, 'grad_norm': 0.018987227231264114, 'learning_rate': 7.985792958513931e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 190.34, 'epoch': 0.33}
+ 33%|███████████████████████████████████████████████████████▏                                                                                                              | 189/568 [44:10<1:28:17, 13.98s/it] 33%|███████████████████████████████████████████████████████▌                                                                                                              | 190/568 [44:24<1:27:42, 13.92s/it]                                                                                                                                                                                                               {'loss': 0.0221, 'grad_norm': 0.014141203835606575, 'learning_rate': 7.962409743269654e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 263.49, 'epoch': 0.33}
+ 33%|███████████████████████████████████████████████████████▌                                                                                                              | 190/568 [44:24<1:27:42, 13.92s/it] 34%|███████████████████████████████████████████████████████▊                                                                                                              | 191/568 [44:38<1:27:12, 13.88s/it]                                                                                                                                                                                                               {'loss': 0.031, 'grad_norm': 0.02042289264500141, 'learning_rate': 7.938926261462366e-05, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 204.48, 'epoch': 0.34}
+ 34%|███████████████████████████████████████████████████████▊                                                                                                              | 191/568 [44:38<1:27:12, 13.88s/it] 34%|████████████████████████████████████████████████████████                                                                                                              | 192/568 [44:52<1:26:53, 13.87s/it]                                                                                                                                                                                                               {'loss': 0.0172, 'grad_norm': 0.012397798709571362, 'learning_rate': 7.915343307920674e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 250.35, 'epoch': 0.34}
+ 34%|████████████████████████████████████████████████████████                                                                                                              | 192/568 [44:52<1:26:53, 13.87s/it] 34%|████████████████████████████████████████████████████████▍                                                                                                             | 193/568 [45:05<1:26:13, 13.80s/it]                                                                                                                                                                                                               {'loss': 0.0316, 'grad_norm': 0.02127564512193203, 'learning_rate': 7.891661680839932e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 211.21, 'epoch': 0.34}
+ 34%|████████████████████████████████████████████████████████▍                                                                                                             | 193/568 [45:05<1:26:13, 13.80s/it] 34%|████████████████████████████████████████████████████████▋                                                                                                             | 194/568 [45:19<1:26:22, 13.86s/it]                                                                                                                                                                                                               {'loss': 0.0247, 'grad_norm': 0.014923492446541786, 'learning_rate': 7.86788218175523e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 210.08, 'epoch': 0.34}
+ 34%|████████████████████████████████████████████████████████▋                                                                                                             | 194/568 [45:19<1:26:22, 13.86s/it] 34%|████████████████████████████████████████████████████████▉                                                                                                             | 195/568 [45:33<1:25:54, 13.82s/it]                                                                                                                                                                                                               {'loss': 0.0244, 'grad_norm': 0.01579241268336773, 'learning_rate': 7.844005615514259e-05, 'memory/max_active (GiB)': 33.05, 'memory/max_allocated (GiB)': 33.05, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 268.43, 'epoch': 0.34}
+ 34%|████████████████████████████████████████████████████████▉                                                                                                             | 195/568 [45:33<1:25:54, 13.82s/it] 35%|█████████████████████████████████████████████████████████▎                                                                                                            | 196/568 [45:47<1:25:28, 13.79s/it]                                                                                                                                                                                                               {'loss': 0.0223, 'grad_norm': 0.013458792120218277, 'learning_rate': 7.820032790250074e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 244.83, 'epoch': 0.35}
+ 35%|█████████████████████████████████████████████████████████▎                                                                                                            | 196/568 [45:47<1:25:28, 13.79s/it] 35%|█████████████████████████████████████████████████████████▌                                                                                                            | 197/568 [46:01<1:25:17, 13.79s/it]                                                                                                                                                                                                               {'loss': 0.0216, 'grad_norm': 0.025073185563087463, 'learning_rate': 7.795964517353735e-05, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 204.06, 'epoch': 0.35}
+ 35%|█████████████████████████████████████████████████████████▌                                                                                                            | 197/568 [46:01<1:25:17, 13.79s/it] 35%|█████████████████████████████████████████████████████████▊                                                                                                            | 198/568 [46:14<1:24:54, 13.77s/it]                                                                                                                                                                                                               {'loss': 0.031, 'grad_norm': 0.01698138937354088, 'learning_rate': 7.771801611446858e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 215.11, 'epoch': 0.35}
+ 35%|█████████████████████████████████████████████████████████▊                                                                                                            | 198/568 [46:14<1:24:54, 13.77s/it] 35%|██████████████████████████████████████████████████████████▏                                                                                                           | 199/568 [46:28<1:24:44, 13.78s/it]                                                                                                                                                                                                               {'loss': 0.0333, 'grad_norm': 0.0193371269851923, 'learning_rate': 7.74754489035403e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 183.97, 'epoch': 0.35}
+ 35%|██████████████████████████████████████████████████████████▏                                                                                                           | 199/568 [46:28<1:24:44, 13.78s/it] 35%|██████████████████████████████████████████████████████████▍                                                                                                           | 200/568 [46:42<1:24:29, 13.78s/it]                                                                                                                                                                                                               {'loss': 0.0217, 'grad_norm': 0.014391884207725525, 'learning_rate': 7.723195175075136e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 215.27, 'epoch': 0.35}
+ 35%|██████████████████████████████████████████████████████████▍                                                                                                           | 200/568 [46:42<1:24:29, 13.78s/it] 35%|██████████████████████████████████████████████████████████▋                                                                                                           | 201/568 [46:56<1:24:29, 13.81s/it]                                                                                                                                                                                                               {'loss': 0.0383, 'grad_norm': 0.0238618366420269, 'learning_rate': 7.698753289757565e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 207.44, 'epoch': 0.35}
+ 35%|██████████████████████████████████████████████████████████▋                                                                                                           | 201/568 [46:56<1:24:29, 13.81s/it] 36%|███████████████████████████████████████████████████████████                                                                                                           | 202/568 [47:10<1:24:25, 13.84s/it]                                                                                                                                                                                                               {'loss': 0.0271, 'grad_norm': 0.021381359547376633, 'learning_rate': 7.674220061668322e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 240.06, 'epoch': 0.36}
+ 36%|███████████████████████████████████████████████████████████                                                                                                           | 202/568 [47:10<1:24:25, 13.84s/it] 36%|███████████████████████████████████████████████████████████▎                                                                                                          | 203/568 [47:23<1:23:50, 13.78s/it]                                                                                                                                                                                                               {'loss': 0.0262, 'grad_norm': 0.014866583049297333, 'learning_rate': 7.649596321166024e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 260.49, 'epoch': 0.36}
+ 36%|███████████████████████████████████████████████████████████▎                                                                                                          | 203/568 [47:23<1:23:50, 13.78s/it] 36%|███████████████████████████████████████████████████████████▌                                                                                                          | 204/568 [47:37<1:23:47, 13.81s/it]                                                                                                                                                                                                               {'loss': 0.0212, 'grad_norm': 0.015771988779306412, 'learning_rate': 7.6248829016728e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 201.42, 'epoch': 0.36}
+ 36%|███████████████████████████████████████████████████████████▌                                                                                                          | 204/568 [47:37<1:23:47, 13.81s/it] 36%|███████████████████████████████████████████████████████████▉                                                                                                          | 205/568 [47:51<1:23:38, 13.82s/it]                                                                                                                                                                                                               {'loss': 0.0204, 'grad_norm': 0.01401954423636198, 'learning_rate': 7.600080639646077e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 250.55, 'epoch': 0.36}
+ 36%|███████████████████████████████████████████████████████████▉                                                                                                          | 205/568 [47:51<1:23:38, 13.82s/it] 36%|████████████████████████████████████████████████████████████▏                                                                                                         | 206/568 [48:05<1:23:08, 13.78s/it]                                                                                                                                                                                                               {'loss': 0.0178, 'grad_norm': 0.013843574561178684, 'learning_rate': 7.575190374550272e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 225.02, 'epoch': 0.36}
+ 36%|████████████████████████████████████████████████████████████▏                                                                                                         | 206/568 [48:05<1:23:08, 13.78s/it] 36%|████████████████████████████████████████████████████████████▍                                                                                                         | 207/568 [48:18<1:22:41, 13.74s/it]                                                                                                                                                                                                               {'loss': 0.0313, 'grad_norm': 0.016927773132920265, 'learning_rate': 7.550212948828377e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 262.93, 'epoch': 0.36}
+ 36%|████████████████████████████████████████████████████████████▍                                                                                                         | 207/568 [48:18<1:22:41, 13.74s/it] 37%|████████████████████████████████████████████████████████████▊                                                                                                         | 208/568 [48:32<1:22:43, 13.79s/it]                                                                                                                                                                                                               {'loss': 0.026, 'grad_norm': 0.016107792034745216, 'learning_rate': 7.52514920787345e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 203.59, 'epoch': 0.37}
+ 37%|████████████████████████████████████████████████████████████▊                                                                                                         | 208/568 [48:32<1:22:43, 13.79s/it] 37%|█████████████████████████████████████████████████████████████                                                                                                         | 209/568 [48:46<1:22:24, 13.77s/it]                                                                                                                                                                                                               {'loss': 0.0389, 'grad_norm': 0.01631510630249977, 'learning_rate': 7.500000000000001e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 225.2, 'epoch': 0.37}
+ 37%|█████████████████████████████████████████████████████████████                                                                                                         | 209/568 [48:46<1:22:24, 13.77s/it] 37%|█████████████████████████████████████████████████████████████▎                                                                                                        | 210/568 [49:00<1:22:52, 13.89s/it]                                                                                                                                                                                                               {'loss': 0.0303, 'grad_norm': 0.02354901283979416, 'learning_rate': 7.474766176415271e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 237.02, 'epoch': 0.37}
+ 37%|█████████████████████████████████████████████████████████████▎                                                                                                        | 210/568 [49:00<1:22:52, 13.89s/it] 37%|█████████████████████████████████████████████████████████████▋                                                                                                        | 211/568 [49:14<1:22:12, 13.82s/it]                                                                                                                                                                                                               {'loss': 0.023, 'grad_norm': 0.012384982779622078, 'learning_rate': 7.449448591190435e-05, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 246.94, 'epoch': 0.37}
+ 37%|█████████████████████████████████████████████████████████████▋                                                                                                        | 211/568 [49:14<1:22:12, 13.82s/it] 37%|█████████████████████████████████████████████████████████████▉                                                                                                        | 212/568 [49:27<1:21:35, 13.75s/it]                                                                                                                                                                                                               {'loss': 0.0299, 'grad_norm': 0.018960656598210335, 'learning_rate': 7.424048101231686e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 194.59, 'epoch': 0.37}
+ 37%|█████████████████████████████████████████████████████████████▉                                                                                                        | 212/568 [49:27<1:21:35, 13.75s/it] 38%|██████████████████████████████████████████████████████████████▎                                                                                                       | 213/568 [49:41<1:21:16, 13.74s/it]                                                                                                                                                                                                               {'loss': 0.0267, 'grad_norm': 0.016065003350377083, 'learning_rate': 7.398565566251232e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 247.67, 'epoch': 0.38}
+ 38%|██████████████████████████████████████████████████████████████▎                                                                                                       | 213/568 [49:41<1:21:16, 13.74s/it] 38%|██████████████████████████████████████████████████████████████▌                                                                                                       | 214/568 [49:55<1:21:32, 13.82s/it]                                                                                                                                                                                                               {'loss': 0.0171, 'grad_norm': 0.014324337244033813, 'learning_rate': 7.373001848738202e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 241.28, 'epoch': 0.38}
+ 38%|██████████████████████████████████████████████████████████████▌                                                                                                       | 214/568 [49:55<1:21:32, 13.82s/it] 38%|███████████████████████��██████████████████████████████████████▊                                                                                                       | 215/568 [50:09<1:21:14, 13.81s/it]                                                                                                                                                                                                               {'loss': 0.0295, 'grad_norm': 0.04375755414366722, 'learning_rate': 7.347357813929454e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 192.52, 'epoch': 0.38}
+ 38%|██████████████████████████████████████████████████████████████▊                                                                                                       | 215/568 [50:09<1:21:14, 13.81s/it] 38%|███████████████████████████████████████████████████████████████▏                                                                                                      | 216/568 [50:23<1:21:18, 13.86s/it]                                                                                                                                                                                                               {'loss': 0.0206, 'grad_norm': 0.012969703413546085, 'learning_rate': 7.321634329780286e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 248.21, 'epoch': 0.38}
+ 38%|███████████████████████████████████████████████████████████████▏                                                                                                      | 216/568 [50:23<1:21:18, 13.86s/it] 38%|███████████████████████████████████████████████████████████████▍                                                                                                      | 217/568 [50:37<1:20:42, 13.80s/it]                                                                                                                                                                                                               {'loss': 0.0317, 'grad_norm': 0.020073411986231804, 'learning_rate': 7.295832266935059e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 213.45, 'epoch': 0.38}
+ 38%|███████████████████████████████████████████████████████████████▍                                                                                                      | 217/568 [50:37<1:20:42, 13.80s/it] 38%|███████████████████████████████████████████████████████████████▋                                                                                                      | 218/568 [50:50<1:20:33, 13.81s/it]                                                                                                                                                                                                               {'loss': 0.0237, 'grad_norm': 0.015381385572254658, 'learning_rate': 7.269952498697734e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 273.7, 'epoch': 0.38}
+ 38%|███████████████████████████████████████████████████████████████▋                                                                                                      | 218/568 [50:50<1:20:33, 13.81s/it] 39%|████████████████████████████████████████████████████████████████                                                                                                      | 219/568 [51:04<1:20:35, 13.86s/it]                                                                                                                                                                                                               {'loss': 0.024, 'grad_norm': 0.015061084181070328, 'learning_rate': 7.243995901002312e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 252.86, 'epoch': 0.39}
+ 39%|████████████████████████████████████████████████████████████████                                                                                                      | 219/568 [51:04<1:20:35, 13.86s/it] 39%|████████████████████████████████████████████████████████████████▎                                                                                                     | 220/568 [51:18<1:20:11, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0301, 'grad_norm': 0.020372625440359116, 'learning_rate': 7.217963352383181e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 235.5, 'epoch': 0.39}
+ 39%|████████████████████████████████████████████████████████████████▎                                                                                                     | 220/568 [51:18<1:20:11, 13.83s/it] 39%|████████████████████████████████████████████████████████████████▌                                                                                                     | 221/568 [51:32<1:19:49, 13.80s/it]                                                                                                                                                                                                               {'loss': 0.0363, 'grad_norm': 0.016837403178215027, 'learning_rate': 7.191855733945387e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 244.15, 'epoch': 0.39}
+ 39%|████████████████████████████████████████████████████████████████▌                                                                                                     | 221/568 [51:32<1:19:49, 13.80s/it] 39%|████████████████████████████████████████████████████████████████▉                                                                                                     | 222/568 [51:46<1:19:42, 13.82s/it]                                                                                                                                                                                                               {'loss': 0.0246, 'grad_norm': 0.012751933187246323, 'learning_rate': 7.165673929334816e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 220.4, 'epoch': 0.39}
+ 39%|████████████████████████████████████████████████████████████████▉                                                                                                     | 222/568 [51:46<1:19:42, 13.82s/it] 39%|█████████████████████████████████████████████████████████████████▏                                                                                                    | 223/568 [52:00<1:19:44, 13.87s/it]                                                                                                                                                                                                               {'loss': 0.0178, 'grad_norm': 0.012647525407373905, 'learning_rate': 7.139418824708272e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 290.71, 'epoch': 0.39}
+ 39%|█████████████████████████████████████████████████████████████████▏                                                                                                    | 223/568 [52:00<1:19:44, 13.87s/it] 39%|█████████████████████████���███████████████████████████████████████▍                                                                                                    | 224/568 [52:13<1:19:23, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.041, 'grad_norm': 0.01797962747514248, 'learning_rate': 7.113091308703498e-05, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 227.42, 'epoch': 0.39}
+ 39%|█████████████████████████████████████████████████████████████████▍                                                                                                    | 224/568 [52:13<1:19:23, 13.85s/it] 40%|█████████████████████████████████████████████████████████████████▊                                                                                                    | 225/568 [52:27<1:18:58, 13.81s/it]                                                                                                                                                                                                               {'loss': 0.0351, 'grad_norm': 0.017018232494592667, 'learning_rate': 7.08669227240909e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 190.08, 'epoch': 0.4}
+ 40%|█████████████████████████████████████████████████████████████████▊                                                                                                    | 225/568 [52:27<1:18:58, 13.81s/it] 40%|██████████████████████████████████████████████████████████████████                                                                                                    | 226/568 [52:41<1:18:38, 13.80s/it]                                                                                                                                                                                                               {'loss': 0.031, 'grad_norm': 0.015828987583518028, 'learning_rate': 7.060222609334343e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 222.16, 'epoch': 0.4}
+ 40%|██████████████████████████████████████████████████████████████████                                                                                                    | 226/568 [52:41<1:18:38, 13.80s/it] 40%|██████████████████████████████████████████████████████████████████▎                                                                                                   | 227/568 [52:55<1:18:49, 13.87s/it]                                                                                                                                                                                                               {'loss': 0.0186, 'grad_norm': 0.013355814851820469, 'learning_rate': 7.033683215379002e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 235.04, 'epoch': 0.4}
+ 40%|██████████████████████████████████████████████████████████████████▎                                                                                                   | 227/568 [52:55<1:18:49, 13.87s/it] 40%|██████████████████████████████████████████████████████████████████▋                                                                                                   | 228/568 [53:09<1:18:29, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.0207, 'grad_norm': 0.01937856525182724, 'learning_rate': 7.007074988802946e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 238.95, 'epoch': 0.4}
+ 40%|██████████████████████████████████████████████████████████████████▋                                                                                                   | 228/568 [53:09<1:18:29, 13.85s/it] 40%|██████████████████████████████████████████████████████████████████▉                                                                                                   | 229/568 [53:23<1:18:19, 13.86s/it]                                                                                                                                                                                                               {'loss': 0.0311, 'grad_norm': 0.01728980243206024, 'learning_rate': 6.980398830195785e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 196.85, 'epoch': 0.4}
+ 40%|██████████████████████████████████████████████████████████████████▉                                                                                                   | 229/568 [53:23<1:18:19, 13.86s/it] 40%|███████████████████████████████████████████████████████████████████▏                                                                                                  | 230/568 [53:37<1:17:57, 13.84s/it]                                                                                                                                                                                                               {'loss': 0.0251, 'grad_norm': 0.017277274280786514, 'learning_rate': 6.953655642446368e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 267.08, 'epoch': 0.4}
+ 40%|███████████████████████████████████████████████████████████████████▏                                                                                                  | 230/568 [53:37<1:17:57, 13.84s/it] 41%|███████████████████████████████████████████████████████████████████▌                                                                                                  | 231/568 [53:51<1:18:26, 13.97s/it]                                                                                                                                                                                                               {'loss': 0.032, 'grad_norm': 0.014904304407536983, 'learning_rate': 6.926846330712242e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 184.66, 'epoch': 0.41}
+ 41%|███████████████████████████████████████████████████████████████████▌                                                                                                  | 231/568 [53:51<1:18:26, 13.97s/it] 41%|███████████████████████████████████████████████████████████████████▊                                                                                                  | 232/568 [54:05<1:18:01, 13.93s/it]                                                                                                                                                                                                               {'loss': 0.0196, 'grad_norm': 0.014492645859718323, 'learning_rate': 6.899971802388996e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 270.41, 'epoch': 0.41}
+ 41%|███████████████████████████████████████████████████████████████████▊                                                                                                  | 232/568 [54:05<1:18:01, 13.93s/it] 41%|████████████████████████████████████████████████████████████████████                                                                                                  | 233/568 [54:18<1:17:11, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0241, 'grad_norm': 0.01747562363743782, 'learning_rate': 6.873032967079561e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 216.13, 'epoch': 0.41}
+ 41%|████████████████████████████████████████████████████████████████████                                                                                                  | 233/568 [54:18<1:17:11, 13.83s/it] 41%|████████████████████████████████████████████████████████████████████▍                                                                                                 | 234/568 [54:32<1:17:05, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.022, 'grad_norm': 0.016064273193478584, 'learning_rate': 6.846030736563422e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 233.99, 'epoch': 0.41}
+ 41%|████████████████████████████████████████████████████████████████████▍                                                                                                 | 234/568 [54:32<1:17:05, 13.85s/it] 41%|████████████████████████████████████████████████████████████████████▋                                                                                                 | 235/568 [54:46<1:16:30, 13.78s/it]                                                                                                                                                                                                               {'loss': 0.0261, 'grad_norm': 0.016758009791374207, 'learning_rate': 6.818966024765758e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 196.67, 'epoch': 0.41}
+ 41%|████████████████████████████████████████████████████████████████████▋                                                                                                 | 235/568 [54:46<1:16:30, 13.78s/it] 42%|████████████████████████████████████████████████████████████████████▉                                                                                                 | 236/568 [54:59<1:16:08, 13.76s/it]                                                                                                                                                                                                               {'loss': 0.0206, 'grad_norm': 0.017869137227535248, 'learning_rate': 6.7918397477265e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 230.71, 'epoch': 0.42}
+ 42%|████████████████████████████████████████████████████████████████████▉                                                                                                 | 236/568 [54:59<1:16:08, 13.76s/it] 42%|█████████████████████████████████████████████████████████████████████▎                                                                                                | 237/568 [55:13<1:15:59, 13.77s/it]                                                                                                                                                                                                               {'loss': 0.0268, 'grad_norm': 0.018925966694951057, 'learning_rate': 6.764652823569344e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 295.01, 'epoch': 0.42}
+ 42%|█████████████████████████████████████████████████████████████████████▎                                                                                                | 237/568 [55:13<1:15:59, 13.77s/it] 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                | 238/568 [55:27<1:15:55, 13.80s/it]                                                                                                                                                                                                               {'loss': 0.0364, 'grad_norm': 0.016606392338871956, 'learning_rate': 6.737406172470657e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 221.47, 'epoch': 0.42}
+ 42%|█████████████████████████████████████████████████████████████████████▌                                                                                                | 238/568 [55:27<1:15:55, 13.80s/it] 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                | 239/568 [55:41<1:15:43, 13.81s/it]                                                                                                                                                                                                               {'loss': 0.0297, 'grad_norm': 0.018311750143766403, 'learning_rate': 6.710100716628344e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 249.7, 'epoch': 0.42}
+ 42%|█████████████████████████████████████████████████████████████████████▊                                                                                                | 239/568 [55:41<1:15:43, 13.81s/it] 42%|██████████████████████████████████████████████████████████████████████▏                                                                                               | 240/568 [55:55<1:15:37, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0201, 'grad_norm': 0.044075507670640945, 'learning_rate': 6.682737380230633e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 259.29, 'epoch': 0.42}
+ 42%|██████████████████████████████████████████████████████████████████████▏                                                                                               | 240/568 [55:55<1:15:37, 13.83s/it][2025-11-17 20:12:33,928] [INFO] [axolotl.core.trainers.base._save:665] [PID:26868] Saving model checkpoint to ./lora-sout-SC-highseq-len/checkpoint-240
+ 42%|██████████████████████████████████████████████████████████████████████▍                                                                                               | 241/568 [56:21<1:35:31, 17.53s/it]                                                                                                                                                                                                               {'loss': 0.0258, 'grad_norm': 0.011284176260232925, 'learning_rate': 6.65531708942479e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 237.49, 'epoch': 0.42}
+ 42%|████���█████████████████████████████████████████████████████████████████▍                                                                                               | 241/568 [56:21<1:35:31, 17.53s/it] 43%|██████████████████████████████████████████████████████████████████████▋                                                                                               | 242/568 [56:35<1:29:29, 16.47s/it]                                                                                                                                                                                                               {'loss': 0.0244, 'grad_norm': 0.014873404987156391, 'learning_rate': 6.627840772285784e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 200.51, 'epoch': 0.43}
+ 43%|██████████████████████████████████████████████████████████████████████▋                                                                                               | 242/568 [56:35<1:29:29, 16.47s/it] 43%|███████████████████████████████████████████████████████████████████████                                                                                               | 243/568 [56:49<1:24:54, 15.68s/it]                                                                                                                                                                                                               {'loss': 0.0319, 'grad_norm': 0.017449481412768364, 'learning_rate': 6.600309358784857e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 212.66, 'epoch': 0.43}
+ 43%|███████████████████████████████████████████████████████████████████████                                                                                               | 243/568 [56:49<1:24:54, 15.68s/it] 43%|███████████████████████████████████████████████████████████████████████▎                                                                                              | 244/568 [57:03<1:21:31, 15.10s/it]                                                                                                                                                                                                               {'loss': 0.0288, 'grad_norm': 0.020303819328546524, 'learning_rate': 6.572723780758069e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 237.4, 'epoch': 0.43}
+ 43%|███████████████████████████████████████████████████████████████████████▎                                                                                              | 244/568 [57:03<1:21:31, 15.10s/it] 43%|███████████████████████████████████████████████████████████████████████▌                                                                                              | 245/568 [57:16<1:19:14, 14.72s/it]                                                                                                                                                                                                               {'loss': 0.0319, 'grad_norm': 0.015935949981212616, 'learning_rate': 6.545084971874738e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 193.33, 'epoch': 0.43}
+ 43%|███████████████████████████████████████████████████████████████████████▌                                                                                              | 245/568 [57:16<1:19:14, 14.72s/it] 43%|███████████████████████████████████████████████████████████████████████▉                                                                                              | 246/568 [57:30<1:17:33, 14.45s/it]                                                                                                                                                                                                               {'loss': 0.0248, 'grad_norm': 0.017408033832907677, 'learning_rate': 6.517393867605855e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 215.82, 'epoch': 0.43}
+ 43%|███████████████████████████████████████████████████████████████████████▉                                                                                              | 246/568 [57:30<1:17:33, 14.45s/it] 43%|████████████████████████████████████████████████████████████████████████▏                                                                                             | 247/568 [57:44<1:16:30, 14.30s/it]                                                                                                                                                                                                               {'loss': 0.028, 'grad_norm': 0.017296139150857925, 'learning_rate': 6.48965140519241e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 193.82, 'epoch': 0.43}
+ 43%|████████████████████████████████████████████████████████████████████████▏                                                                                             | 247/568 [57:44<1:16:30, 14.30s/it] 44%|████████████████████████████████████████████████████████████████████████▍                                                                                             | 248/568 [57:58<1:15:48, 14.21s/it]                                                                                                                                                                                                               {'loss': 0.0287, 'grad_norm': 0.017478659749031067, 'learning_rate': 6.461858523613684e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 222.34, 'epoch': 0.44}
+ 44%|████████████████████████████████████████████████████████████████████████▍                                                                                             | 248/568 [57:58<1:15:48, 14.21s/it] 44%|████████████████████████████████████████████████████████████████████████▊                                                                                             | 249/568 [58:12<1:14:43, 14.06s/it]                                                                                                                                                                                                               {'loss': 0.0317, 'grad_norm': 0.016510246321558952, 'learning_rate': 6.434016163555452e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 254.23, 'epoch': 0.44}
+ 44%|████████████████████████████████████████████████████████████████████████▊                                                                                             | 249/568 [58:12<1:14:43, 14.06s/it] 44%|█████████████████████████████████████████████████████████████████████████                                                                                             | 250/568 [58:26<1:14:03, 13.97s/it]                                                                                                                                                                                                               {'loss': 0.0276, 'grad_norm': 0.014339200221002102, 'learning_rate': 6.406125267378154e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 193.82, 'epoch': 0.44}
+ 44%|█████████████████████████████████████████████████████████████████████████                                                                                             | 250/568 [58:26<1:14:03, 13.97s/it] 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                            | 251/568 [58:39<1:13:20, 13.88s/it]                                                                                                                                                                                                               {'loss': 0.0319, 'grad_norm': 0.01713711768388748, 'learning_rate': 6.378186779084995e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 256.64, 'epoch': 0.44}
+ 44%|█████████████████████████████████████████████████████████████████████████▎                                                                                            | 251/568 [58:39<1:13:20, 13.88s/it] 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                            | 252/568 [58:53<1:13:01, 13.86s/it]                                                                                                                                                                                                               {'loss': 0.0233, 'grad_norm': 0.01634989120066166, 'learning_rate': 6.350201644290005e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 228.48, 'epoch': 0.44}
+ 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                            | 252/568 [58:53<1:13:01, 13.86s/it] 45%|█████████████████████████████████████████████████████████████████████████▉                                                                                            | 253/568 [59:07<1:12:44, 13.86s/it]                                                                                                                                                                                                               {'loss': 0.0225, 'grad_norm': 0.013791313394904137, 'learning_rate': 6.322170810186012e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 285.92, 'epoch': 0.45}
+ 45%|█████████████████████████████████████████████████████████████████████████▉                                                                                            | 253/568 [59:07<1:12:44, 13.86s/it] 45%|██████████████████████████████████████████████████████████████████████████▏                                                                                           | 254/568 [59:21<1:12:33, 13.86s/it]                                                                                                                                                                                                               {'loss': 0.0214, 'grad_norm': 0.014389974065124989, 'learning_rate': 6.294095225512603e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 242.49, 'epoch': 0.45}
+ 45%|████████████████████████████████████████████████████��█████████████████████▏                                                                                           | 254/568 [59:21<1:12:33, 13.86s/it] 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                           | 255/568 [59:35<1:12:03, 13.81s/it]                                                                                                                                                                                                               {'loss': 0.0254, 'grad_norm': 0.015594406984746456, 'learning_rate': 6.26597584052401e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 225.3, 'epoch': 0.45}
+ 45%|██████████████████████████████████████████████████████████████████████████▌                                                                                           | 255/568 [59:35<1:12:03, 13.81s/it] 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                           | 256/568 [59:49<1:12:15, 13.90s/it]                                                                                                                                                                                                               {'loss': 0.021, 'grad_norm': 0.019493918865919113, 'learning_rate': 6.23781360695693e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 234.78, 'epoch': 0.45}
+ 45%|██████████████████████████████████████████████████████████████████████████▊                                                                                           | 256/568 [59:49<1:12:15, 13.90s/it] 45%|██████████████████████████████████████████████████████████████████████████▏                                                                                         | 257/568 [1:00:02<1:11:40, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0221, 'grad_norm': 0.01863308995962143, 'learning_rate': 6.209609477998338e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 231.22, 'epoch': 0.45}
+ 45%|██████████████████████████████████████████████████████████████████████████▏                                                                                         | 257/568 [1:00:02<1:11:40, 13.83s/it] 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                         | 258/568 [1:00:16<1:11:28, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0248, 'grad_norm': 0.013832414522767067, 'learning_rate': 6.181364408253209e-05, 'memory/max_active (GiB)': 33.2, 'memory/max_allocated (GiB)': 33.2, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 240.76, 'epoch': 0.45}
+ 45%|██████████████████████████████████████████████████████████████████████████▍                                                                                         | 258/568 [1:00:16<1:11:28, 13.83s/it] 46%|██████████████████████████████████████████████████████████████████████████▊                                                                                         | 259/568 [1:00:30<1:11:14, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0288, 'grad_norm': 0.015861714258790016, 'learning_rate': 6.153079353712201e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 219.46, 'epoch': 0.46}
+ 46%|██████████████████████████████████████████████████████████████████████████▊                                                                                         | 259/568 [1:00:30<1:11:14, 13.83s/it] 46%|███████████████████████████████████████████████████████████████████████████                                                                                         | 260/568 [1:00:44<1:10:51, 13.80s/it]                                                                                                                                                                                                               {'loss': 0.0239, 'grad_norm': 0.013712556101381779, 'learning_rate': 6.124755271719325e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 259.5, 'epoch': 0.46}
+ 46%|███████████████████████████████████████████████████████████████████████████                                                                                         | 260/568 [1:00:44<1:10:51, 13.80s/it] 46%|███████████████████████████████████████████████████████████████████████████▎                                                                                        | 261/568 [1:00:57<1:10:31, 13.78s/it]                                                                                                                                                                                                               {'loss': 0.0283, 'grad_norm': 0.019574495032429695, 'learning_rate': 6.096393120939516e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 250.81, 'epoch': 0.46}
+ 46%|███████████████████████████████████████████████████████████████████████████▎                                                                                        | 261/568 [1:00:57<1:10:31, 13.78s/it] 46%|███████████████████████████████████████████████████████████████████████████▋                                                                                        | 262/568 [1:01:11<1:10:04, 13.74s/it]                                                                                                                                                                                                               {'loss': 0.0204, 'grad_norm': 0.01840636320412159, 'learning_rate': 6.067993861326201e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 190.62, 'epoch': 0.46}
+ 46%|███████████████████████████████████████████████████████████████████████████▋                                                                                        | 262/568 [1:01:11<1:10:04, 13.74s/it] 46%|███████████████████████████████████████████████████████████████████████████▉                                                                                        | 263/568 [1:01:25<1:10:14, 13.82s/it]                                                                                                                                                                                                               {'loss': 0.0287, 'grad_norm': 0.021045390516519547, 'learning_rate': 6.0395584540887963e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 218.26, 'epoch': 0.46}
+ 46%|███████████████████████████████████████████████████████████████████████████▉                                                                                        | 263/568 [1:01:25<1:10:14, 13.82s/it] 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                       | 264/568 [1:01:39<1:09:36, 13.74s/it]                                                                                                                                                                                                               {'loss': 0.0256, 'grad_norm': 0.019078850746154785, 'learning_rate': 6.0110878616601904e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 211.61, 'epoch': 0.46}
+ 46%|████████████████████████████████████████████████████████████████████████████▏                                                                                       | 264/568 [1:01:39<1:09:36, 13.74s/it] 47%|████████████████████████████████████████████████████████████████████████████▌                                                                                       | 265/568 [1:01:53<1:09:47, 13.82s/it]                                                                                                                                                                                                               {'loss': 0.0296, 'grad_norm': 0.017384670674800873, 'learning_rate': 5.982583047664151e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 236.5, 'epoch': 0.47}
+ 47%|████████████████████████████████████████████████████████████████████████████▌                                                                                       | 265/568 [1:01:53<1:09:47, 13.82s/it] 47%|████████████████████████████████████████████████████████████████████████████▊                                                                                       | 266/568 [1:02:07<1:09:52, 13.88s/it]                                                                                                                                                                                                               {'loss': 0.0275, 'grad_norm': 0.019416145980358124, 'learning_rate': 5.9540449768827246e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 250.49, 'epoch': 0.47}
+ 47%|████████████████████████████████████████████████████████████████████████████▊                                                                                       | 266/568 [1:02:07<1:09:52, 13.88s/it] 47%|█████████████████████████████████████████████████████████████████████████████                                                                                       | 267/568 [1:02:21<1:09:34, 13.87s/it]                                                                                                                                                                                                               {'loss': 0.0267, 'grad_norm': 0.015369132161140442, 'learning_rate': 5.925474615223573e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 240.37, 'epoch': 0.47}
+ 47%|████████████████████████████████████████████████���████████████████████████████                                                                                       | 267/568 [1:02:21<1:09:34, 13.87s/it] 47%|█████████████████████████████████████████████████████████████████████████████▍                                                                                      | 268/568 [1:02:34<1:09:22, 13.88s/it]                                                                                                                                                                                                               {'loss': 0.0271, 'grad_norm': 0.015478268265724182, 'learning_rate': 5.8968729296872874e-05, 'memory/max_active (GiB)': 33.2, 'memory/max_allocated (GiB)': 33.2, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 222.55, 'epoch': 0.47}
+ 47%|█████████████████████████████████████████████████████████████████████████████▍                                                                                      | 268/568 [1:02:34<1:09:22, 13.88s/it] 47%|█████████████████████████████████████████████████████████████████████████████▋                                                                                      | 269/568 [1:02:48<1:09:21, 13.92s/it]                                                                                                                                                                                                               {'loss': 0.0234, 'grad_norm': 0.013414140790700912, 'learning_rate': 5.868240888334653e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 259.26, 'epoch': 0.47}
+ 47%|█████████████████████████████████████████████████████████████████████████████▋                                                                                      | 269/568 [1:02:48<1:09:21, 13.92s/it] 48%|█████████████████████████████████████████████████████████████████████████████▉                                                                                      | 270/568 [1:03:02<1:08:58, 13.89s/it]                                                                                                                                                                                                               {'loss': 0.0234, 'grad_norm': 0.01524987444281578, 'learning_rate': 5.839579460253887e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 306.66, 'epoch': 0.48}
+ 48%|█████████████████████████████████████████████████████████████████████████████▉                                                                                      | 270/568 [1:03:02<1:08:58, 13.89s/it] 48%|██████████████████████████████████████████████████████████████████████████████▏                                                                                     | 271/568 [1:03:16<1:08:36, 13.86s/it]                                                                                                                                                                                                               {'loss': 0.0301, 'grad_norm': 0.016460265964269638, 'learning_rate': 5.810889615527838e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 216.6, 'epoch': 0.48}
+ 48%|██████████████████████████████████████████████████████████████████████████████▏                                                                                     | 271/568 [1:03:16<1:08:36, 13.86s/it] 48%|████████████████████████████████████████████��█████████████████████████████████▌                                                                                     | 272/568 [1:03:30<1:08:20, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.0301, 'grad_norm': 0.013360968790948391, 'learning_rate': 5.782172325201155e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 248.1, 'epoch': 0.48}
+ 48%|██████████████████████████████████████████████████████████████████████████████▌                                                                                     | 272/568 [1:03:30<1:08:20, 13.85s/it] 48%|██████████████████████████████████████████████████████████████████████████████▊                                                                                     | 273/568 [1:03:44<1:08:11, 13.87s/it]                                                                                                                                                                                                               {'loss': 0.0217, 'grad_norm': 0.014958797954022884, 'learning_rate': 5.753428561247416e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 191.86, 'epoch': 0.48}
+ 48%|██████████████████████████████████████████████████████████████████████████████▊                                                                                     | 273/568 [1:03:44<1:08:11, 13.87s/it] 48%|███████████████████████████████████████████████████████████████████████████████                                                                                     | 274/568 [1:03:58<1:07:44, 13.82s/it]                                                                                                                                                                                                               {'loss': 0.021, 'grad_norm': 0.015441734343767166, 'learning_rate': 5.724659296536233e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 250.73, 'epoch': 0.48}
+ 48%|███████████████████████████████████████████████████████████████████████████████                                                                                     | 274/568 [1:03:58<1:07:44, 13.82s/it] 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                    | 275/568 [1:04:11<1:07:32, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0212, 'grad_norm': 0.012451080605387688, 'learning_rate': 5.695865504800327e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 237.6, 'epoch': 0.48}
+ 48%|███████████████████████████████████████████████████████████████████████████████▍                                                                                    | 275/568 [1:04:11<1:07:32, 13.83s/it] 49%|███████████████████████████████████████████████████████████████████████████████▋                                                                                    | 276/568 [1:04:25<1:07:12, 13.81s/it]                                                                                                                                                                                                               {'loss': 0.0287, 'grad_norm': 0.01567140780389309, 'learning_rate': 5.667048160602564e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 215.52, 'epoch': 0.49}
+ 49%|███████████████████████████████████████████████████████████████████████████████▋                                                                                    | 276/568 [1:04:25<1:07:12, 13.81s/it] 49%|███████████████████████████████████████████████████████████████████████████████▉                                                                                    | 277/568 [1:04:39<1:06:52, 13.79s/it]                                                                                                                                                                                                               {'loss': 0.0225, 'grad_norm': 0.013912269845604897, 'learning_rate': 5.6382082393029746e-05, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 232.38, 'epoch': 0.49}
+ 49%|███████████████████████████████████████████████████████████████████████████████▉                                                                                    | 277/568 [1:04:39<1:06:52, 13.79s/it] 49%|████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 278/568 [1:04:53<1:06:54, 13.84s/it]                                                                                                                                                                                                               {'loss': 0.0239, 'grad_norm': 0.014324279502034187, 'learning_rate': 5.6093467170257374e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 207.78, 'epoch': 0.49}
+ 49%|████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 278/568 [1:04:53<1:06:54, 13.84s/it] 49%|████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 279/568 [1:05:07<1:06:47, 13.87s/it]                                                                                                                                                                                                               {'loss': 0.0191, 'grad_norm': 0.013399331830441952, 'learning_rate': 5.5804645706261514e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 206.35, 'epoch': 0.49}
+ 49%|████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 279/568 [1:05:07<1:06:47, 13.87s/it] 49%|████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 280/568 [1:05:21<1:06:34, 13.87s/it]                                                                                                                                                                                                               {'loss': 0.0297, 'grad_norm': 0.014817657880485058, 'learning_rate': 5.5515627776575596e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 210.07, 'epoch': 0.49}
+ 49%|████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 280/568 [1:05:21<1:06:34, 13.87s/it] 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                  | 281/568 [1:05:34<1:06:11, 13.84s/it]                                                                                                                                                                                                               {'loss': 0.0263, 'grad_norm': 0.018730435520410538, 'learning_rate': 5.522642316338268e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 239.99, 'epoch': 0.49}
+ 49%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                  | 281/568 [1:05:34<1:06:11, 13.84s/it] 50%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                  | 282/568 [1:05:48<1:05:35, 13.76s/it]                                                                                                                                                                                                               {'loss': 0.0229, 'grad_norm': 0.014192307367920876, 'learning_rate': 5.4937041655184394e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 224.28, 'epoch': 0.5}
+ 50%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                  | 282/568 [1:05:48<1:05:35, 13.76s/it] 50%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                  | 283/568 [1:06:02<1:05:27, 13.78s/it]                                                                                                                                                                                                               {'loss': 0.0254, 'grad_norm': 0.018158134073019028, 'learning_rate': 5.464749304646962e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 208.66, 'epoch': 0.5}
+ 50%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                  | 283/568 [1:06:02<1:05:27, 13.78s/it] 50%|██████████████████████████████████████████████████████████████████████████████████                                                                                  | 284/568 [1:06:16<1:05:07, 13.76s/it]                                                                                                                                                                                                               {'loss': 0.026, 'grad_norm': 0.017157915979623795, 'learning_rate': 5.435778713738292e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 202.06, 'epoch': 0.5}
+ 50%|███████████████████████████████████████████████████████████████████████████████��██                                                                                  | 284/568 [1:06:16<1:05:07, 13.76s/it] 50%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                 | 285/568 [1:06:29<1:05:13, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.028, 'grad_norm': 0.013976894319057465, 'learning_rate': 5.4067933733392915e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 251.06, 'epoch': 0.5}
+ 50%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                 | 285/568 [1:06:30<1:05:13, 13.83s/it] 50%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                 | 286/568 [1:06:43<1:05:08, 13.86s/it]                                                                                                                                                                                                               {'loss': 0.0236, 'grad_norm': 0.016420768573880196, 'learning_rate': 5.377794264496041e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 210.27, 'epoch': 0.5}
+ 50%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                 | 286/568 [1:06:43<1:05:08, 13.86s/it] 51%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                 | 287/568 [1:06:58<1:05:12, 13.92s/it]                                                                                                                                                                                                               {'loss': 0.0188, 'grad_norm': 0.013447162695229053, 'learning_rate': 5.348782368720626e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 203.93, 'epoch': 0.51}
+ 51%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                 | 287/568 [1:06:58<1:05:12, 13.92s/it] 51%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                | 288/568 [1:07:11<1:05:02, 13.94s/it]                                                                                                                                                                                                               {'loss': 0.0168, 'grad_norm': 0.013298406265676022, 'learning_rate': 5.319758667957928e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 191.87, 'epoch': 0.51}
+ 51%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                | 288/568 [1:07:11<1:05:02, 13.94s/it] 51%|█████████████████████████████████████████████��█████████████████████████████████████▍                                                                                | 289/568 [1:07:25<1:04:38, 13.90s/it]                                                                                                                                                                                                               {'loss': 0.0266, 'grad_norm': 0.01578582264482975, 'learning_rate': 5.290724144552379e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 179.25, 'epoch': 0.51}
+ 51%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                | 289/568 [1:07:25<1:04:38, 13.90s/it] 51%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                | 290/568 [1:07:39<1:04:07, 13.84s/it]                                                                                                                                                                                                               {'loss': 0.0165, 'grad_norm': 0.012047250755131245, 'learning_rate': 5.26167978121472e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 194.3, 'epoch': 0.51}
+ 51%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                | 290/568 [1:07:39<1:04:07, 13.84s/it] 51%|████████████████████████████████████████████████████████████████████████████████████                                                                                | 291/568 [1:07:53<1:03:47, 13.82s/it]                                                                                                                                                                                                               {'loss': 0.0237, 'grad_norm': 0.012043692171573639, 'learning_rate': 5.232626560988735e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 214.14, 'epoch': 0.51}
+ 51%|████████████████████████████████████████████████████████████████████████████████████                                                                                | 291/568 [1:07:53<1:03:47, 13.82s/it] 51%|████████████████████████████████████████████████████████████████████████████████████▎                                                                               | 292/568 [1:08:06<1:03:23, 13.78s/it]                                                                                                                                                                                                               {'loss': 0.027, 'grad_norm': 0.011812013573944569, 'learning_rate': 5.20356546721798e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 252.89, 'epoch': 0.51}
+ 51%|████████████████████████████████████████████████████████████████████████████████████▎                                                                               | 292/568 [1:08:06<1:03:23, 13.78s/it] 52%|████████████████████████████████████████████████████████████████████████████████████▌                                                                               | 293/568 [1:08:20<1:03:05, 13.76s/it]                                                                                                                                                                                                               {'loss': 0.026, 'grad_norm': 0.019761838018894196, 'learning_rate': 5.174497483512506e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 238.85, 'epoch': 0.52}
+ 52%|████████████████████████████████████████████████████████████████████████████████████▌                                                                               | 293/568 [1:08:20<1:03:05, 13.76s/it] 52%|████████████████████████████████████████████████████████████████████████████████████▉                                                                               | 294/568 [1:08:34<1:02:39, 13.72s/it]                                                                                                                                                                                                               {'loss': 0.0259, 'grad_norm': 0.01539370696991682, 'learning_rate': 5.145423593715557e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 211.81, 'epoch': 0.52}
+ 52%|████████████████████████████████████████████████████████████████████████████████████▉                                                                               | 294/568 [1:08:34<1:02:39, 13.72s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████▏                                                                              | 295/568 [1:08:48<1:02:25, 13.72s/it]                                                                                                                                                                                                               {'loss': 0.0332, 'grad_norm': 0.02369624190032482, 'learning_rate': 5.116344781870281e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 221.55, 'epoch': 0.52}
+ 52%|█████████████████████████████████████████████████████████████████████████████████████▏                                                                              | 295/568 [1:08:48<1:02:25, 13.72s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                              | 296/568 [1:09:01<1:02:25, 13.77s/it]                                                                                                                                                                                                               {'loss': 0.0249, 'grad_norm': 0.015961559489369392, 'learning_rate': 5.0872620321864185e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 256.7, 'epoch': 0.52}
+ 52%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                              | 296/568 [1:09:01<1:02:25, 13.77s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████▊                                                                              | 297/568 [1:09:15<1:02:21, 13.81s/it]                                                                                                                                                                                                               {'loss': 0.0198, 'grad_norm': 0.014433106407523155, 'learning_rate': 5.0581763290069865e-05, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 217.9, 'epoch': 0.52}
+ 52%|█████████████████████████████████████████████████████████████████████████████████████▊                                                                              | 297/568 [1:09:15<1:02:21, 13.81s/it] 52%|██████████████████████████████████████████████████████████████████████████████████████                                                                              | 298/568 [1:09:29<1:01:55, 13.76s/it]                                                                                                                                                                                                               {'loss': 0.0203, 'grad_norm': 0.01508396863937378, 'learning_rate': 5.0290886567749696e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 191.74, 'epoch': 0.52}
+ 52%|██████████████████████████████████████████████████████████████████████████████████████                                                                              | 298/568 [1:09:29<1:01:55, 13.76s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████▎                                                                             | 299/568 [1:09:43<1:01:32, 13.73s/it]                                                                                                                                                                                                               {'loss': 0.0317, 'grad_norm': 0.014398925006389618, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 227.58, 'epoch': 0.53}
+ 53%|██████████████████████████████████████████████████████████████████████████████████████▎                                                                             | 299/568 [1:09:43<1:01:32, 13.73s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████▌                                                                             | 300/568 [1:09:56<1:01:17, 13.72s/it]                                                                                                                                                                                                               {'loss': 0.0184, 'grad_norm': 0.012989476323127747, 'learning_rate': 4.97091134322503e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 246.9, 'epoch': 0.53}
+ 53%|██████████████████████████████████████████████████████████████████████████████████████▌                                                                             | 300/568 [1:09:56<1:01:17, 13.72s/it][2025-11-17 20:26:34,488] [INFO] [axolotl.core.trainers.base._save:665] [PID:26868] Saving model checkpoint to ./lora-sout-SC-highseq-len/checkpoint-300
+ 53%|██████████████████████████████████████████████████████████████████████████████████████▉                                                                             | 301/568 [1:10:22<1:16:49, 17.26s/it]                                                                                                                                                                                                               {'loss': 0.017, 'grad_norm': 0.011735028587281704, 'learning_rate': 4.941823670993016e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 262.98, 'epoch': 0.53}
+ 53%|██████████████████████████████████████████████████████████████████████████████████████▉                                                                             | 301/568 [1:10:22<1:16:49, 17.26s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████▏                                                                            | 302/568 [1:10:36<1:12:06, 16.26s/it]                                                                                                                                                                                                               {'loss': 0.0264, 'grad_norm': 0.013648463413119316, 'learning_rate': 4.912737967813583e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 224.03, 'epoch': 0.53}
+ 53%|███████████████████████████████████████████████████████████████████████████████████████▏                                                                            | 302/568 [1:10:36<1:12:06, 16.26s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████▍                                                                            | 303/568 [1:10:49<1:08:18, 15.47s/it]                                                                                                                                                                                                               {'loss': 0.0281, 'grad_norm': 0.014786927960813046, 'learning_rate': 4.883655218129719e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 198.09, 'epoch': 0.53}
+ 53%|███████████████████████████████████████████████████████████████████████████████████████▍                                                                            | 303/568 [1:10:49<1:08:18, 15.47s/it] 54%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                            | 304/568 [1:11:03<1:06:08, 15.03s/it]                                                                                                                                                                                                               {'loss': 0.0231, 'grad_norm': 0.01753206178545952, 'learning_rate': 4.854576406284443e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 274.25, 'epoch': 0.54}
+ 54%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                            | 304/568 [1:11:03<1:06:08, 15.03s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████                                                                            | 305/568 [1:11:17<1:04:09, 14.64s/it]                                                                                                                                                                                                               {'loss': 0.0275, 'grad_norm': 0.01728753373026848, 'learning_rate': 4.825502516487497e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 174.27, 'epoch': 0.54}
+ 54%|████████████████████��███████████████████████████████████████████████████████████████████                                                                            | 305/568 [1:11:17<1:04:09, 14.64s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████▎                                                                           | 306/568 [1:11:31<1:02:45, 14.37s/it]                                                                                                                                                                                                               {'loss': 0.022, 'grad_norm': 0.019808225333690643, 'learning_rate': 4.7964345327820217e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 218.95, 'epoch': 0.54}
+ 54%|████████████████████████████████████████████████████████████████████████████████████████▎                                                                           | 306/568 [1:11:31<1:02:45, 14.37s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████▋                                                                           | 307/568 [1:11:45<1:01:35, 14.16s/it]                                                                                                                                                                                                               {'loss': 0.0269, 'grad_norm': 0.015274311415851116, 'learning_rate': 4.767373439011267e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 230.88, 'epoch': 0.54}
+ 54%|████████████████████████████████████████████████████████████████████████████████████████▋                                                                           | 307/568 [1:11:45<1:01:35, 14.16s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████▉                                                                           | 308/568 [1:11:58<1:00:54, 14.05s/it]                                                                                                                                                                                                               {'loss': 0.0333, 'grad_norm': 0.018167126923799515, 'learning_rate': 4.738320218785281e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 229.87, 'epoch': 0.54}
+ 54%|████████████████████████████████████████████████████████████████████████████████████████▉                                                                           | 308/568 [1:11:58<1:00:54, 14.05s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████▏                                                                          | 309/568 [1:12:12<1:00:28, 14.01s/it]                                                                                                                                                                                                               {'loss': 0.0202, 'grad_norm': 0.01448083110153675, 'learning_rate': 4.709275855447621e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 254.18, 'epoch': 0.54}
+ 54%|███████████████████████████████████████████████████████████████████████████████��█████████▏                                                                          | 309/568 [1:12:12<1:00:28, 14.01s/it] 55%|█████████████████████████████████████████████████████████████████████████████████████████▌                                                                          | 310/568 [1:12:26<1:00:23, 14.04s/it]                                                                                                                                                                                                               {'loss': 0.0316, 'grad_norm': 0.01780698448419571, 'learning_rate': 4.6802413320420726e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 238.26, 'epoch': 0.55}
+ 55%|█████████████████████████████████████████████████████████████████████████████████████████▌                                                                          | 310/568 [1:12:26<1:00:23, 14.04s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████▉                                                                           | 311/568 [1:12:40<59:41, 13.94s/it]                                                                                                                                                                                                               {'loss': 0.025, 'grad_norm': 0.01669672690331936, 'learning_rate': 4.6512176312793736e-05, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 240.74, 'epoch': 0.55}
+ 55%|██████████████████████████████████████████████████████████████████████████████████████████▉                                                                           | 311/568 [1:12:40<59:41, 13.94s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████▏                                                                          | 312/568 [1:12:54<59:25, 13.93s/it]                                                                                                                                                                                                               {'loss': 0.0342, 'grad_norm': 0.015368268825113773, 'learning_rate': 4.622205735503961e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 251.05, 'epoch': 0.55}
+ 55%|███████████████████████████████████████████████████████████████████████████████████████████▏                                                                          | 312/568 [1:12:54<59:25, 13.93s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████▍                                                                          | 313/568 [1:13:08<59:12, 13.93s/it]                                                                                                                                                                                                               {'loss': 0.0223, 'grad_norm': 0.01625974103808403, 'learning_rate': 4.593206626660709e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 229.51, 'epoch': 0.55}
+ 55%|███████████████████████████████████████████████████████████████████████████████████████████▍                                                                          | 313/568 [1:13:08<59:12, 13.93s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████▊                                                                          | 314/568 [1:13:22<58:57, 13.93s/it]                                                                                                                                                                                                               {'loss': 0.023, 'grad_norm': 0.014441069215536118, 'learning_rate': 4.564221286261709e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 255.05, 'epoch': 0.55}
+ 55%|███████████████████████████████████████████████████████████████████████████████████████████▊                                                                          | 314/568 [1:13:22<58:57, 13.93s/it] 55%|████████████████████████████████████████████████████████████████████████████████████████████                                                                          | 315/568 [1:13:35<58:18, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0246, 'grad_norm': 0.016171477735042572, 'learning_rate': 4.535250695353039e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 232.15, 'epoch': 0.55}
+ 55%|████████████████████████████████████████████████████████████████████████████████████████████                                                                          | 315/568 [1:13:35<58:18, 13.83s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████▎                                                                         | 316/568 [1:13:49<58:04, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0251, 'grad_norm': 0.013215301558375359, 'learning_rate': 4.506295834481561e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 227.19, 'epoch': 0.56}
+ 56%|████████████████████████████████████████████████████████████████████████████████████████████▎                                                                         | 316/568 [1:13:49<58:04, 13.83s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                                         | 317/568 [1:14:03<57:51, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0221, 'grad_norm': 0.01444310788065195, 'learning_rate': 4.477357683661734e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 263.43, 'epoch': 0.56}
+ 56%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                                         | 317/568 [1:14:03<57:51, 13.83s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████▉                                                                         | 318/568 [1:14:17<57:46, 13.87s/it]                                                                                                                                                                                                               {'loss': 0.0257, 'grad_norm': 0.01667012646794319, 'learning_rate': 4.4484372223424415e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 283.98, 'epoch': 0.56}
+ 56%|████████████████████████████████████████████████████████████████████████████████████████████▉                                                                         | 318/568 [1:14:17<57:46, 13.87s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████▏                                                                        | 319/568 [1:14:31<57:44, 13.91s/it]                                                                                                                                                                                                               {'loss': 0.0189, 'grad_norm': 0.014876077882945538, 'learning_rate': 4.4195354293738484e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 273.45, 'epoch': 0.56}
+ 56%|█████████████████████████████████████████████████████████████████████████████████████████████▏                                                                        | 319/568 [1:14:31<57:44, 13.91s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████▌                                                                        | 320/568 [1:14:45<57:16, 13.86s/it]                                                                                                                                                                                                               {'loss': 0.0215, 'grad_norm': 0.014934479258954525, 'learning_rate': 4.390653282974264e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 249.49, 'epoch': 0.56}
+ 56%|█████████████████████████████████████████████████████████████████████████████████████████████▌                                                                        | 320/568 [1:14:45<57:16, 13.86s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                                                        | 321/568 [1:14:59<57:44, 14.03s/it]                                                                                                                                                                                                               {'loss': 0.0251, 'grad_norm': 0.013612431474030018, 'learning_rate': 4.361791760697027e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 248.56, 'epoch': 0.57}
+ 57%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                                                        | 321/568 [1:14:59<57:44, 14.03s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████                                                                        | 322/568 [1:15:13<57:16, 13.97s/it]                                                                                                                                                                                                               {'loss': 0.0191, 'grad_norm': 0.01168520376086235, 'learning_rate': 4.3329518393974365e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 276.52, 'epoch': 0.57}
+ 57%|██████████████████████████████████████████████████████████████████████████████████████████████                                                                        | 322/568 [1:15:13<57:16, 13.97s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████▍                                                                       | 323/568 [1:15:27<56:43, 13.89s/it]                                                                                                                                                                                                               {'loss': 0.0236, 'grad_norm': 0.014408365823328495, 'learning_rate': 4.3041344951996746e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 274.66, 'epoch': 0.57}
+ 57%|██████████████████████████████████████████████████████████████████████████████████████████████▍                                                                       | 323/568 [1:15:27<56:43, 13.89s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████▋                                                                       | 324/568 [1:15:41<56:28, 13.89s/it]                                                                                                                                                                                                               {'loss': 0.0219, 'grad_norm': 0.012475918047130108, 'learning_rate': 4.275340703463767e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 240.11, 'epoch': 0.57}
+ 57%|██████████████████████████████████████████████████████████████████████████████████████████████▋                                                                       | 324/568 [1:15:41<56:28, 13.89s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                                                       | 325/568 [1:15:54<55:57, 13.82s/it]                                                                                                                                                                                                               {'loss': 0.0221, 'grad_norm': 0.013472869992256165, 'learning_rate': 4.246571438752585e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 229.23, 'epoch': 0.57}
+ 57%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                                                       | 325/568 [1:15:54<55:57, 13.82s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████▎                                                                      | 326/568 [1:16:08<55:58, 13.88s/it]                                                                                                                                                                                                               {'loss': 0.0295, 'grad_norm': 0.013130870647728443, 'learning_rate': 4.2178276747988446e-05, 'memory/max_active (GiB)': 33.2, 'memory/max_allocated (GiB)': 33.2, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 213.26, 'epoch': 0.57}
+ 57%|███████████████████████████████████████████████████████████████████████████████████████████████▎                                                                      | 326/568 [1:16:08<55:58, 13.88s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████▌                                                                      | 327/568 [1:16:22<55:53, 13.92s/it]                                                                                                                                                                                                               {'loss': 0.0189, 'grad_norm': 0.014258584938943386, 'learning_rate': 4.1891103844721636e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 210.68, 'epoch': 0.58}
+ 58%|███████████████████████████████████████████████████████████████████████████████████████████████▌                                                                      | 327/568 [1:16:22<55:53, 13.92s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████▊                                                                      | 328/568 [1:16:36<55:23, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.0301, 'grad_norm': 0.012655608355998993, 'learning_rate': 4.160420539746115e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 273.08, 'epoch': 0.58}
+ 58%|███████████████████████████████████████████████████████████████████████████████████████████████▊                                                                      | 328/568 [1:16:36<55:23, 13.85s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                     | 329/568 [1:16:50<55:28, 13.93s/it]                                                                                                                                                                                                               {'loss': 0.0254, 'grad_norm': 0.018687553703784943, 'learning_rate': 4.131759111665349e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 236.31, 'epoch': 0.58}
+ 58%|████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                     | 329/568 [1:16:50<55:28, 13.93s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                     | 330/568 [1:17:04<54:57, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.0332, 'grad_norm': 0.020316414535045624, 'learning_rate': 4.103127070312713e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 214.26, 'epoch': 0.58}
+ 58%|████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                     | 330/568 [1:17:04<54:57, 13.85s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                     | 331/568 [1:17:18<54:44, 13.86s/it]                                                                                                                                                                                                               {'loss': 0.0339, 'grad_norm': 0.020183023065328598, 'learning_rate': 4.074525384776428e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 224.54, 'epoch': 0.58}
+ 58%|████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                     | 331/568 [1:17:18<54:44, 13.86s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████                                                                     | 332/568 [1:17:31<54:29, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.0297, 'grad_norm': 0.023848218843340874, 'learning_rate': 4.045955023117276e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 301.32, 'epoch': 0.58}
+ 58%|█████████████████████████████████████████████████████████████████████████████████████████████████                                                                     | 332/568 [1:17:31<54:29, 13.85s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                    | 333/568 [1:17:45<54:14, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.0284, 'grad_norm': 0.015623693354427814, 'learning_rate': 4.017416952335849e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 198.1, 'epoch': 0.59}
+ 59%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                    | 333/568 [1:17:45<54:14, 13.85s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                    | 334/568 [1:17:59<53:45, 13.78s/it]                                                                                                                                                                                                               {'loss': 0.0207, 'grad_norm': 0.012727092951536179, 'learning_rate': 3.9889121383398115e-05, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 214.47, 'epoch': 0.59}
+ 59%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                    | 334/568 [1:17:59<53:45, 13.78s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                    | 335/568 [1:18:13<53:27, 13.77s/it]                                                                                                                                                                                                               {'loss': 0.0292, 'grad_norm': 0.017085764557123184, 'learning_rate': 3.960441545911204e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 204.59, 'epoch': 0.59}
+ 59%|█████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                    | 335/568 [1:18:13<53:27, 13.77s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                   | 336/568 [1:18:27<53:18, 13.79s/it]                                                                                                                                                                                                               {'loss': 0.0238, 'grad_norm': 0.01596102863550186, 'learning_rate': 3.932006138673801e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 183.38, 'epoch': 0.59}
+ 59%|██████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                   | 336/568 [1:18:27<53:18, 13.79s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                   | 337/568 [1:18:40<53:13, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0216, 'grad_norm': 0.015590636990964413, 'learning_rate': 3.903606879060483e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 237.51, 'epoch': 0.59}
+ 59%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                   | 337/568 [1:18:40<53:13, 13.83s/it] 60%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 338/568 [1:18:54<52:56, 13.81s/it]                                                                                                                                                                                                               {'loss': 0.0245, 'grad_norm': 0.020193684846162796, 'learning_rate': 3.875244728280676e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 239.28, 'epoch': 0.6}
+ 60%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 338/568 [1:18:54<52:56, 13.81s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                                   | 339/568 [1:19:08<52:33, 13.77s/it]                                                                                                                                                                                                               {'loss': 0.0206, 'grad_norm': 0.015069433487951756, 'learning_rate': 3.846920646287799e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 234.04, 'epoch': 0.6}
+ 60%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                                   | 339/568 [1:19:08<52:33, 13.77s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                  | 340/568 [1:19:22<52:17, 13.76s/it]                                                                                                                                                                                                               {'loss': 0.0255, 'grad_norm': 0.01593944989144802, 'learning_rate': 3.818635591746793e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 207.32, 'epoch': 0.6}
+ 60%|███████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                  | 340/568 [1:19:22<52:17, 13.76s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                  | 341/568 [1:19:35<52:09, 13.79s/it]                                                                                                                                                                                                               {'loss': 0.0219, 'grad_norm': 0.015927957370877266, 'learning_rate': 3.790390522001662e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 203.78, 'epoch': 0.6}
+ 60%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                  | 341/568 [1:19:35<52:09, 13.79s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                  | 342/568 [1:19:49<51:59, 13.80s/it]                                                                                                                                                                                                               {'loss': 0.0282, 'grad_norm': 0.013264643959701061, 'learning_rate': 3.762186393043071e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 183.63, 'epoch': 0.6}
+ 60%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                  | 342/568 [1:19:49<51:59, 13.80s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                 | 343/568 [1:20:04<52:21, 13.96s/it]                                                                                                                                                                                                               {'loss': 0.021, 'grad_norm': 0.016187049448490143, 'learning_rate': 3.7340241594759916e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 225.53, 'epoch': 0.6}
+ 60%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                 | 343/568 [1:20:04<52:21, 13.96s/it] 61%|████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                 | 344/568 [1:20:17<51:58, 13.92s/it]                                                                                                                                                                                                               {'loss': 0.0216, 'grad_norm': 0.014238263480365276, 'learning_rate': 3.705904774487396e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 247.01, 'epoch': 0.61}
+ 61%|████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                 | 344/568 [1:20:17<51:58, 13.92s/it] 61%|████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                 | 345/568 [1:20:31<51:47, 13.94s/it]                                                                                                                                                                                                               {'loss': 0.0282, 'grad_norm': 0.02050415426492691, 'learning_rate': 3.67782918981399e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 244.3, 'epoch': 0.61}
+ 61%|████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                 | 345/568 [1:20:31<51:47, 13.94s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████                                                                 | 346/568 [1:20:45<51:17, 13.86s/it]                                                                                                                                                                                                               {'loss': 0.0241, 'grad_norm': 0.013546636328101158, 'learning_rate': 3.649798355709997e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 223.45, 'epoch': 0.61}
+ 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████                                                                 | 346/568 [1:20:45<51:17, 13.86s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                | 347/568 [1:20:59<50:52, 13.81s/it]                                                                                                                                                                                                               {'loss': 0.0231, 'grad_norm': 0.01650473102927208, 'learning_rate': 3.6218132209150045e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 292.4, 'epoch': 0.61}
+ 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                | 347/568 [1:20:59<50:52, 13.81s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                | 348/568 [1:21:13<50:42, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0245, 'grad_norm': 0.013642181642353535, 'learning_rate': 3.593874732621847e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 181.06, 'epoch': 0.61}
+ 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                | 348/568 [1:21:13<50:42, 13.83s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                | 349/568 [1:21:27<50:33, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.027, 'grad_norm': 0.018488993868231773, 'learning_rate': 3.5659838364445505e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 198.01, 'epoch': 0.61}
+ 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                | 349/568 [1:21:27<50:33, 13.85s/it] 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                               | 350/568 [1:21:41<50:29, 13.90s/it]                                                                                                                                                                                                               {'loss': 0.0225, 'grad_norm': 0.013189669698476791, 'learning_rate': 3.5381414763863166e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 249.34, 'epoch': 0.62}
+ 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                               | 350/568 [1:21:41<50:29, 13.90s/it] 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                               | 351/568 [1:21:54<50:10, 13.87s/it]                                                                                                                                                                                                               {'loss': 0.0235, 'grad_norm': 0.018149765208363533, 'learning_rate': 3.51034859480759e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 218.2, 'epoch': 0.62}
+ 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                               | 351/568 [1:21:54<50:10, 13.87s/it] 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                               | 352/568 [1:22:08<49:51, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.026, 'grad_norm': 0.01577046886086464, 'learning_rate': 3.4826061323941484e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 245.63, 'epoch': 0.62}
+ 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                               | 352/568 [1:22:08<49:51, 13.85s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                              | 353/568 [1:22:22<49:42, 13.87s/it]                                                                                                                                                                                                               {'loss': 0.0212, 'grad_norm': 0.018071111291646957, 'learning_rate': 3.4549150281252636e-05, 'memory/max_active (GiB)': 33.2, 'memory/max_allocated (GiB)': 33.2, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 221.63, 'epoch': 0.62}
+ 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                              | 353/568 [1:22:22<49:42, 13.87s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                              | 354/568 [1:22:36<49:24, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.0278, 'grad_norm': 0.01681487075984478, 'learning_rate': 3.427276219241933e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 244.29, 'epoch': 0.62}
+ 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                              | 354/568 [1:22:36<49:24, 13.85s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                              | 355/568 [1:22:50<49:04, 13.82s/it]                                                                                                                                                                                                               {'loss': 0.027, 'grad_norm': 0.018862206488847733, 'learning_rate': 3.399690641215142e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 248.03, 'epoch': 0.62}
+ 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                              | 355/568 [1:22:50<49:04, 13.82s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████                                                              | 356/568 [1:23:04<48:53, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0239, 'grad_norm': 0.014983348548412323, 'learning_rate': 3.372159227714218e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 203.76, 'epoch': 0.63}
+ 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████                                                              | 356/568 [1:23:04<48:53, 13.83s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                             | 357/568 [1:23:17<48:45, 13.86s/it]                                                                                                                                                                                                               {'loss': 0.0218, 'grad_norm': 0.015583237633109093, 'learning_rate': 3.34468291057521e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 212.06, 'epoch': 0.63}
+ 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                             | 357/568 [1:23:17<48:45, 13.86s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████���█████▋                                                             | 358/568 [1:23:31<48:24, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0241, 'grad_norm': 0.017832621932029724, 'learning_rate': 3.317262619769368e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 213.19, 'epoch': 0.63}
+ 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                             | 358/568 [1:23:31<48:24, 13.83s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                             | 359/568 [1:23:45<48:13, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.0243, 'grad_norm': 0.016723234206438065, 'learning_rate': 3.289899283371657e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 252.93, 'epoch': 0.63}
+ 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                             | 359/568 [1:23:45<48:13, 13.85s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 360/568 [1:23:59<47:57, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0273, 'grad_norm': 0.033835478127002716, 'learning_rate': 3.262593827529343e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 279.91, 'epoch': 0.63}
+ 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 360/568 [1:23:59<47:57, 13.83s/it][2025-11-17 20:40:38,003] [INFO] [axolotl.core.trainers.base._save:665] [PID:26868] Saving model checkpoint to ./lora-sout-SC-highseq-len/checkpoint-360
+ 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                           | 361/568 [1:24:25<1:00:32, 17.55s/it]                                                                                                                                                                                                               {'loss': 0.0231, 'grad_norm': 0.017590167000889778, 'learning_rate': 3.235347176430656e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 251.98, 'epoch': 0.64}
+ 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                           | 361/568 [1:24:25<1:00:32, 17.55s/it] 64%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                            | 362/568 [1:24:39<56:15, 16.39s/it]                                                                                                                                                                                                               {'loss': 0.0244, 'grad_norm': 0.01692892797291279, 'learning_rate': 3.2081602522734986e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 198.07, 'epoch': 0.64}
+ 64%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                            | 362/568 [1:24:39<56:15, 16.39s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████                                                            | 363/568 [1:24:53<53:25, 15.64s/it]                                                                                                                                                                                                               {'loss': 0.027, 'grad_norm': 0.014786632731556892, 'learning_rate': 3.1810339752342446e-05, 'memory/max_active (GiB)': 33.22, 'memory/max_allocated (GiB)': 33.22, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 245.72, 'epoch': 0.64}
+ 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████                                                            | 363/568 [1:24:53<53:25, 15.64s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                           | 364/568 [1:25:06<51:13, 15.07s/it]                                                                                                                                                                                                               {'loss': 0.0279, 'grad_norm': 0.014045248739421368, 'learning_rate': 3.153969263436579e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 256.63, 'epoch': 0.64}
+ 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                           | 364/568 [1:25:06<51:13, 15.07s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                           | 365/568 [1:25:20<49:45, 14.71s/it]                                                                                                                                                                                                               {'loss': 0.0346, 'grad_norm': 0.017993753775954247, 'learning_rate': 3.12696703292044e-05, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 224.8, 'epoch': 0.64}
+ 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                           | 365/568 [1:25:20<49:45, 14.71s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                           | 366/568 [1:25:34<48:35, 14.43s/it]                                                                                                                                                                                                               {'loss': 0.0246, 'grad_norm': 0.020284663885831833, 'learning_rate': 3.100028197611006e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 233.55, 'epoch': 0.64}
+ 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                           | 366/568 [1:25:34<48:35, 14.43s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 367/568 [1:25:48<47:54, 14.30s/it]                                                                                                                                                                                                               {'loss': 0.0275, 'grad_norm': 0.014503901824355125, 'learning_rate': 3.073153669287759e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 252.48, 'epoch': 0.65}
+ 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 367/568 [1:25:48<47:54, 14.30s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 368/568 [1:26:02<47:24, 14.22s/it]                                                                                                                                                                                                               {'loss': 0.0257, 'grad_norm': 0.01598912850022316, 'learning_rate': 3.046344357553632e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 271.69, 'epoch': 0.65}
+ 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 368/568 [1:26:02<47:24, 14.22s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 369/568 [1:26:16<46:45, 14.10s/it]                                                                                                                                                                                                               {'loss': 0.0231, 'grad_norm': 0.014010255225002766, 'learning_rate': 3.019601169804216e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 235.29, 'epoch': 0.65}
+ 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 369/568 [1:26:16<46:45, 14.10s/it] 65%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                         | 370/568 [1:26:30<46:17, 14.03s/it]                                                                                                                                                                                                               {'loss': 0.0261, 'grad_norm': 0.01791299320757389, 'learning_rate': 2.992925011197053e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 228.28, 'epoch': 0.65}
+ 65%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                         | 370/568 [1:26:30<46:17, 14.03s/it] 65%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                         | 371/568 [1:26:44<45:46, 13.94s/it]                                                                                                                                                                                                               {'loss': 0.0251, 'grad_norm': 0.012602940201759338, 'learning_rate': 2.9663167846209998e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 295.29, 'epoch': 0.65}
+ 65%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                         | 371/568 [1:26:44<45:46, 13.94s/it] 65%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                         | 372/568 [1:26:57<45:19, 13.88s/it]                                                                                                                                                                                                               {'loss': 0.0179, 'grad_norm': 0.013006718829274178, 'learning_rate': 2.9397773906656584e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 220.41, 'epoch': 0.65}
+ 65%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                         | 372/568 [1:26:57<45:19, 13.88s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                         | 373/568 [1:27:11<45:05, 13.87s/it]                                                                                                                                                                                                               {'loss': 0.0239, 'grad_norm': 0.015668202191591263, 'learning_rate': 2.9133077275909108e-05, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 237.4, 'epoch': 0.66}
+ 66%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                         | 373/568 [1:27:11<45:05, 13.87s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                        | 374/568 [1:27:25<44:46, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.0304, 'grad_norm': 0.021342122927308083, 'learning_rate': 2.886908691296504e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 245.5, 'epoch': 0.66}
+ 66%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                        | 374/568 [1:27:25<44:46, 13.85s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                        | 375/568 [1:27:39<44:29, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0244, 'grad_norm': 0.013288579881191254, 'learning_rate': 2.86058117529173e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 244.0, 'epoch': 0.66}
+ 66%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                        | 375/568 [1:27:39<44:29, 13.83s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                        | 376/568 [1:27:53<44:20, 13.86s/it]                                                                                                                                                                                                               {'loss': 0.0227, 'grad_norm': 0.013472476042807102, 'learning_rate': 2.8343260706651864e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 239.82, 'epoch': 0.66}
+ 66%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                        | 376/568 [1:27:53<44:20, 13.86s/it] 66%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                       | 377/568 [1:28:06<44:04, 13.84s/it]                                                                                                                                                                                                               {'loss': 0.0201, 'grad_norm': 0.012375114485621452, 'learning_rate': 2.8081442660546125e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 228.45, 'epoch': 0.66}
+ 66%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                       | 377/568 [1:28:06<44:04, 13.84s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                       | 378/568 [1:28:20<44:00, 13.90s/it]                                                                                                                                                                                                               {'loss': 0.0201, 'grad_norm': 0.013603380881249905, 'learning_rate': 2.7820366476168224e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 241.46, 'epoch': 0.67}
+ 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                       | 378/568 [1:28:20<44:00, 13.90s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                       | 379/568 [1:28:34<43:46, 13.90s/it]                                                                                                                                                                                                               {'loss': 0.0184, 'grad_norm': 0.012876061722636223, 'learning_rate': 2.7560040989976892e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 224.15, 'epoch': 0.67}
+ 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                       | 379/568 [1:28:34<43:46, 13.90s/it] 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                       | 380/568 [1:28:48<43:34, 13.91s/it]                                                                                                                                                                                                               {'loss': 0.0197, 'grad_norm': 0.014733998104929924, 'learning_rate': 2.7300475013022663e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 208.62, 'epoch': 0.67}
+ 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                       | 380/568 [1:28:48<43:34, 13.91s/it] 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                      | 381/568 [1:29:02<43:10, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.0247, 'grad_norm': 0.01636584661900997, 'learning_rate': 2.7041677330649407e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 201.01, 'epoch': 0.67}
+ 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                      | 381/568 [1:29:02<43:10, 13.85s/it] 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                      | 382/568 [1:29:16<42:56, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.0263, 'grad_norm': 0.016288647428154945, 'learning_rate': 2.6783656702197156e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 268.42, 'epoch': 0.67}
+ 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                      | 382/568 [1:29:16<42:56, 13.85s/it] 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                      | 383/568 [1:29:30<42:37, 13.82s/it]                                                                                                                                                                                                               {'loss': 0.0239, 'grad_norm': 0.014479887671768665, 'learning_rate': 2.6526421860705473e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 244.73, 'epoch': 0.67}
+ 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                      | 383/568 [1:29:30<42:37, 13.82s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                     | 384/568 [1:29:43<42:18, 13.80s/it]                                                                                                                                                                                                               {'loss': 0.0205, 'grad_norm': 0.014328519813716412, 'learning_rate': 2.626998151261798e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 242.13, 'epoch': 0.68}
+ 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                     | 384/568 [1:29:43<42:18, 13.80s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                     | 385/568 [1:29:57<41:58, 13.76s/it]                                                                                                                                                                                                               {'loss': 0.0242, 'grad_norm': 0.014074141159653664, 'learning_rate': 2.6014344337487707e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 177.33, 'epoch': 0.68}
+ 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                     | 385/568 [1:29:57<41:58, 13.76s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                     | 386/568 [1:30:11<42:06, 13.88s/it]                                                                                                                                                                                                               {'loss': 0.0257, 'grad_norm': 0.015528049319982529, 'learning_rate': 2.575951898768315e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 243.06, 'epoch': 0.68}
+ 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                     | 386/568 [1:30:11<42:06, 13.88s/it] 68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                     | 387/568 [1:30:25<41:49, 13.86s/it]                                                                                                                                                                                                               {'loss': 0.0235, 'grad_norm': 0.01582300290465355, 'learning_rate': 2.5505514088095655e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 215.04, 'epoch': 0.68}
+ 68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                     | 387/568 [1:30:25<41:49, 13.86s/it] 68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                    | 388/568 [1:30:39<41:29, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0241, 'grad_norm': 0.01629367284476757, 'learning_rate': 2.52523382358473e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 204.32, 'epoch': 0.68}
+ 68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                    | 388/568 [1:30:39<41:29, 13.83s/it] 68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                    | 389/568 [1:30:53<41:25, 13.88s/it]                                                                                                                                                                                                               {'loss': 0.0209, 'grad_norm': 0.014346791431307793, 'learning_rate': 2.500000000000001e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 211.7, 'epoch': 0.68}
+ 68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                    | 389/568 [1:30:53<41:25, 13.88s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                    | 390/568 [1:31:07<41:16, 13.91s/it]                                                                                                                                                                                                               {'loss': 0.0239, 'grad_norm': 0.015236557461321354, 'learning_rate': 2.4748507921265513e-05, 'memory/max_active (GiB)': 33.22, 'memory/max_allocated (GiB)': 33.22, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 280.19, 'epoch': 0.69}
+ 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                    | 390/568 [1:31:07<41:16, 13.91s/it] 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                   | 391/568 [1:31:20<40:48, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0192, 'grad_norm': 0.012475359253585339, 'learning_rate': 2.4497870511716235e-05, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 213.62, 'epoch': 0.69}
+ 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                   | 391/568 [1:31:20<40:48, 13.83s/it] 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                   | 392/568 [1:31:34<40:30, 13.81s/it]                                                                                                                                                                                                               {'loss': 0.0325, 'grad_norm': 0.014972086064517498, 'learning_rate': 2.4248096254497288e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 179.46, 'epoch': 0.69}
+ 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                   | 392/568 [1:31:34<40:30, 13.81s/it] 69%|██████████��███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                   | 393/568 [1:31:48<40:08, 13.76s/it]                                                                                                                                                                                                               {'loss': 0.023, 'grad_norm': 0.01594701036810875, 'learning_rate': 2.399919360353923e-05, 'memory/max_active (GiB)': 33.07, 'memory/max_allocated (GiB)': 33.07, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 231.08, 'epoch': 0.69}
+ 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                   | 393/568 [1:31:48<40:08, 13.76s/it] 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                  | 394/568 [1:32:01<39:39, 13.67s/it]                                                                                                                                                                                                               {'loss': 0.0299, 'grad_norm': 0.01830989122390747, 'learning_rate': 2.3751170983272e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 203.12, 'epoch': 0.69}
+ 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                  | 394/568 [1:32:01<39:39, 13.67s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                  | 395/568 [1:32:15<39:44, 13.78s/it]                                                                                                                                                                                                               {'loss': 0.0233, 'grad_norm': 0.015419539995491505, 'learning_rate': 2.350403678833976e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 281.43, 'epoch': 0.7}
+ 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                  | 395/568 [1:32:15<39:44, 13.78s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 396/568 [1:32:29<39:42, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.028, 'grad_norm': 0.01952933333814144, 'learning_rate': 2.3257799383316798e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 268.62, 'epoch': 0.7}
+ 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 396/568 [1:32:29<39:42, 13.85s/it] 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                  | 397/568 [1:32:43<39:08, 13.74s/it]                                                                                                                                                                                                               {'loss': 0.0353, 'grad_norm': 0.020982161164283752, 'learning_rate': 2.3012467102424373e-05, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 229.42, 'epoch': 0.7}
+ 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                  | 397/568 [1:32:43<39:08, 13.74s/it] 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                 | 398/568 [1:32:57<39:09, 13.82s/it]                                                                                                                                                                                                               {'loss': 0.0218, 'grad_norm': 0.014347081072628498, 'learning_rate': 2.2768048249248648e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 265.75, 'epoch': 0.7}
+ 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                 | 398/568 [1:32:57<39:09, 13.82s/it] 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                 | 399/568 [1:33:11<39:00, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.0272, 'grad_norm': 0.0145958187058568, 'learning_rate': 2.25245510964597e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 280.64, 'epoch': 0.7}
+ 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                 | 399/568 [1:33:11<39:00, 13.85s/it] 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                 | 400/568 [1:33:24<38:36, 13.79s/it]                                                                                                                                                                                                               {'loss': 0.027, 'grad_norm': 0.016024790704250336, 'learning_rate': 2.2281983885531426e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 227.12, 'epoch': 0.7}
+ 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                 | 400/568 [1:33:24<38:36, 13.79s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                | 401/568 [1:33:38<38:19, 13.77s/it]                                                                                                                                                                                                               {'loss': 0.0267, 'grad_norm': 0.013429713435471058, 'learning_rate': 2.2040354826462668e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 244.51, 'epoch': 0.71}
+ 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                | 401/568 [1:33:38<38:19, 13.77s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                | 402/568 [1:33:52<38:13, 13.82s/it]                                                                                                                                                                                                               {'loss': 0.0252, 'grad_norm': 0.011461464688181877, 'learning_rate': 2.179967209749929e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 282.55, 'epoch': 0.71}
+ 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                | 402/568 [1:33:52<38:13, 13.82s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                | 403/568 [1:34:06<37:59, 13.82s/it]                                                                                                                                                                                                               {'loss': 0.0274, 'grad_norm': 0.01487373374402523, 'learning_rate': 2.1559943844857422e-05, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 199.67, 'epoch': 0.71}
+ 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                | 403/568 [1:34:06<37:59, 13.82s/it] 71%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                | 404/568 [1:34:20<37:42, 13.80s/it]                                                                                                                                                                                                               {'loss': 0.0231, 'grad_norm': 0.015009812079370022, 'learning_rate': 2.132117818244771e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 287.04, 'epoch': 0.71}
+ 71%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                | 404/568 [1:34:20<37:42, 13.80s/it] 71%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                               | 405/568 [1:34:33<37:29, 13.80s/it]                                                                                                                                                                                                               {'loss': 0.0218, 'grad_norm': 0.01370609924197197, 'learning_rate': 2.1083383191600674e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 186.75, 'epoch': 0.71}
+ 71%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                               | 405/568 [1:34:33<37:29, 13.80s/it] 71%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                               | 406/568 [1:34:47<37:13, 13.79s/it]                                                                                                                                                                                                               {'loss': 0.0278, 'grad_norm': 0.01578199863433838, 'learning_rate': 2.0846566920793266e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 231.4, 'epoch': 0.71}
+ 71%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                               | 406/568 [1:34:47<37:13, 13.79s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                               | 407/568 [1:35:01<36:56, 13.77s/it]                                                                                                                                                                                                               {'loss': 0.04, 'grad_norm': 0.019737401977181435, 'learning_rate': 2.061073738537635e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 212.57, 'epoch': 0.72}
+ 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                               | 407/568 [1:35:01<36:56, 13.77s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████���████████████████████▏                                              | 408/568 [1:35:15<36:48, 13.80s/it]                                                                                                                                                                                                               {'loss': 0.0228, 'grad_norm': 0.015133542008697987, 'learning_rate': 2.0375902567303472e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 207.12, 'epoch': 0.72}
+ 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 408/568 [1:35:15<36:48, 13.80s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                              | 409/568 [1:35:28<36:25, 13.75s/it]                                                                                                                                                                                                               {'loss': 0.0227, 'grad_norm': 0.01567154750227928, 'learning_rate': 2.0142070414860704e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 244.8, 'epoch': 0.72}
+ 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                              | 409/568 [1:35:28<36:25, 13.75s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 410/568 [1:35:42<36:20, 13.80s/it]                                                                                                                                                                                                               {'loss': 0.0241, 'grad_norm': 0.01544707641005516, 'learning_rate': 1.9909248842397584e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 248.59, 'epoch': 0.72}
+ 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 410/568 [1:35:42<36:20, 13.80s/it] 72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                              | 411/568 [1:35:56<36:13, 13.84s/it]                                                                                                                                                                                                               {'loss': 0.0209, 'grad_norm': 0.010997331701219082, 'learning_rate': 1.9677445730059346e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 214.11, 'epoch': 0.72}
+ 72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                              | 411/568 [1:35:56<36:13, 13.84s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                             | 412/568 [1:36:10<35:54, 13.81s/it]                                                                                                                                                                                                               {'loss': 0.0211, 'grad_norm': 0.01560249738395214, 'learning_rate': 1.9446668923520013e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 238.35, 'epoch': 0.73}
+ 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                             | 412/568 [1:36:10<35:54, 13.81s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                             | 413/568 [1:36:24<35:44, 13.84s/it]                                                                                                                                                                                                               {'loss': 0.0423, 'grad_norm': 0.019555669277906418, 'learning_rate': 1.9216926233717085e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 251.3, 'epoch': 0.73}
+ 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                             | 413/568 [1:36:24<35:44, 13.84s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                             | 414/568 [1:36:38<35:26, 13.81s/it]                                                                                                                                                                                                               {'loss': 0.03, 'grad_norm': 0.016567425802350044, 'learning_rate': 1.8988225436587002e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 187.3, 'epoch': 0.73}
+ 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                             | 414/568 [1:36:38<35:26, 13.81s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 415/568 [1:36:52<35:19, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.0192, 'grad_norm': 0.012498335912823677, 'learning_rate': 1.8760574272802e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 222.13, 'epoch': 0.73}
+ 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 415/568 [1:36:52<35:19, 13.85s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                            | 416/568 [1:37:06<35:10, 13.88s/it]                                                                                                                                                                                                               {'loss': 0.0254, 'grad_norm': 0.01578867994248867, 'learning_rate': 1.8533980447508137e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 206.5, 'epoch': 0.73}
+ 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                            | 416/568 [1:37:06<35:10, 13.88s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                            | 417/568 [1:37:20<35:00, 13.91s/it]                                                                                                                                                                                                               {'loss': 0.0213, 'grad_norm': 0.014951704069972038, 'learning_rate': 1.8308451630064484e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 193.2, 'epoch': 0.73}
+ 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                            | 417/568 [1:37:20<35:00, 13.91s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 418/568 [1:37:34<34:49, 13.93s/it]                                                                                                                                                                                                               {'loss': 0.0245, 'grad_norm': 0.018425438553094864, 'learning_rate': 1.80839954537836e-05, 'memory/max_active (GiB)': 33.2, 'memory/max_allocated (GiB)': 33.2, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 235.17, 'epoch': 0.74}
+ 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 418/568 [1:37:34<34:49, 13.93s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                           | 419/568 [1:37:48<34:40, 13.96s/it]                                                                                                                                                                                                               {'loss': 0.0195, 'grad_norm': 0.015259193256497383, 'learning_rate': 1.7860619515673033e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 199.55, 'epoch': 0.74}
+ 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                           | 419/568 [1:37:48<34:40, 13.96s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                           | 420/568 [1:38:01<34:17, 13.90s/it]                                                                                                                                                                                                               {'loss': 0.0213, 'grad_norm': 0.014648414216935635, 'learning_rate': 1.7638331376178386e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 221.66, 'epoch': 0.74}
+ 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                           | 420/568 [1:38:01<34:17, 13.90s/it][2025-11-17 20:54:40,455] [INFO] [axolotl.core.trainers.base._save:665] [PID:26868] Saving model checkpoint to ./lora-sout-SC-highseq-len/checkpoint-420
+ 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                           | 421/568 [1:38:27<42:41, 17.43s/it]                                                                                                                                                                                                               {'loss': 0.0155, 'grad_norm': 0.012929460033774376, 'learning_rate': 1.7417138558927244e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 265.65, 'epoch': 0.74}
+ 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                           | 421/568 [1:38:27<42:41, 17.43s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                          | 422/568 [1:38:41<39:45, 16.34s/it]                                                                                                                                                                                                               {'loss': 0.0263, 'grad_norm': 0.014796556904911995, 'learning_rate': 1.7197048550474643e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 230.58, 'epoch': 0.74}
+ 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                          | 422/568 [1:38:41<39:45, 16.34s/it] 74%|█████████████████████████████████████████���█████████████████████████████████████████████████████████████████████████████████▌                                          | 423/568 [1:38:54<37:29, 15.51s/it]                                                                                                                                                                                                               {'loss': 0.0212, 'grad_norm': 0.014328686520457268, 'learning_rate': 1.6978068800049624e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 203.0, 'epoch': 0.74}
+ 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                          | 423/568 [1:38:54<37:29, 15.51s/it] 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                          | 424/568 [1:39:08<35:58, 14.99s/it]                                                                                                                                                                                                               {'loss': 0.0226, 'grad_norm': 0.01956700161099434, 'learning_rate': 1.6760206719303105e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 158.95, 'epoch': 0.75}
+ 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                          | 424/568 [1:39:08<35:58, 14.99s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                         | 425/568 [1:39:22<35:00, 14.69s/it]                                                                                                                                                                                                               {'loss': 0.0279, 'grad_norm': 0.015611706301569939, 'learning_rate': 1.6543469682057106e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 214.8, 'epoch': 0.75}
+ 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                         | 425/568 [1:39:22<35:00, 14.69s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                         | 426/568 [1:39:36<33:57, 14.35s/it]                                                                                                                                                                                                               {'loss': 0.0287, 'grad_norm': 0.027447998523712158, 'learning_rate': 1.6327865024054984e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 204.36, 'epoch': 0.75}
+ 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                         | 426/568 [1:39:36<33:57, 14.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                         | 427/568 [1:39:50<33:22, 14.20s/it]                                                                                                                                                                                                               {'loss': 0.022, 'grad_norm': 0.015546222217381, 'learning_rate': 1.611340004271339e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 216.15, 'epoch': 0.75}
+ 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                         | 427/568 [1:39:50<33:22, 14.20s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                         | 428/568 [1:40:03<32:43, 14.02s/it]                                                                                                                                                                                                               {'loss': 0.0276, 'grad_norm': 0.016882052645087242, 'learning_rate': 1.5900081996875083e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 197.76, 'epoch': 0.75}
+ 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                         | 428/568 [1:40:03<32:43, 14.02s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 429/568 [1:40:17<32:17, 13.94s/it]                                                                                                                                                                                                               {'loss': 0.0233, 'grad_norm': 0.012990577146410942, 'learning_rate': 1.5687918106563326e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 216.45, 'epoch': 0.76}
+ 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 429/568 [1:40:17<32:17, 13.94s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                        | 430/568 [1:40:31<32:01, 13.92s/it]                                                                                                                                                                                                               {'loss': 0.019, 'grad_norm': 0.020592641085386276, 'learning_rate': 1.547691555273753e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 259.8, 'epoch': 0.76}
+ 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                        | 430/568 [1:40:31<32:01, 13.92s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 431/568 [1:40:44<31:36, 13.84s/it]                                                                                                                                                                                                               {'loss': 0.0303, 'grad_norm': 0.022207535803318024, 'learning_rate': 1.526708147705013e-05, 'memory/max_active (GiB)': 33.08, 'memory/max_allocated (GiB)': 33.08, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 273.97, 'epoch': 0.76}
+ 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 431/568 [1:40:44<31:36, 13.84s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 432/568 [1:40:58<31:27, 13.88s/it]                                                                                                                                                                                                               {'loss': 0.0217, 'grad_norm': 0.013952548615634441, 'learning_rate': 1.5058422981604997e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 255.89, 'epoch': 0.76}
+ 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 432/568 [1:40:58<31:27, 13.88s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                       | 433/568 [1:41:12<31:13, 13.88s/it]                                                                                                                                                                                                               {'loss': 0.0286, 'grad_norm': 0.01581577956676483, 'learning_rate': 1.4850947128716913e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 210.79, 'epoch': 0.76}
+ 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                       | 433/568 [1:41:12<31:13, 13.88s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████���██████████████████████████████▊                                       | 434/568 [1:41:26<30:53, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0228, 'grad_norm': 0.013640977442264557, 'learning_rate': 1.4644660940672627e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 214.44, 'epoch': 0.76}
+ 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 434/568 [1:41:26<30:53, 13.83s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                      | 435/568 [1:41:40<30:41, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.0204, 'grad_norm': 0.015291115269064903, 'learning_rate': 1.4439571399493146e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 249.02, 'epoch': 0.77}
+ 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                      | 435/568 [1:41:40<30:41, 13.85s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                      | 436/568 [1:41:54<30:35, 13.91s/it]                                                                                                                                                                                                               {'loss': 0.0195, 'grad_norm': 0.014484093524515629, 'learning_rate': 1.4235685446697433e-05, 'memory/max_active (GiB)': 33.2, 'memory/max_allocated (GiB)': 33.2, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 207.65, 'epoch': 0.77}
+ 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                      | 436/568 [1:41:54<30:35, 13.91s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                      | 437/568 [1:42:07<30:09, 13.82s/it]                                                                                                                                                                                                               {'loss': 0.0257, 'grad_norm': 0.01599782705307007, 'learning_rate': 1.4033009983067452e-05, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 227.32, 'epoch': 0.77}
+ 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████��█████████████████████████▋                                      | 437/568 [1:42:08<30:09, 13.82s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                      | 438/568 [1:42:21<29:55, 13.81s/it]                                                                                                                                                                                                               {'loss': 0.0285, 'grad_norm': 0.015397383831441402, 'learning_rate': 1.3831551868414599e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 207.34, 'epoch': 0.77}
+ 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                      | 438/568 [1:42:21<29:55, 13.81s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                     | 439/568 [1:42:35<29:49, 13.87s/it]                                                                                                                                                                                                               {'loss': 0.0264, 'grad_norm': 0.01340622827410698, 'learning_rate': 1.3631317921347563e-05, 'memory/max_active (GiB)': 33.2, 'memory/max_allocated (GiB)': 33.2, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 246.51, 'epoch': 0.77}
+ 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                     | 439/568 [1:42:35<29:49, 13.87s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                     | 440/568 [1:42:49<29:37, 13.88s/it]                                                                                                                                                                                                               {'loss': 0.0256, 'grad_norm': 0.01592603698372841, 'learning_rate': 1.3432314919041478e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 201.6, 'epoch': 0.77}
+ 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                     | 440/568 [1:42:49<29:37, 13.88s/it] 78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                     | 441/568 [1:43:03<29:20, 13.86s/it]                                                                                                                                                                                                               {'loss': 0.0259, 'grad_norm': 0.017635151743888855, 'learning_rate': 1.3234549597008571e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 207.28, 'epoch': 0.78}
+ 78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                     | 441/568 [1:43:03<29:20, 13.86s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                    | 442/568 [1:43:17<29:10, 13.89s/it]                                                                                                                                                                                                               {'loss': 0.0185, 'grad_norm': 0.013555117882788181, 'learning_rate': 1.3038028648870204e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 206.79, 'epoch': 0.78}
+ 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                    | 442/568 [1:43:17<29:10, 13.89s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 443/568 [1:43:31<28:58, 13.91s/it]                                                                                                                                                                                                               {'loss': 0.0324, 'grad_norm': 0.01699197106063366, 'learning_rate': 1.2842758726130283e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 226.34, 'epoch': 0.78}
+ 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 443/568 [1:43:31<28:58, 13.91s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 444/568 [1:43:45<28:35, 13.84s/it]                                                                                                                                                                                                               {'loss': 0.0251, 'grad_norm': 0.014549621380865574, 'learning_rate': 1.264874643795021e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 258.68, 'epoch': 0.78}
+ 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 444/568 [1:43:45<28:35, 13.84s/it] 78%|████████████████████████████████████████████████████████████████████████████████████████████████████���█████████████████████████████                                    | 445/568 [1:43:59<28:27, 13.88s/it]                                                                                                                                                                                                               {'loss': 0.0178, 'grad_norm': 0.012252169661223888, 'learning_rate': 1.245599835092504e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 240.52, 'epoch': 0.78}
+ 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                    | 445/568 [1:43:59<28:27, 13.88s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                   | 446/568 [1:44:13<28:14, 13.89s/it]                                                                                                                                                                                                               {'loss': 0.0227, 'grad_norm': 0.015213721431791782, 'learning_rate': 1.22645209888614e-05, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 257.4, 'epoch': 0.79}
+ 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                   | 446/568 [1:44:13<28:14, 13.89s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 447/568 [1:44:26<27:59, 13.88s/it]                                                                                                                                                                                                               {'loss': 0.0223, 'grad_norm': 0.01988925226032734, 'learning_rate': 1.2074320832556556e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 230.26, 'epoch': 0.79}
+ 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 447/568 [1:44:26<27:59, 13.88s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                   | 448/568 [1:44:40<27:47, 13.89s/it]                                                                                                                                                                                                               {'loss': 0.0198, 'grad_norm': 0.012434746138751507, 'learning_rate': 1.1885404319579108e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 283.86, 'epoch': 0.79}
+ 79%|█████████████████████████████████████████████████████████████████████████████████████████████���████████████████████████████████████▉                                   | 448/568 [1:44:40<27:47, 13.89s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                  | 449/568 [1:44:54<27:35, 13.91s/it]                                                                                                                                                                                                               {'loss': 0.0257, 'grad_norm': 0.015598724596202374, 'learning_rate': 1.1697777844051105e-05, 'memory/max_active (GiB)': 33.2, 'memory/max_allocated (GiB)': 33.2, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 231.55, 'epoch': 0.79}
+ 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                  | 449/568 [1:44:54<27:35, 13.91s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 450/568 [1:45:08<27:20, 13.90s/it]                                                                                                                                                                                                               {'loss': 0.0223, 'grad_norm': 0.014880365692079067, 'learning_rate': 1.1511447756431604e-05, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 186.4, 'epoch': 0.79}
+ 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 450/568 [1:45:08<27:20, 13.90s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                  | 451/568 [1:45:22<27:00, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.0231, 'grad_norm': 0.014332009479403496, 'learning_rate': 1.132642036330181e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 212.89, 'epoch': 0.79}
+ 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                  | 451/568 [1:45:22<27:00, 13.85s/it] 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                  | 452/568 [1:45:36<26:40, 13.80s/it]                                                                                                                                                                                                               {'loss': 0.0258, 'grad_norm': 0.020521683618426323, 'learning_rate': 1.1142701927151456e-05, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 187.48, 'epoch': 0.8}
+ 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                  | 452/568 [1:45:36<26:40, 13.80s/it] 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 453/568 [1:45:49<26:28, 13.81s/it]                                                                                                                                                                                                               {'loss': 0.0248, 'grad_norm': 0.015156875364482403, 'learning_rate': 1.096029866616704e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 218.79, 'epoch': 0.8}
+ 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 453/568 [1:45:49<26:28, 13.81s/it] 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                 | 454/568 [1:46:03<26:14, 13.81s/it]                                                                                                                                                                                                               {'loss': 0.0185, 'grad_norm': 0.010699043981730938, 'learning_rate': 1.0779216754021215e-05, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 267.07, 'epoch': 0.8}
+ 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                 | 454/568 [1:46:03<26:14, 13.81s/it] 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 | 455/568 [1:46:17<26:05, 13.86s/it]                                                                                                                                                                                                               {'loss': 0.0256, 'grad_norm': 0.014272316358983517, 'learning_rate': 1.0599462319663905e-05, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 282.0, 'epoch': 0.8}
+ 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 | 455/568 [1:46:17<26:05, 13.86s/it] 80%|█████████████████████████████████████████████████████████████��███████████████████████████████████████████████████████████████████████▎                                | 456/568 [1:46:31<25:50, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.0216, 'grad_norm': 0.015177146531641483, 'learning_rate': 1.0421041447114838e-05, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 210.26, 'epoch': 0.8}
+ 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                | 456/568 [1:46:31<25:50, 13.85s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                | 457/568 [1:46:45<25:35, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0195, 'grad_norm': 0.015447411686182022, 'learning_rate': 1.0243960175257606e-05, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 205.53, 'epoch': 0.8}
+ 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                | 457/568 [1:46:45<25:35, 13.83s/it] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                | 458/568 [1:46:58<25:15, 13.77s/it]                                                                                                                                                                                                               {'loss': 0.0198, 'grad_norm': 0.022499170154333115, 'learning_rate': 1.006822449763537e-05, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 258.96, 'epoch': 0.81}
+ 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                | 458/568 [1:46:58<25:15, 13.77s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                               | 459/568 [1:47:12<25:04, 13.80s/it]                                                                                                                                                                                                               {'loss': 0.0198, 'grad_norm': 0.01791412942111492, 'learning_rate': 9.893840362247809e-06, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 218.1, 'epoch': 0.81}
+ 81%|███████████████████████████████████████��██████████████████████████████████████████████████████████████████████████████████████████████▏                               | 459/568 [1:47:12<25:04, 13.80s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                               | 460/568 [1:47:26<24:48, 13.78s/it]                                                                                                                                                                                                               {'loss': 0.0366, 'grad_norm': 0.017990395426750183, 'learning_rate': 9.720813671350032e-06, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 199.05, 'epoch': 0.81}
+ 81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                               | 460/568 [1:47:26<24:48, 13.78s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                               | 461/568 [1:47:40<24:34, 13.78s/it]                                                                                                                                                                                                               {'loss': 0.0223, 'grad_norm': 0.013875173404812813, 'learning_rate': 9.549150281252633e-06, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 233.28, 'epoch': 0.81}
+ 81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                               | 461/568 [1:47:40<24:34, 13.78s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 462/568 [1:47:54<24:28, 13.86s/it]                                                                                                                                                                                                               {'loss': 0.0245, 'grad_norm': 0.014376256614923477, 'learning_rate': 9.378856002123548e-06, 'memory/max_active (GiB)': 33.2, 'memory/max_allocated (GiB)': 33.2, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 261.11, 'epoch': 0.81}
+ 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 462/568 [1:47:54<24:28, 13.86s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 463/568 [1:48:08<24:10, 13.81s/it]                                                                                                                                                                                                               {'loss': 0.0237, 'grad_norm': 0.015307310968637466, 'learning_rate': 9.209936597791407e-06, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 224.93, 'epoch': 0.82}
+ 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 463/568 [1:48:08<24:10, 13.81s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 464/568 [1:48:21<24:01, 13.86s/it]                                                                                                                                                                                                               {'loss': 0.0305, 'grad_norm': 0.017158886417746544, 'learning_rate': 9.042397785550405e-06, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 204.67, 'epoch': 0.82}
+ 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 464/568 [1:48:21<24:01, 13.86s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                              | 465/568 [1:48:35<23:49, 13.88s/it]                                                                                                                                                                                                               {'loss': 0.0243, 'grad_norm': 0.014738958328962326, 'learning_rate': 8.876245235966885e-06, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 258.97, 'epoch': 0.82}
+ 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                              | 465/568 [1:48:35<23:49, 13.88s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                             | 466/568 [1:48:49<23:25, 13.78s/it]                                                                                                                                                                                                               {'loss': 0.0242, 'grad_norm': 0.01441456563770771, 'learning_rate': 8.711484572687296e-06, 'memory/max_active (GiB)': 33.07, 'memory/max_allocated (GiB)': 33.07, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 204.59, 'epoch': 0.82}
+ 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                             | 466/568 [1:48:49<23:25, 13.78s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                             | 467/568 [1:49:03<23:14, 13.81s/it]                                                                                                                                                                                                               {'loss': 0.0275, 'grad_norm': 0.01627950184047222, 'learning_rate': 8.548121372247918e-06, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 264.25, 'epoch': 0.82}
+ 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                             | 467/568 [1:49:03<23:14, 13.81s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 468/568 [1:49:16<22:52, 13.73s/it]                                                                                                                                                                                                               {'loss': 0.0349, 'grad_norm': 0.01875332184135914, 'learning_rate': 8.38616116388612e-06, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 245.08, 'epoch': 0.82}
+ 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 468/568 [1:49:16<22:52, 13.73s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                             | 469/568 [1:49:30<22:37, 13.72s/it]                                                                                                                                                                                                               {'loss': 0.022, 'grad_norm': 0.014283404685556889, 'learning_rate': 8.225609429353187e-06, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 211.14, 'epoch': 0.83}
+ 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                             | 469/568 [1:49:30<22:37, 13.72s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                            | 470/568 [1:49:44<22:23, 13.71s/it]                                                                                                                                                                                                               {'loss': 0.0235, 'grad_norm': 0.019272973760962486, 'learning_rate': 8.066471602728803e-06, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 240.89, 'epoch': 0.83}
+ 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                            | 470/568 [1:49:44<22:23, 13.71s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                            | 471/568 [1:49:57<22:06, 13.67s/it]                                                                                                                                                                                                               {'loss': 0.0336, 'grad_norm': 0.01902967132627964, 'learning_rate': 7.908753070237123e-06, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 213.29, 'epoch': 0.83}
+ 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                            | 471/568 [1:49:57<22:06, 13.67s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                            | 472/568 [1:50:11<22:00, 13.76s/it]                                                                                                                                                                                                               {'loss': 0.0224, 'grad_norm': 0.014698988758027554, 'learning_rate': 7.75245917006449e-06, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 185.97, 'epoch': 0.83}
+ 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                            | 472/568 [1:50:11<22:00, 13.76s/it] 83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                           | 473/568 [1:50:25<21:53, 13.82s/it]                                                                                                                                                                                                               {'loss': 0.0249, 'grad_norm': 0.013795851729810238, 'learning_rate': 7.597595192178702e-06, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 184.41, 'epoch': 0.83}
+ 83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                           | 473/568 [1:50:25<21:53, 13.82s/it] 83%|████████████████████████████████████████████████████��█████████████████████████████████████████████████████████████████████████████████████▌                           | 474/568 [1:50:39<21:35, 13.78s/it]                                                                                                                                                                                                               {'loss': 0.0232, 'grad_norm': 0.01725582592189312, 'learning_rate': 7.444166378150013e-06, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 231.63, 'epoch': 0.83}
+ 83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 474/568 [1:50:39<21:35, 13.78s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                           | 475/568 [1:50:53<21:24, 13.81s/it]                                                                                                                                                                                                               {'loss': 0.0324, 'grad_norm': 0.016443336382508278, 'learning_rate': 7.292177920973725e-06, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 267.71, 'epoch': 0.84}
+ 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                           | 475/568 [1:50:53<21:24, 13.81s/it] 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 476/568 [1:51:07<21:08, 13.79s/it]                                                                                                                                                                                                               {'loss': 0.0268, 'grad_norm': 0.014293859712779522, 'learning_rate': 7.1416349648943894e-06, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 218.86, 'epoch': 0.84}
+ 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 476/568 [1:51:07<21:08, 13.79s/it] 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                          | 477/568 [1:51:20<20:53, 13.77s/it]                                                                                                                                                                                                               {'loss': 0.0257, 'grad_norm': 0.02598871849477291, 'learning_rate': 6.992542605231739e-06, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 234.96, 'epoch': 0.84}
+ 84%|██████���████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                          | 477/568 [1:51:20<20:53, 13.77s/it] 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                          | 478/568 [1:51:34<20:38, 13.76s/it]                                                                                                                                                                                                               {'loss': 0.0216, 'grad_norm': 0.013202561996877193, 'learning_rate': 6.844905888208181e-06, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 222.01, 'epoch': 0.84}
+ 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                          | 478/568 [1:51:34<20:38, 13.76s/it] 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                          | 479/568 [1:51:48<20:23, 13.74s/it]                                                                                                                                                                                                               {'loss': 0.0268, 'grad_norm': 0.027696000412106514, 'learning_rate': 6.698729810778065e-06, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 252.12, 'epoch': 0.84}
+ 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                          | 479/568 [1:51:48<20:23, 13.74s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                         | 480/568 [1:52:02<20:12, 13.78s/it]                                                                                                                                                                                                               {'loss': 0.0333, 'grad_norm': 0.01757979765534401, 'learning_rate': 6.554019320458493e-06, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 170.48, 'epoch': 0.85}
+ 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                         | 480/568 [1:52:02<20:12, 13.78s/it][2025-11-17 21:08:39,332] [INFO] [axolotl.core.trainers.base._save:665] [PID:26868] Saving model checkpoint to ./lora-sout-SC-highseq-len/checkpoint-480
+ 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                         | 481/568 [1:52:27<25:05, 17.30s/it]                                                                                                                                                                                                               {'loss': 0.0219, 'grad_norm': 0.014577395282685757, 'learning_rate': 6.410779315161886e-06, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 217.26, 'epoch': 0.85}
+ 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                         | 481/568 [1:52:27<25:05, 17.30s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 482/568 [1:52:41<23:15, 16.23s/it]                                                                                                                                                                                                               {'loss': 0.0298, 'grad_norm': 0.014059139415621758, 'learning_rate': 6.269014643030213e-06, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 196.51, 'epoch': 0.85}
+ 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 482/568 [1:52:41<23:15, 16.23s/it] 85%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                        | 483/568 [1:52:55<21:54, 15.46s/it]                                                                                                                                                                                                               {'loss': 0.0302, 'grad_norm': 0.014665874652564526, 'learning_rate': 6.128730102270897e-06, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 189.25, 'epoch': 0.85}
+ 85%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                        | 483/568 [1:52:55<21:54, 15.46s/it] 85%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                        | 484/568 [1:53:08<20:54, 14.94s/it]                                                                                                                                                                                                               {'loss': 0.0267, 'grad_norm': 0.01439362857490778, 'learning_rate': 5.989930440994451e-06, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 238.93, 'epoch': 0.85}
+ 85%|██���██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                        | 484/568 [1:53:08<20:54, 14.94s/it] 85%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 485/568 [1:53:22<20:13, 14.62s/it]                                                                                                                                                                                                               {'loss': 0.0199, 'grad_norm': 0.01416029129177332, 'learning_rate': 5.852620357053651e-06, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 248.12, 'epoch': 0.85}
+ 85%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 485/568 [1:53:22<20:13, 14.62s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                        | 486/568 [1:53:36<19:37, 14.37s/it]                                                                                                                                                                                                               {'loss': 0.0231, 'grad_norm': 0.013785474933683872, 'learning_rate': 5.716804497884698e-06, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 235.92, 'epoch': 0.86}
+ 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                        | 486/568 [1:53:36<19:37, 14.37s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                       | 487/568 [1:53:50<19:13, 14.24s/it]                                                                                                                                                                                                               {'loss': 0.0284, 'grad_norm': 0.016844572499394417, 'learning_rate': 5.582487460349805e-06, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 239.78, 'epoch': 0.86}
+ 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                       | 487/568 [1:53:50<19:13, 14.24s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████��█████████████████████████████████████████████▌                       | 488/568 [1:54:04<18:51, 14.14s/it]                                                                                                                                                                                                               {'loss': 0.0279, 'grad_norm': 0.017010236158967018, 'learning_rate': 5.449673790581611e-06, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 256.35, 'epoch': 0.86}
+ 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                       | 488/568 [1:54:04<18:51, 14.14s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 489/568 [1:54:18<18:34, 14.10s/it]                                                                                                                                                                                                               {'loss': 0.0172, 'grad_norm': 0.011130784638226032, 'learning_rate': 5.318367983829392e-06, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 254.42, 'epoch': 0.86}
+ 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 489/568 [1:54:18<18:34, 14.10s/it] 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                      | 490/568 [1:54:32<18:18, 14.08s/it]                                                                                                                                                                                                               {'loss': 0.0224, 'grad_norm': 0.013089405372738838, 'learning_rate': 5.188574484306829e-06, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 274.81, 'epoch': 0.86}
+ 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                      | 490/568 [1:54:32<18:18, 14.08s/it] 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                      | 491/568 [1:54:46<18:00, 14.03s/it]                                                                                                                                                                                                               {'loss': 0.0202, 'grad_norm': 0.012439760379493237, 'learning_rate': 5.060297685041659e-06, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 227.99, 'epoch': 0.86}
+ 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                      | 491/568 [1:54:46<18:00, 14.03s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                      | 492/568 [1:55:00<17:41, 13.96s/it]                                                                                                                                                                                                               {'loss': 0.0377, 'grad_norm': 0.013528045266866684, 'learning_rate': 4.933541927726887e-06, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 275.41, 'epoch': 0.87}
+ 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                      | 492/568 [1:55:00<17:41, 13.96s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 493/568 [1:55:13<17:21, 13.89s/it]                                                                                                                                                                                                               {'loss': 0.0278, 'grad_norm': 0.01762106455862522, 'learning_rate': 4.8083115025739756e-06, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 227.69, 'epoch': 0.87}
+ 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 493/568 [1:55:13<17:21, 13.89s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                     | 494/568 [1:55:27<17:06, 13.88s/it]                                                                                                                                                                                                               {'loss': 0.0206, 'grad_norm': 0.015656348317861557, 'learning_rate': 4.684610648167503e-06, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 281.15, 'epoch': 0.87}
+ 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                     | 494/568 [1:55:27<17:06, 13.88s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                     | 495/568 [1:55:41<16:52, 13.87s/it]                                                                                                                                                                                                               {'loss': 0.0227, 'grad_norm': 0.014154751785099506, 'learning_rate': 4.562443551321788e-06, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 220.92, 'epoch': 0.87}
+ 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                     | 495/568 [1:55:41<16:52, 13.87s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                     | 496/568 [1:55:55<16:37, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.0219, 'grad_norm': 0.020123180001974106, 'learning_rate': 4.441814346939149e-06, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 217.9, 'epoch': 0.87}
+ 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                     | 496/568 [1:55:55<16:37, 13.85s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 497/568 [1:56:09<16:22, 13.84s/it]                                                                                                                                                                                                               {'loss': 0.0245, 'grad_norm': 0.013264085166156292, 'learning_rate': 4.322727117869951e-06, 'memory/max_active (GiB)': 33.08, 'memory/max_allocated (GiB)': 33.08, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 195.41, 'epoch': 0.88}
+ 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 497/568 [1:56:09<16:22, 13.84s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 498/568 [1:56:22<16:07, 13.82s/it]                                                                                                                                                                                                               {'loss': 0.021, 'grad_norm': 0.013907013460993767, 'learning_rate': 4.205185894774455e-06, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 232.62, 'epoch': 0.88}
+ 88%|██████████████████████████████████████��██████████████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 498/568 [1:56:22<16:07, 13.82s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                    | 499/568 [1:56:36<15:55, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.02, 'grad_norm': 0.012742149643599987, 'learning_rate': 4.089194655986306e-06, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 242.87, 'epoch': 0.88}
+ 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                    | 499/568 [1:56:36<15:55, 13.85s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 500/568 [1:56:50<15:42, 13.87s/it]                                                                                                                                                                                                               {'loss': 0.0193, 'grad_norm': 0.010993480682373047, 'learning_rate': 3.974757327377981e-06, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 234.44, 'epoch': 0.88}
+ 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 500/568 [1:56:50<15:42, 13.87s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 501/568 [1:57:04<15:32, 13.91s/it]                                                                                                                                                                                                               {'loss': 0.0252, 'grad_norm': 0.01264039147645235, 'learning_rate': 3.861877782227885e-06, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 243.4, 'epoch': 0.88}
+ 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 501/568 [1:57:04<15:32, 13.91s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████���████████████████████████████████▋                   | 502/568 [1:57:18<15:12, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0223, 'grad_norm': 0.01529602613300085, 'learning_rate': 3.7505598410891964e-06, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 227.25, 'epoch': 0.88}
+ 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                   | 502/568 [1:57:18<15:12, 13.83s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                   | 503/568 [1:57:32<14:59, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0233, 'grad_norm': 0.016890503466129303, 'learning_rate': 3.6408072716606346e-06, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 190.95, 'epoch': 0.89}
+ 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                   | 503/568 [1:57:32<14:59, 13.83s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                  | 504/568 [1:57:45<14:42, 13.79s/it]                                                                                                                                                                                                               {'loss': 0.0209, 'grad_norm': 0.01327457744628191, 'learning_rate': 3.5326237886588732e-06, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 234.36, 'epoch': 0.89}
+ 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                  | 504/568 [1:57:45<14:42, 13.79s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 505/568 [1:57:59<14:27, 13.77s/it]                                                                                                                                                                                                               {'loss': 0.0215, 'grad_norm': 0.01472480222582817, 'learning_rate': 3.426013053692878e-06, 'memory/max_active (GiB)': 33.2, 'memory/max_allocated (GiB)': 33.2, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 258.15, 'epoch': 0.89}
+ 89%|████████████████████████████��██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 505/568 [1:57:59<14:27, 13.77s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 506/568 [1:58:13<14:13, 13.76s/it]                                                                                                                                                                                                               {'loss': 0.0251, 'grad_norm': 0.01717575266957283, 'learning_rate': 3.3209786751399187e-06, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 230.93, 'epoch': 0.89}
+ 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 506/568 [1:58:13<14:13, 13.76s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 507/568 [1:58:27<14:00, 13.77s/it]                                                                                                                                                                                                               {'loss': 0.0244, 'grad_norm': 0.014499155804514885, 'learning_rate': 3.2175242080234313e-06, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 213.3, 'epoch': 0.89}
+ 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 507/568 [1:58:27<14:00, 13.77s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                 | 508/568 [1:58:40<13:45, 13.76s/it]                                                                                                                                                                                                               {'loss': 0.0215, 'grad_norm': 0.015364720486104488, 'learning_rate': 3.115653153892761e-06, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 200.28, 'epoch': 0.89}
+ 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                 | 508/568 [1:58:40<13:45, 13.76s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████��███████████████████████████████████████████████████████▊                 | 509/568 [1:58:54<13:31, 13.76s/it]                                                                                                                                                                                                               {'loss': 0.0268, 'grad_norm': 0.015259496867656708, 'learning_rate': 3.0153689607045845e-06, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 243.55, 'epoch': 0.9}
+ 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 509/568 [1:58:54<13:31, 13.76s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                 | 510/568 [1:59:08<13:20, 13.80s/it]                                                                                                                                                                                                               {'loss': 0.0275, 'grad_norm': 0.013922610320150852, 'learning_rate': 2.916675022706239e-06, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 239.46, 'epoch': 0.9}
+ 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                 | 510/568 [1:59:08<13:20, 13.80s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                | 511/568 [1:59:22<13:05, 13.79s/it]                                                                                                                                                                                                               {'loss': 0.0228, 'grad_norm': 0.015567890368402004, 'learning_rate': 2.8195746803208244e-06, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 231.18, 'epoch': 0.9}
+ 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                | 511/568 [1:59:22<13:05, 13.79s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 512/568 [1:59:35<12:50, 13.76s/it]                                                                                                                                                                                                               {'loss': 0.0186, 'grad_norm': 0.015663256868720055, 'learning_rate': 2.724071220034158e-06, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 223.31, 'epoch': 0.9}
+ 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 512/568 [1:59:35<12:50, 13.76s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                | 513/568 [1:59:49<12:34, 13.72s/it]                                                                                                                                                                                                               {'loss': 0.0217, 'grad_norm': 0.015373214147984982, 'learning_rate': 2.63016787428354e-06, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 208.72, 'epoch': 0.9}
+ 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                | 513/568 [1:59:49<12:34, 13.72s/it] 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 514/568 [2:00:03<12:20, 13.72s/it]                                                                                                                                                                                                               {'loss': 0.0248, 'grad_norm': 0.015133737586438656, 'learning_rate': 2.5378678213483054e-06, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 210.47, 'epoch': 0.9}
+ 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 514/568 [2:00:03<12:20, 13.72s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 515/568 [2:00:17<12:11, 13.80s/it]                                                                                                                                                                                                               {'loss': 0.028, 'grad_norm': 0.015253300778567791, 'learning_rate': 2.4471741852423237e-06, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 253.78, 'epoch': 0.91}
+ 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 515/568 [2:00:17<12:11, 13.80s/it] 91%|██████████████████████████████████████████████████████��███████████████████████████████████████████████████████████████████████████████████████████████▊               | 516/568 [2:00:30<11:53, 13.73s/it]                                                                                                                                                                                                               {'loss': 0.0255, 'grad_norm': 0.013284078799188137, 'learning_rate': 2.3580900356081903e-06, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 232.81, 'epoch': 0.91}
+ 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊               | 516/568 [2:00:30<11:53, 13.73s/it] 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████               | 517/568 [2:00:44<11:43, 13.80s/it]                                                                                                                                                                                                               {'loss': 0.0206, 'grad_norm': 0.029266275465488434, 'learning_rate': 2.2706183876134045e-06, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 283.3, 'epoch': 0.91}
+ 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████               | 517/568 [2:00:44<11:43, 13.80s/it] 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 518/568 [2:00:58<11:29, 13.80s/it]                                                                                                                                                                                                               {'loss': 0.0206, 'grad_norm': 0.01307604368776083, 'learning_rate': 2.1847622018482283e-06, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 285.85, 'epoch': 0.91}
+ 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 518/568 [2:00:58<11:29, 13.80s/it] 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋              | 519/568 [2:01:12<11:19, 13.86s/it]                                                                                                                                                                                                               {'loss': 0.03, 'grad_norm': 0.01660589873790741, 'learning_rate': 2.100524384225555e-06, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 205.18, 'epoch': 0.91}
+ 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋              | 519/568 [2:01:12<11:19, 13.86s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉              | 520/568 [2:01:26<11:05, 13.87s/it]                                                                                                                                                                                                               {'loss': 0.0226, 'grad_norm': 0.014932731166481972, 'learning_rate': 2.0179077858825448e-06, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 237.69, 'epoch': 0.92}
+ 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉              | 520/568 [2:01:26<11:05, 13.87s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎             | 521/568 [2:01:40<10:50, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.0225, 'grad_norm': 0.011601626873016357, 'learning_rate': 1.9369152030840556e-06, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 284.71, 'epoch': 0.92}
+ 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎             | 521/568 [2:01:40<10:50, 13.85s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 522/568 [2:01:53<10:34, 13.79s/it]                                                                                                                                                                                                               {'loss': 0.0371, 'grad_norm': 0.02109486609697342, 'learning_rate': 1.8575493771281206e-06, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 200.17, 'epoch': 0.92}
+ 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 522/568 [2:01:53<10:34, 13.79s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 523/568 [2:02:07<10:22, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0218, 'grad_norm': 0.014342451468110085, 'learning_rate': 1.7798129942530551e-06, 'memory/max_active (GiB)': 33.2, 'memory/max_allocated (GiB)': 33.2, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 246.82, 'epoch': 0.92}
+ 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 523/568 [2:02:07<10:22, 13.83s/it] 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 524/568 [2:02:21<10:10, 13.88s/it]                                                                                                                                                                                                               {'loss': 0.0232, 'grad_norm': 0.012374167330563068, 'learning_rate': 1.70370868554659e-06, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 235.06, 'epoch': 0.92}
+ 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 524/568 [2:02:21<10:10, 13.88s/it] 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 525/568 [2:02:35<09:53, 13.80s/it]                                                                                                                                                                                                               {'loss': 0.0199, 'grad_norm': 0.014483500272035599, 'learning_rate': 1.6292390268568104e-06, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 270.23, 'epoch': 0.92}
+ 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 525/568 [2:02:35<09:53, 13.80s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 526/568 [2:02:49<09:40, 13.81s/it]                                                                                                                                                                                                               {'loss': 0.0289, 'grad_norm': 0.016036970540881157, 'learning_rate': 1.5564065387049631e-06, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 276.33, 'epoch': 0.93}
+ 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 526/568 [2:02:49<09:40, 13.81s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████            | 527/568 [2:03:03<09:28, 13.87s/it]                                                                                                                                                                                                               {'loss': 0.0244, 'grad_norm': 0.01613627001643181, 'learning_rate': 1.4852136862001764e-06, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 246.42, 'epoch': 0.93}
+ 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████            | 527/568 [2:03:03<09:28, 13.87s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎           | 528/568 [2:03:17<09:15, 13.90s/it]                                                                                                                                                                                                               {'loss': 0.0219, 'grad_norm': 0.014259163290262222, 'learning_rate': 1.4156628789559922e-06, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 263.18, 'epoch': 0.93}
+ 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎           | 528/568 [2:03:17<09:15, 13.90s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 529/568 [2:03:31<09:03, 13.94s/it]                                                                                                                                                                                                               {'loss': 0.0267, 'grad_norm': 0.013060085475444794, 'learning_rate': 1.3477564710088098e-06, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 241.27, 'epoch': 0.93}
+ 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 529/568 [2:03:31<09:03, 13.94s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 530/568 [2:03:44<08:45, 13.84s/it]                                                                                                                                                                                                               {'loss': 0.0238, 'grad_norm': 0.01483248919248581, 'learning_rate': 1.2814967607382432e-06, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 233.1, 'epoch': 0.93}
+ 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 530/568 [2:03:44<08:45, 13.84s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 531/568 [2:03:58<08:30, 13.80s/it]                                                                                                                                                                                                               {'loss': 0.0229, 'grad_norm': 0.014930330216884613, 'learning_rate': 1.2168859907892904e-06, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 190.27, 'epoch': 0.93}
+ 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 531/568 [2:03:58<08:30, 13.80s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 532/568 [2:04:12<08:17, 13.81s/it]                                                                                                                                                                                                               {'loss': 0.0345, 'grad_norm': 0.022847145795822144, 'learning_rate': 1.1539263479964534e-06, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 242.68, 'epoch': 0.94}
+ 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 532/568 [2:04:12<08:17, 13.81s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��█████████████████████████████████▊          | 533/568 [2:04:26<08:03, 13.81s/it]                                                                                                                                                                                                               {'loss': 0.0259, 'grad_norm': 0.017577650025486946, 'learning_rate': 1.0926199633097157e-06, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 159.48, 'epoch': 0.94}
+ 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 533/568 [2:04:26<08:03, 13.81s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 534/568 [2:04:40<07:50, 13.84s/it]                                                                                                                                                                                                               {'loss': 0.0244, 'grad_norm': 0.01898890919983387, 'learning_rate': 1.0329689117224262e-06, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 254.96, 'epoch': 0.94}
+ 94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 534/568 [2:04:40<07:50, 13.84s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 535/568 [2:04:54<07:38, 13.89s/it]                                                                                                                                                                                                               {'loss': 0.0339, 'grad_norm': 0.01911091059446335, 'learning_rate': 9.749752122010346e-07, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 169.62, 'epoch': 0.94}
+ 94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 535/568 [2:04:54<07:38, 13.89s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 536/568 [2:05:08<07:24, 13.89s/it]                                                                                                                                                                                                               {'loss': 0.0244, 'grad_norm': 0.014146664179861546, 'learning_rate': 9.186408276168013e-07, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 229.1, 'epoch': 0.94}
+ 94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 536/568 [2:05:08<07:24, 13.89s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 537/568 [2:05:21<07:08, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.0256, 'grad_norm': 0.015994489192962646, 'learning_rate': 8.639676646793382e-07, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 244.13, 'epoch': 0.95}
+ 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 537/568 [2:05:21<07:08, 13.83s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 538/568 [2:05:35<06:56, 13.88s/it]                                                                                                                                                                                                               {'loss': 0.0225, 'grad_norm': 0.01805371232330799, 'learning_rate': 8.10957573872062e-07, 'memory/max_active (GiB)': 33.2, 'memory/max_allocated (GiB)': 33.2, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 248.08, 'epoch': 0.95}
+ 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 538/568 [2:05:35<06:56, 13.88s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 539/568 [2:05:49<06:41, 13.84s/it]                                                                                                                                                                                                               {'loss': 0.026, 'grad_norm': 0.014974009245634079, 'learning_rate': 7.596123493895991e-07, 'memory/max_active (GiB)': 33.12, 'memory/max_allocated (GiB)': 33.12, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 242.73, 'epoch': 0.95}
+ 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 539/568 [2:05:49<06:41, 13.84s/it] 95%|██████████████████���██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 540/568 [2:06:03<06:26, 13.79s/it]                                                                                                                                                                                                               {'loss': 0.0247, 'grad_norm': 0.015271256677806377, 'learning_rate': 7.099337290770169e-07, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 231.24, 'epoch': 0.95}
+ 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 540/568 [2:06:03<06:26, 13.79s/it][2025-11-17 21:22:41,929] [INFO] [axolotl.core.trainers.base._save:665] [PID:26868] Saving model checkpoint to ./lora-sout-SC-highseq-len/checkpoint-540
+ 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████        | 541/568 [2:06:29<07:49, 17.39s/it]                                                                                                                                                                                                               {'loss': 0.0225, 'grad_norm': 0.01268861722201109, 'learning_rate': 6.61923394371039e-07, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 266.45, 'epoch': 0.95}
+ 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████        | 541/568 [2:06:29<07:49, 17.39s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 542/568 [2:06:42<07:05, 16.36s/it]                                                                                                                                                                                                               {'loss': 0.0188, 'grad_norm': 0.013554488308727741, 'learning_rate': 6.15582970243117e-07, 'memory/max_active (GiB)': 33.07, 'memory/max_allocated (GiB)': 33.07, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 255.53, 'epoch': 0.95}
+ 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 542/568 [2:06:42<07:05, 16.36s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 543/568 [2:06:56<06:28, 15.56s/it]                                                                                                                                                                                                               {'loss': 0.0237, 'grad_norm': 0.015867171809077263, 'learning_rate': 5.7091402514442e-07, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 292.47, 'epoch': 0.96}
+ 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 543/568 [2:06:56<06:28, 15.56s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 544/568 [2:07:10<06:02, 15.11s/it]                                                                                                                                                                                                               {'loss': 0.0249, 'grad_norm': 0.01401207409799099, 'learning_rate': 5.279180709527765e-07, 'memory/max_active (GiB)': 33.11, 'memory/max_allocated (GiB)': 33.11, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 254.25, 'epoch': 0.96}
+ 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 544/568 [2:07:10<06:02, 15.11s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 545/568 [2:07:24<05:39, 14.74s/it]                                                                                                                                                                                                               {'loss': 0.0216, 'grad_norm': 0.015215144492685795, 'learning_rate': 4.865965629214819e-07, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 232.17, 'epoch': 0.96}
+ 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 545/568 [2:07:24<05:39, 14.74s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌      | 546/568 [2:07:38<05:18, 14.46s/it]                                                                                                                                                                                                               {'loss': 0.0286, 'grad_norm': 0.014510494656860828, 'learning_rate': 4.469508996300664e-07, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 233.63, 'epoch': 0.96}
+ 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌      | 546/568 [2:07:38<05:18, 14.46s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 547/568 [2:07:52<04:59, 14.28s/it]                                                                                                                                                                                                               {'loss': 0.0236, 'grad_norm': 0.012626562267541885, 'learning_rate': 4.089824229369155e-07, 'memory/max_active (GiB)': 33.16, 'memory/max_allocated (GiB)': 33.16, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 264.1, 'epoch': 0.96}
+ 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 547/568 [2:07:52<04:59, 14.28s/it] 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 548/568 [2:08:06<04:42, 14.14s/it]                                                                                                                                                                                                               {'loss': 0.0233, 'grad_norm': 0.02207491733133793, 'learning_rate': 3.7269241793390085e-07, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 211.75, 'epoch': 0.96}
+ 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 548/568 [2:08:06<04:42, 14.14s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 549/568 [2:08:19<04:26, 14.01s/it]                                                                                                                                                                                                               {'loss': 0.0235, 'grad_norm': 0.01524685975164175, 'learning_rate': 3.380821129028489e-07, 'memory/max_active (GiB)': 33.07, 'memory/max_allocated (GiB)': 33.07, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 203.28, 'epoch': 0.97}
+ 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 549/568 [2:08:19<04:26, 14.01s/it] 97%|█████████████████████████████��██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 550/568 [2:08:33<04:13, 14.07s/it]                                                                                                                                                                                                               {'loss': 0.0257, 'grad_norm': 0.016373036429286003, 'learning_rate': 3.0515267927400116e-07, 'memory/max_active (GiB)': 33.15, 'memory/max_allocated (GiB)': 33.15, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 294.87, 'epoch': 0.97}
+ 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 550/568 [2:08:33<04:13, 14.07s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 551/568 [2:08:47<03:57, 13.98s/it]                                                                                                                                                                                                               {'loss': 0.0287, 'grad_norm': 0.014057965017855167, 'learning_rate': 2.7390523158633554e-07, 'memory/max_active (GiB)': 33.14, 'memory/max_allocated (GiB)': 33.14, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 252.78, 'epoch': 0.97}
+ 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 551/568 [2:08:47<03:57, 13.98s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 552/568 [2:09:01<03:43, 13.96s/it]                                                                                                                                                                                                               {'loss': 0.02, 'grad_norm': 0.014177613891661167, 'learning_rate': 2.44340827449846e-07, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 220.61, 'epoch': 0.97}
+ 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 552/568 [2:09:01<03:43, 13.96s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 553/568 [2:09:15<03:28, 13.87s/it]                                                                                                                                                                                                               {'loss': 0.0241, 'grad_norm': 0.011794241145253181, 'learning_rate': 2.1646046750978254e-07, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 239.57, 'epoch': 0.97}
+ 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 553/568 [2:09:15<03:28, 13.87s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 554/568 [2:09:29<03:14, 13.88s/it]                                                                                                                                                                                                               {'loss': 0.0222, 'grad_norm': 0.02166912704706192, 'learning_rate': 1.9026509541272275e-07, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 271.35, 'epoch': 0.98}
+ 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 554/568 [2:09:29<03:14, 13.88s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 555/568 [2:09:43<03:00, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.0236, 'grad_norm': 0.013041619211435318, 'learning_rate': 1.657555977746972e-07, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 222.15, 'epoch': 0.98}
+ 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 555/568 [2:09:43<03:00, 13.85s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 556/568 [2:09:56<02:45, 13.78s/it]                                                                                                                                                                                                               {'loss': 0.0263, 'grad_norm': 0.017652716487646103, 'learning_rate': 1.429328041511302e-07, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 268.83, 'epoch': 0.98}
+ 98%|████████████████████████████████████████████████████████���█████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 556/568 [2:09:56<02:45, 13.78s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 557/568 [2:10:10<02:31, 13.78s/it]                                                                                                                                                                                                               {'loss': 0.0259, 'grad_norm': 0.01525792945176363, 'learning_rate': 1.2179748700879012e-07, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 257.68, 'epoch': 0.98}
+ 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 557/568 [2:10:10<02:31, 13.78s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 558/568 [2:10:24<02:18, 13.84s/it]                                                                                                                                                                                                               {'loss': 0.022, 'grad_norm': 0.018307015299797058, 'learning_rate': 1.0235036169963242e-07, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 202.39, 'epoch': 0.98}
+ 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 558/568 [2:10:24<02:18, 13.84s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 559/568 [2:10:38<02:04, 13.86s/it]                                                                                                                                                                                                               {'loss': 0.0173, 'grad_norm': 0.011229626834392548, 'learning_rate': 8.459208643659122e-08, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 218.01, 'epoch': 0.98}
+ 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 559/568 [2:10:38<02:04, 13.86s/it] 99%|████████████████████████████████████████████████████���██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 560/568 [2:10:51<01:50, 13.77s/it]                                                                                                                                                                                                               {'loss': 0.0265, 'grad_norm': 0.0195250753313303, 'learning_rate': 6.852326227130834e-08, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 219.9, 'epoch': 0.99}
+ 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 560/568 [2:10:51<01:50, 13.77s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 561/568 [2:11:05<01:36, 13.79s/it]                                                                                                                                                                                                               {'loss': 0.0187, 'grad_norm': 0.013155556283891201, 'learning_rate': 5.4144433073771707e-08, 'memory/max_active (GiB)': 33.18, 'memory/max_allocated (GiB)': 33.18, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 293.82, 'epoch': 0.99}
+ 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 561/568 [2:11:05<01:36, 13.79s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 562/568 [2:11:19<01:22, 13.80s/it]                                                                                                                                                                                                               {'loss': 0.0308, 'grad_norm': 0.015328154899179935, 'learning_rate': 4.145608551393565e-08, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 202.42, 'epoch': 0.99}
+ 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 562/568 [2:11:19<01:22, 13.80s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 563/568 [2:11:33<01:08, 13.79s/it]                                                                                                                                                                                                               {'loss': 0.0191, 'grad_norm': 0.014842132106423378, 'learning_rate': 3.04586490452119e-08, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 304.56, 'epoch': 0.99}
+ 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 563/568 [2:11:33<01:08, 13.79s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 564/568 [2:11:47<00:55, 13.81s/it]                                                                                                                                                                                                               {'loss': 0.0173, 'grad_norm': 0.013928540982306004, 'learning_rate': 2.1152495889970035e-08, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 184.83, 'epoch': 0.99}
+ 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 564/568 [2:11:47<00:55, 13.81s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 565/568 [2:12:01<00:41, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.0187, 'grad_norm': 0.011449255980551243, 'learning_rate': 1.3537941026914303e-08, 'memory/max_active (GiB)': 33.13, 'memory/max_allocated (GiB)': 33.13, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 257.73, 'epoch': 0.99}
+ 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 565/568 [2:12:01<00:41, 13.85s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 566/568 [2:12:14<00:27, 13.83s/it]                                                                                                                                                                                                               {'loss': 0.021, 'grad_norm': 0.011061688885092735, 'learning_rate': 7.615242180436522e-09, 'memory/max_active (GiB)': 33.1, 'memory/max_allocated (GiB)': 33.1, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 258.28, 'epoch': 1.0}
+100%|███████████████████████████████████████████████████████���█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 566/568 [2:12:14<00:27, 13.83s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 567/568 [2:12:28<00:13, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.018, 'grad_norm': 0.0127173513174057, 'learning_rate': 3.384599811889766e-09, 'memory/max_active (GiB)': 33.09, 'memory/max_allocated (GiB)': 33.09, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 218.83, 'epoch': 1.0}
+100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 567/568 [2:12:28<00:13, 13.85s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 568/568 [2:12:42<00:00, 13.85s/it]                                                                                                                                                                                                               {'loss': 0.0181, 'grad_norm': 0.014353016391396523, 'learning_rate': 8.461571127882373e-10, 'memory/max_active (GiB)': 33.2, 'memory/max_allocated (GiB)': 33.2, 'memory/device_reserved (GiB)': 33.96, 'tokens_per_second_per_gpu': 257.89, 'epoch': 1.0}
+100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 568/568 [2:12:42<00:00, 13.85s/it][2025-11-17 21:29:19,549] [INFO] [axolotl.core.trainers.base._save:665] [PID:26868] Saving model checkpoint to ./lora-sout-SC-highseq-len/checkpoint-568
+                                                                                                                                                                                                               {'train_runtime': 7976.0429, 'train_samples_per_second': 4.558, 'train_steps_per_second': 0.071, 'train_loss': 0.02704511451515251, 'memory/max_active (GiB)': 15.76, 'memory/max_allocated (GiB)': 15.76, 'memory/device_reserved (GiB)': 33.96, 'epoch': 1.0}
+100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 568/568 [2:12:54<00:00, 13.85s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 568/568 [2:12:54<00:00, 14.04s/it]
+[2025-11-17 21:29:23,161] [INFO] [axolotl.train.save_trained_model:218] [PID:26868] Training completed! Saving trained model to ./lora-sout-SC-highseq-len.
+[2025-11-17 21:29:23,568] [INFO] [axolotl.train.save_trained_model:336] [PID:26868] Model successfully saved to ./lora-sout-SC-highseq-len