diff --git "a/debug.log" "b/debug.log"
new file mode 100644--- /dev/null
+++ "b/debug.log"
@@ -0,0 +1,1713 @@
+[2026-01-25 12:18:17,730] [DEBUG] [axolotl.utils.config.resolve_dtype:66] [PID:443] bf16 support detected, enabling for this configuration.
+[2026-01-25 12:18:17,732] [DEBUG] [axolotl.utils.config.log_gpu_memory_usage:127] [PID:443] baseline 0.000GB ()
+[2026-01-25 12:18:17,733] [INFO] [axolotl.cli.config.load_cfg:256] [PID:443] config:
+{
+  "activation_offloading": true,
+  "adam_beta1": 0.9,
+  "adam_beta2": 0.95,
+  "axolotl_config_path": "/weka/oe-adapt-default/ethans/datagen/datagen/train/expt_yamls/axolotl/Qwen3-8B-r0.945_16000_stage2_scaling_final_glm45a_e2e_3ipf_resolved_soft_t0_ipf_1.yaml",
+  "base_model": "/weka/oe-adapt-default/ethans/llm-weights/Qwen3-8B",
+  "base_model_config": "/weka/oe-adapt-default/ethans/llm-weights/Qwen3-8B",
+  "batch_size": 32,
+  "bf16": true,
+  "capabilities": {
+    "bf16": true,
+    "compute_capability": "sm_90",
+    "fp8": false,
+    "n_gpu": 8,
+    "n_node": 1
+  },
+  "chat_template": "chatml",
+  "context_parallel_size": 1,
+  "cut_cross_entropy": true,
+  "dataloader_num_workers": 8,
+  "dataloader_pin_memory": true,
+  "dataloader_prefetch_factor": 256,
+  "dataset_num_proc": 192,
+  "dataset_prepared_path": "dataset_cache",
+  "datasets": [
+    {
+      "chat_template": "tokenizer_default",
+      "ds_type": "json",
+      "field_messages": "messages",
+      "message_field_training": "train",
+      "message_property_mappings": {
+        "content": "content",
+        "role": "role"
+      },
+      "path": "/weka/oe-adapt-default/ethans/tmp/copy_datasets/r0.945_16000_stage2_scaling_final_glm45a_e2e_3ipf_resolved_soft_t0_ipf_1_atk_rft-think_SYSTEM_SIMPLE_7971e8f.jsonl",
+      "trust_remote_code": false,
+      "type": "chat_template"
+    }
+  ],
+  "ddp": true,
+  "deepspeed": {
+    "bf16": {
+      "enabled": "auto"
+    },
+    "fp16": {
+      "auto_cast": false,
+      "enabled": "auto",
+      "hysteresis": 2,
+      "initial_scale_power": 32,
+      "loss_scale": 0,
+      "loss_scale_window": 1000,
+      "min_loss_scale": 1
+    },
+    "gradient_accumulation_steps": "auto",
+    "gradient_clipping": "auto",
+    "train_batch_size": "auto",
+    "train_micro_batch_size_per_gpu": "auto",
+    "wall_clock_breakdown": false,
+    "zero_optimization": {
+      "overlap_comm": true,
+      "stage": 1
+    }
+  },
+  "device": "cuda:0",
+  "device_map": {
+    "": 0
+  },
+  "dion_rank_fraction": 1.0,
+  "dion_rank_multiple_of": 1,
+  "env_capabilities": {
+    "torch_version": "2.6.0"
+  },
+  "eval_batch_size": 1,
+  "eval_causal_lm_metrics": [
+    "sacrebleu",
+    "comet",
+    "ter",
+    "chrf"
+  ],
+  "eval_max_new_tokens": 128,
+  "eval_table_size": 0,
+  "evals_per_epoch": 0,
+  "experimental_skip_move_to_device": true,
+  "flash_attention": true,
+  "fp16": false,
+  "gradient_accumulation_steps": 4,
+  "gradient_checkpointing": true,
+  "gradient_checkpointing_kwargs": {
+    "use_reentrant": true
+  },
+  "include_tkps": true,
+  "learning_rate": 1e-05,
+  "lisa_layers_attribute": "model.layers",
+  "load_best_model_at_end": false,
+  "load_in_4bit": false,
+  "load_in_8bit": false,
+  "local_rank": 0,
+  "logging_steps": 1,
+  "lora_dropout": 0.0,
+  "loraplus_lr_embedding": 1e-06,
+  "loss_watchdog_patience": 3,
+  "loss_watchdog_threshold": 5.0,
+  "lr_scheduler": "cosine",
+  "mean_resizing_embeddings": false,
+  "micro_batch_size": 1,
+  "model_config_type": "qwen3",
+  "num_epochs": 3.0,
+  "optimizer": "adamw_torch",
+  "otel_metrics_host": "localhost",
+  "otel_metrics_port": 8000,
+  "output_dir": "/weka/oe-adapt-default/ethans/llm-weights/axolotl/Qwen3-8B-r0.945_16000_stage2_scaling_final_glm45a_e2e_3ipf_resolved_soft_t0_ipf_1",
+  "plugins": [
+    "axolotl.integrations.cut_cross_entropy.CutCrossEntropyPlugin"
+  ],
+  "pretrain_multipack_attn": true,
+  "profiler_steps_start": 0,
+  "qlora_sharded_model_loading": false,
+  "ray_num_workers": 1,
+  "resources_per_worker": {
+    "GPU": 1
+  },
+  "sample_packing_bin_size": 200,
+  "sample_packing_group_size": 100000,
+  "save_only_model": false,
+  "save_safetensors": true,
+  "save_strategy": "epoch",
+  "sequence_len": 32768,
+  "shuffle_before_merging_datasets": false,
+  "shuffle_merged_datasets": true,
+  "skip_prepare_dataset": false,
+  "streaming_multipack_buffer_size": 10000,
+  "strict": false,
+  "tensor_parallel_size": 1,
+  "tf32": false,
+  "tiled_mlp_use_original_mlp": true,
+  "tokenizer_config": "/weka/oe-adapt-default/ethans/llm-weights/Qwen3-8B",
+  "tokenizer_save_jinja_files": true,
+  "torch_dtype": "torch.bfloat16",
+  "train_on_inputs": false,
+  "trl": {
+    "log_completions": false,
+    "mask_truncated_completions": false,
+    "ref_model_mixup_alpha": 0.9,
+    "ref_model_sync_steps": 64,
+    "scale_rewards": true,
+    "sync_ref_model": false,
+    "use_vllm": false,
+    "vllm_server_host": "0.0.0.0",
+    "vllm_server_port": 8000
+  },
+  "use_otel_metrics": false,
+  "use_ray": false,
+  "use_wandb": true,
+  "val_set_size": 0.0,
+  "vllm": {
+    "device": "auto",
+    "dtype": "auto",
+    "gpu_memory_utilization": 0.9,
+    "host": "0.0.0.0",
+    "port": 8000
+  },
+  "wandb_entity": "allenai-team1",
+  "wandb_name": "Qwen3-8B-r0.945_16000_stage2_scaling_final_glm45a_e2e_3ipf_resolved_soft_t0_ipf_1",
+  "wandb_project": "sweagent",
+  "warmup_ratio": 0.032,
+  "weight_decay": 0.01,
+  "world_size": 8
+}
+[2026-01-25 12:18:18,125] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:443] EOS: 151645 / <|im_end|>
+[2026-01-25 12:18:18,125] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:443] BOS: None / None
+[2026-01-25 12:18:18,126] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:282] [PID:443] PAD: 151643 / <|endoftext|>
+[2026-01-25 12:18:18,126] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:283] [PID:443] UNK: None / None
+[2026-01-25 12:27:05,390] [INFO] [axolotl.utils.data.shared.load_preprocessed_dataset:475] [PID:443] Loading prepared dataset from disk at dataset_cache/e907e1ff7214ecee46c303e25abf5050...
+[2026-01-25 12:27:06,473] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:406] [PID:443] total_num_tokens: 407_251_230
+[2026-01-25 12:27:09,219] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:424] [PID:443] `total_supervised_tokens: 137_262_072`
+[2026-01-25 12:27:09,219] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:522] [PID:443] total_num_steps: 1500
+[2026-01-25 12:27:09,219] [INFO] [axolotl.utils.data.sft._prepare_standard_dataset:121] [PID:443] Maximum number of steps set at 1500
+[2026-01-25 12:27:09,247] [DEBUG] [axolotl.train.setup_model_and_tokenizer:70] [PID:443] loading tokenizer... /weka/oe-adapt-default/ethans/llm-weights/Qwen3-8B
+[2026-01-25 12:27:09,513] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:443] EOS: 151645 / <|im_end|>
+[2026-01-25 12:27:09,513] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:443] BOS: None / None
+[2026-01-25 12:27:09,513] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:282] [PID:443] PAD: 151643 / <|endoftext|>
+[2026-01-25 12:27:09,513] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:283] [PID:443] UNK: None / None
+[2026-01-25 12:27:09,514] [DEBUG] [axolotl.train.setup_model_and_tokenizer:82] [PID:443] Loading model
+[2026-01-25 12:27:09,522] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_evaluation_loop:87] [PID:443] Patched Trainer.evaluation_loop with nanmean loss calculation
+[2026-01-25 12:27:09,524] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_maybe_log_save_evaluate:138] [PID:443] Patched Trainer._maybe_log_save_evaluate with nanmean loss calculation
+[2026-01-25 12:27:09,644] [INFO] [axolotl.integrations.cut_cross_entropy.pre_model_load:94] [PID:443] Applying Cut Cross Entropy to model type: qwen3
+Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]Loading checkpoint shards:  20%|██        | 1/5 [00:03<00:13,  3.33s/it]Loading checkpoint shards:  40%|████      | 2/5 [00:05<00:07,  2.49s/it]Loading checkpoint shards:  60%|██████    | 3/5 [00:08<00:06,  3.07s/it]Loading checkpoint shards:  80%|████████  | 4/5 [00:10<00:02,  2.46s/it]Loading checkpoint shards: 100%|██████████| 5/5 [00:10<00:00,  1.74s/it]Loading checkpoint shards: 100%|██████████| 5/5 [00:10<00:00,  2.20s/it]
+[2026-01-25 12:27:21,301] [INFO] [axolotl.loaders.model._configure_embedding_dtypes:347] [PID:443] Converting modules to torch.bfloat16
+[2026-01-25 12:27:21,304] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:443] Memory usage after model load 18.876GB (+18.876GB allocated, +20.080GB reserved)
+[2026-01-25 12:27:23,978] [INFO] [axolotl.train.save_initial_configs:417] [PID:443] Pre-saving tokenizer to /weka/oe-adapt-default/ethans/llm-weights/axolotl/Qwen3-8B-r0.945_16000_stage2_scaling_final_glm45a_e2e_3ipf_resolved_soft_t0_ipf_1...
+[2026-01-25 12:27:24,179] [INFO] [axolotl.train.save_initial_configs:422] [PID:443] Pre-saving model config to /weka/oe-adapt-default/ethans/llm-weights/axolotl/Qwen3-8B-r0.945_16000_stage2_scaling_final_glm45a_e2e_3ipf_resolved_soft_t0_ipf_1...
+[2026-01-25 12:27:24,183] [INFO] [axolotl.train.execute_training:212] [PID:443] Starting trainer...
+wandb: Using wandb-core as the SDK backend. Please refer to https://wandb.me/wandb-core for more information.
+wandb: Currently logged in as: ethans03 (allenai-team1). Use `wandb login --relogin` to force relogin
+wandb: Tracking run with wandb version 0.18.1
+wandb: Run data is saved locally in /stage/wandb/run-20260125_122752-n7g0a5ev
+wandb: Run `wandb offline` to turn off syncing.
+wandb: Syncing run Qwen3-8B-r0.945_16000_stage2_scaling_final_glm45a_e2e_3ipf_resolved_soft_t0_ipf_1
+wandb: ⭐️ View project at https://wandb.ai/allenai-team1/sweagent
+wandb: 🚀 View run at https://wandb.ai/allenai-team1/sweagent/runs/n7g0a5ev
+wandb: WARNING Saving files without folders. If you want to preserve subdirectories pass base_path to wandb.save, i.e. wandb.save("/mnt/folder/file.h5", base_path="/mnt")
+[2026-01-25 12:27:52,887] [INFO] [axolotl.utils.callbacks.on_train_begin:757] [PID:443] The Axolotl config has been saved to the WandB run under files.
+[2026-01-25 12:27:53,025] [INFO] [axolotl.utils.callbacks.on_train_begin:820] [PID:443] The DeepSpeed config has been saved to the WandB run under files.
+  0%|          | 0/1500 [00:00<?, ?it/s]  0%|          | 1/1500 [00:50<20:56:57, 50.31s/it]                                                   {'loss': 0.4888, 'grad_norm': 11.797181129455566, 'learning_rate': 0.0, 'memory/max_active (GiB)': 45.47, 'memory/max_allocated (GiB)': 45.47, 'memory/device_reserved (GiB)': 50.33, 'tokens_per_second_per_gpu': 824.41, 'total_tokens': 292071, 'epoch': 0.0}
+  0%|          | 1/1500 [00:50<20:56:57, 50.31s/it]  0%|          | 2/1500 [01:23<16:46:55, 40.33s/it]                                                   {'loss': 0.5056, 'grad_norm': 12.310586929321289, 'learning_rate': 2.0833333333333333e-07, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 59.31, 'tokens_per_second_per_gpu': 1118.52, 'total_tokens': 570354, 'epoch': 0.0}
+  0%|          | 2/1500 [01:23<16:46:55, 40.33s/it]  0%|          | 3/1500 [02:00<16:02:10, 38.56s/it]                                                   {'loss': 0.4779, 'grad_norm': 11.221868515014648, 'learning_rate': 4.1666666666666667e-07, 'memory/max_active (GiB)': 51.76, 'memory/max_allocated (GiB)': 51.76, 'memory/device_reserved (GiB)': 59.31, 'tokens_per_second_per_gpu': 920.84, 'total_tokens': 851597, 'epoch': 0.01}
+  0%|          | 3/1500 [02:00<16:02:10, 38.56s/it]  0%|          | 4/1500 [02:35<15:27:24, 37.20s/it]                                                   {'loss': 0.4943, 'grad_norm': 12.219158172607422, 'learning_rate': 6.25e-07, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 59.45, 'tokens_per_second_per_gpu': 1144.41, 'total_tokens': 1133322, 'epoch': 0.01}
+  0%|          | 4/1500 [02:35<15:27:24, 37.20s/it]  0%|          | 5/1500 [03:09<14:56:32, 35.98s/it]                                                   {'loss': 0.494, 'grad_norm': 12.026252746582031, 'learning_rate': 8.333333333333333e-07, 'memory/max_active (GiB)': 51.98, 'memory/max_allocated (GiB)': 51.98, 'memory/device_reserved (GiB)': 59.45, 'tokens_per_second_per_gpu': 899.26, 'total_tokens': 1382896, 'epoch': 0.01}
+  0%|          | 5/1500 [03:09<14:56:32, 35.98s/it]  0%|          | 6/1500 [03:45<15:01:35, 36.21s/it]                                                   {'loss': 0.495, 'grad_norm': 10.513544082641602, 'learning_rate': 1.0416666666666667e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 59.45, 'tokens_per_second_per_gpu': 784.5, 'total_tokens': 1646294, 'epoch': 0.01}
+  0%|          | 6/1500 [03:45<15:01:35, 36.21s/it]  0%|          | 7/1500 [04:18<14:31:59, 35.04s/it]                                                   {'loss': 0.4584, 'grad_norm': 9.860349655151367, 'learning_rate': 1.25e-06, 'memory/max_active (GiB)': 51.56, 'memory/max_allocated (GiB)': 51.56, 'memory/device_reserved (GiB)': 59.45, 'tokens_per_second_per_gpu': 1074.21, 'total_tokens': 1906621, 'epoch': 0.01}
+  0%|          | 7/1500 [04:18<14:31:59, 35.04s/it]  1%|          | 8/1500 [04:51<14:17:58, 34.50s/it]                                                   {'loss': 0.4224, 'grad_norm': 6.065601825714111, 'learning_rate': 1.4583333333333335e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 59.66, 'tokens_per_second_per_gpu': 1359.53, 'total_tokens': 2197222, 'epoch': 0.02}
+  1%|          | 8/1500 [04:51<14:17:58, 34.50s/it]  1%|          | 9/1500 [05:25<14:11:27, 34.26s/it]                                                   {'loss': 0.4175, 'grad_norm': 5.15789270401001, 'learning_rate': 1.6666666666666667e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 59.66, 'tokens_per_second_per_gpu': 1254.42, 'total_tokens': 2486895, 'epoch': 0.02}
+  1%|          | 9/1500 [05:25<14:11:27, 34.26s/it]  1%|          | 10/1500 [05:58<14:03:16, 33.96s/it]                                                    {'loss': 0.4155, 'grad_norm': 4.86112117767334, 'learning_rate': 1.8750000000000003e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 59.66, 'tokens_per_second_per_gpu': 1087.81, 'total_tokens': 2776395, 'epoch': 0.02}
+  1%|          | 10/1500 [05:58<14:03:16, 33.96s/it]  1%|          | 11/1500 [06:31<13:54:21, 33.62s/it]                                                    {'loss': 0.3661, 'grad_norm': 1.6746090650558472, 'learning_rate': 2.0833333333333334e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 59.66, 'tokens_per_second_per_gpu': 1045.84, 'total_tokens': 3045782, 'epoch': 0.02}
+  1%|          | 11/1500 [06:31<13:54:21, 33.62s/it]  1%|          | 12/1500 [07:08<14:18:53, 34.63s/it]                                                    {'loss': 0.3993, 'grad_norm': 1.6034700870513916, 'learning_rate': 2.2916666666666666e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 59.66, 'tokens_per_second_per_gpu': 850.83, 'total_tokens': 3296189, 'epoch': 0.02}
+  1%|          | 12/1500 [07:08<14:18:53, 34.63s/it]  1%|          | 13/1500 [07:41<14:06:26, 34.15s/it]                                                    {'loss': 0.3638, 'grad_norm': 1.281477928161621, 'learning_rate': 2.5e-06, 'memory/max_active (GiB)': 51.37, 'memory/max_allocated (GiB)': 51.37, 'memory/device_reserved (GiB)': 59.66, 'tokens_per_second_per_gpu': 883.26, 'total_tokens': 3575788, 'epoch': 0.03}
+  1%|          | 13/1500 [07:41<14:06:26, 34.15s/it]  1%|          | 14/1500 [08:14<13:55:55, 33.75s/it]                                                    {'loss': 0.3765, 'grad_norm': 1.1253639459609985, 'learning_rate': 2.7083333333333334e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 59.74, 'tokens_per_second_per_gpu': 1102.09, 'total_tokens': 3845889, 'epoch': 0.03}
+  1%|          | 14/1500 [08:14<13:55:55, 33.75s/it]  1%|          | 15/1500 [08:44<13:31:39, 32.79s/it]                                                    {'loss': 0.3577, 'grad_norm': 1.1481714248657227, 'learning_rate': 2.916666666666667e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 59.74, 'tokens_per_second_per_gpu': 1014.88, 'total_tokens': 4095035, 'epoch': 0.03}
+  1%|          | 15/1500 [08:44<13:31:39, 32.79s/it]  1%|          | 16/1500 [09:17<13:25:59, 32.59s/it]                                                    {'loss': 0.3486, 'grad_norm': 1.0466456413269043, 'learning_rate': 3.125e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 59.8, 'tokens_per_second_per_gpu': 1103.54, 'total_tokens': 4388309, 'epoch': 0.03}
+  1%|          | 16/1500 [09:17<13:25:59, 32.59s/it]  1%|          | 17/1500 [09:50<13:31:28, 32.83s/it]                                                    {'loss': 0.3348, 'grad_norm': 0.9244756698608398, 'learning_rate': 3.3333333333333333e-06, 'memory/max_active (GiB)': 51.56, 'memory/max_allocated (GiB)': 51.56, 'memory/device_reserved (GiB)': 59.8, 'tokens_per_second_per_gpu': 1171.09, 'total_tokens': 4669823, 'epoch': 0.03}
+  1%|          | 17/1500 [09:50<13:31:28, 32.83s/it]  1%|          | 18/1500 [10:24<13:40:44, 33.23s/it]                                                    {'loss': 0.3402, 'grad_norm': 0.8356308341026306, 'learning_rate': 3.5416666666666673e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 59.8, 'tokens_per_second_per_gpu': 1505.72, 'total_tokens': 4970185, 'epoch': 0.04}
+  1%|          | 18/1500 [10:24<13:40:44, 33.23s/it]  1%|▏         | 19/1500 [10:56<13:33:33, 32.96s/it]                                                    {'loss': 0.3252, 'grad_norm': 0.5204128623008728, 'learning_rate': 3.7500000000000005e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 59.8, 'tokens_per_second_per_gpu': 1137.08, 'total_tokens': 5243408, 'epoch': 0.04}
+  1%|▏         | 19/1500 [10:56<13:33:33, 32.96s/it]  1%|▏         | 20/1500 [11:29<13:26:56, 32.71s/it]                                                    {'loss': 0.3262, 'grad_norm': 0.7160047888755798, 'learning_rate': 3.958333333333333e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 59.8, 'tokens_per_second_per_gpu': 1012.62, 'total_tokens': 5526917, 'epoch': 0.04}
+  1%|▏         | 20/1500 [11:29<13:26:56, 32.71s/it]  1%|▏         | 21/1500 [11:59<13:08:21, 31.98s/it]                                                    {'loss': 0.3268, 'grad_norm': 0.7435585856437683, 'learning_rate': 4.166666666666667e-06, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 59.8, 'tokens_per_second_per_gpu': 1066.41, 'total_tokens': 5771091, 'epoch': 0.04}
+  1%|▏         | 21/1500 [11:59<13:08:21, 31.98s/it]  1%|▏         | 22/1500 [12:33<13:22:06, 32.56s/it]                                                    {'loss': 0.3116, 'grad_norm': 0.6575767397880554, 'learning_rate': 4.3750000000000005e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 59.8, 'tokens_per_second_per_gpu': 802.72, 'total_tokens': 6043884, 'epoch': 0.04}
+  1%|▏         | 22/1500 [12:33<13:22:06, 32.56s/it]  2%|▏         | 23/1500 [13:05<13:20:47, 32.53s/it]                                                    {'loss': 0.2992, 'grad_norm': 0.5320647358894348, 'learning_rate': 4.583333333333333e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 59.8, 'tokens_per_second_per_gpu': 1341.86, 'total_tokens': 6319488, 'epoch': 0.05}
+  2%|▏         | 23/1500 [13:05<13:20:47, 32.53s/it]  2%|▏         | 24/1500 [13:38<13:25:28, 32.74s/it]                                                    {'loss': 0.3033, 'grad_norm': 0.4885479211807251, 'learning_rate': 4.791666666666668e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.09, 'tokens_per_second_per_gpu': 890.6, 'total_tokens': 6579452, 'epoch': 0.05}
+  2%|▏         | 24/1500 [13:38<13:25:28, 32.74s/it]  2%|▏         | 25/1500 [14:12<13:31:11, 33.00s/it]                                                    {'loss': 0.3138, 'grad_norm': 0.4528558850288391, 'learning_rate': 5e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.09, 'tokens_per_second_per_gpu': 1505.47, 'total_tokens': 6850088, 'epoch': 0.05}
+  2%|▏         | 25/1500 [14:12<13:31:11, 33.00s/it]  2%|▏         | 26/1500 [14:45<13:32:09, 33.06s/it]                                                    {'loss': 0.2974, 'grad_norm': 0.3835320770740509, 'learning_rate': 5.208333333333334e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.09, 'tokens_per_second_per_gpu': 1110.55, 'total_tokens': 7130743, 'epoch': 0.05}
+  2%|▏         | 26/1500 [14:45<13:32:09, 33.06s/it]  2%|▏         | 27/1500 [15:18<13:27:13, 32.88s/it]                                                    {'loss': 0.2849, 'grad_norm': 0.4242011606693268, 'learning_rate': 5.416666666666667e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.09, 'tokens_per_second_per_gpu': 1089.87, 'total_tokens': 7407993, 'epoch': 0.05}
+  2%|▏         | 27/1500 [15:18<13:27:13, 32.88s/it]  2%|▏         | 28/1500 [15:51<13:26:45, 32.88s/it]                                                    {'loss': 0.2971, 'grad_norm': 0.4809100031852722, 'learning_rate': 5.625e-06, 'memory/max_active (GiB)': 50.52, 'memory/max_allocated (GiB)': 50.52, 'memory/device_reserved (GiB)': 60.09, 'tokens_per_second_per_gpu': 910.21, 'total_tokens': 7670263, 'epoch': 0.06}
+  2%|▏         | 28/1500 [15:51<13:26:45, 32.88s/it]  2%|▏         | 29/1500 [16:23<13:23:24, 32.77s/it]                                                    {'loss': 0.2836, 'grad_norm': 0.48039156198501587, 'learning_rate': 5.833333333333334e-06, 'memory/max_active (GiB)': 51.44, 'memory/max_allocated (GiB)': 51.44, 'memory/device_reserved (GiB)': 60.09, 'tokens_per_second_per_gpu': 895.46, 'total_tokens': 7945116, 'epoch': 0.06}
+  2%|▏         | 29/1500 [16:23<13:23:24, 32.77s/it]  2%|▏         | 30/1500 [16:56<13:24:08, 32.82s/it]                                                    {'loss': 0.285, 'grad_norm': 0.46780115365982056, 'learning_rate': 6.041666666666667e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.09, 'tokens_per_second_per_gpu': 1104.03, 'total_tokens': 8214800, 'epoch': 0.06}
+  2%|▏         | 30/1500 [16:56<13:24:08, 32.82s/it]  2%|▏         | 31/1500 [17:30<13:32:40, 33.19s/it]                                                    {'loss': 0.2628, 'grad_norm': 0.42646944522857666, 'learning_rate': 6.25e-06, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.09, 'tokens_per_second_per_gpu': 1239.72, 'total_tokens': 8480132, 'epoch': 0.06}
+  2%|▏         | 31/1500 [17:30<13:32:40, 33.19s/it]  2%|▏         | 32/1500 [18:02<13:20:17, 32.71s/it]                                                    {'loss': 0.2757, 'grad_norm': 0.4308043122291565, 'learning_rate': 6.458333333333334e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.09, 'tokens_per_second_per_gpu': 976.82, 'total_tokens': 8726118, 'epoch': 0.06}
+  2%|▏         | 32/1500 [18:02<13:20:17, 32.71s/it]  2%|▏         | 33/1500 [18:36<13:31:09, 33.18s/it]                                                    {'loss': 0.2642, 'grad_norm': 0.40579545497894287, 'learning_rate': 6.666666666666667e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.09, 'tokens_per_second_per_gpu': 652.85, 'total_tokens': 9010664, 'epoch': 0.07}
+  2%|▏         | 33/1500 [18:36<13:31:09, 33.18s/it]  2%|▏         | 34/1500 [19:10<13:38:40, 33.51s/it]                                                    {'loss': 0.2734, 'grad_norm': 0.3876013457775116, 'learning_rate': 6.875e-06, 'memory/max_active (GiB)': 50.61, 'memory/max_allocated (GiB)': 50.61, 'memory/device_reserved (GiB)': 60.09, 'tokens_per_second_per_gpu': 863.93, 'total_tokens': 9291561, 'epoch': 0.07}
+  2%|▏         | 34/1500 [19:10<13:38:40, 33.51s/it]  2%|▏         | 35/1500 [19:43<13:29:46, 33.16s/it]                                                    {'loss': 0.2778, 'grad_norm': 0.3841979503631592, 'learning_rate': 7.083333333333335e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.09, 'tokens_per_second_per_gpu': 985.67, 'total_tokens': 9569169, 'epoch': 0.07}
+  2%|▏         | 35/1500 [19:43<13:29:46, 33.16s/it]  2%|▏         | 36/1500 [20:16<13:29:54, 33.19s/it]                                                    {'loss': 0.249, 'grad_norm': 0.3419804573059082, 'learning_rate': 7.291666666666667e-06, 'memory/max_active (GiB)': 51.76, 'memory/max_allocated (GiB)': 51.76, 'memory/device_reserved (GiB)': 60.09, 'tokens_per_second_per_gpu': 818.69, 'total_tokens': 9852993, 'epoch': 0.07}
+  2%|▏         | 36/1500 [20:16<13:29:54, 33.19s/it]  2%|▏         | 37/1500 [20:51<13:40:35, 33.65s/it]                                                    {'loss': 0.2625, 'grad_norm': 0.5006548762321472, 'learning_rate': 7.500000000000001e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.09, 'tokens_per_second_per_gpu': 788.79, 'total_tokens': 10128240, 'epoch': 0.07}
+  2%|▏         | 37/1500 [20:51<13:40:35, 33.65s/it]  3%|▎         | 38/1500 [21:25<13:43:58, 33.82s/it]                                                    {'loss': 0.2565, 'grad_norm': 0.35764560103416443, 'learning_rate': 7.708333333333334e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1169.83, 'total_tokens': 10427155, 'epoch': 0.08}
+  3%|▎         | 38/1500 [21:25<13:43:58, 33.82s/it]  3%|▎         | 39/1500 [21:59<13:48:04, 34.01s/it]                                                    {'loss': 0.2509, 'grad_norm': 0.3254099190235138, 'learning_rate': 7.916666666666667e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 918.62, 'total_tokens': 10716244, 'epoch': 0.08}
+  3%|▎         | 39/1500 [21:59<13:48:04, 34.01s/it]  3%|▎         | 40/1500 [22:31<13:31:23, 33.35s/it]                                                    {'loss': 0.231, 'grad_norm': 0.315484881401062, 'learning_rate': 8.125000000000001e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 848.24, 'total_tokens': 10971117, 'epoch': 0.08}
+  3%|▎         | 40/1500 [22:31<13:31:23, 33.35s/it]  3%|▎         | 41/1500 [23:03<13:22:31, 33.00s/it]                                                    {'loss': 0.2428, 'grad_norm': 0.3125401437282562, 'learning_rate': 8.333333333333334e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1109.48, 'total_tokens': 11251601, 'epoch': 0.08}
+  3%|▎         | 41/1500 [23:03<13:22:31, 33.00s/it]  3%|▎         | 42/1500 [23:33<12:58:10, 32.02s/it]                                                    {'loss': 0.2538, 'grad_norm': 0.31991827487945557, 'learning_rate': 8.541666666666666e-06, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 978.27, 'total_tokens': 11494220, 'epoch': 0.08}
+  3%|▎         | 42/1500 [23:33<12:58:10, 32.02s/it]  3%|▎         | 43/1500 [24:05<12:58:34, 32.06s/it]                                                    {'loss': 0.2644, 'grad_norm': 0.6451268792152405, 'learning_rate': 8.750000000000001e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1080.86, 'total_tokens': 11759271, 'epoch': 0.09}
+  3%|▎         | 43/1500 [24:05<12:58:34, 32.06s/it]  3%|▎         | 44/1500 [24:39<13:14:14, 32.73s/it]                                                    {'loss': 0.2398, 'grad_norm': 0.3172665536403656, 'learning_rate': 8.958333333333334e-06, 'memory/max_active (GiB)': 50.01, 'memory/max_allocated (GiB)': 50.01, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 756.31, 'total_tokens': 12046817, 'epoch': 0.09}
+  3%|▎         | 44/1500 [24:39<13:14:14, 32.73s/it]  3%|▎         | 45/1500 [25:14<13:25:30, 33.22s/it]                                                    {'loss': 0.2437, 'grad_norm': 0.3047725260257721, 'learning_rate': 9.166666666666666e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1060.65, 'total_tokens': 12325680, 'epoch': 0.09}
+  3%|▎         | 45/1500 [25:14<13:25:30, 33.22s/it]  3%|▎         | 46/1500 [25:47<13:22:59, 33.14s/it]                                                    {'loss': 0.2249, 'grad_norm': 0.3119816780090332, 'learning_rate': 9.375000000000001e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1158.1, 'total_tokens': 12628644, 'epoch': 0.09}
+  3%|▎         | 46/1500 [25:47<13:22:59, 33.14s/it]  3%|▎         | 47/1500 [26:21<13:29:42, 33.44s/it]                                                    {'loss': 0.232, 'grad_norm': 0.28939372301101685, 'learning_rate': 9.583333333333335e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1115.78, 'total_tokens': 12913976, 'epoch': 0.09}
+  3%|▎         | 47/1500 [26:21<13:29:42, 33.44s/it]  3%|▎         | 48/1500 [26:55<13:33:29, 33.62s/it]                                                    {'loss': 0.2284, 'grad_norm': 0.305003821849823, 'learning_rate': 9.791666666666666e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1148.04, 'total_tokens': 13198708, 'epoch': 0.1}
+  3%|▎         | 48/1500 [26:55<13:33:29, 33.62s/it]  3%|▎         | 49/1500 [27:28<13:25:47, 33.32s/it]                                                    {'loss': 0.2296, 'grad_norm': 0.2909066677093506, 'learning_rate': 1e-05, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 850.0, 'total_tokens': 13459996, 'epoch': 0.1}
+  3%|▎         | 49/1500 [27:28<13:25:47, 33.32s/it]  3%|▎         | 50/1500 [28:01<13:25:04, 33.31s/it]                                                    {'loss': 0.2441, 'grad_norm': 0.3141738772392273, 'learning_rate': 9.999988296753515e-06, 'memory/max_active (GiB)': 52.48, 'memory/max_allocated (GiB)': 52.48, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1201.13, 'total_tokens': 13714957, 'epoch': 0.1}
+  3%|▎         | 50/1500 [28:01<13:25:04, 33.31s/it]  3%|▎         | 51/1500 [28:34<13:20:13, 33.14s/it]                                                    {'loss': 0.2277, 'grad_norm': 0.3117384910583496, 'learning_rate': 9.999953187068847e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 842.11, 'total_tokens': 13962326, 'epoch': 0.1}
+  3%|▎         | 51/1500 [28:34<13:20:13, 33.14s/it]  3%|▎         | 52/1500 [29:06<13:17:53, 33.06s/it]                                                    {'loss': 0.2286, 'grad_norm': 0.28344792127609253, 'learning_rate': 9.999894671110354e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1016.33, 'total_tokens': 14255748, 'epoch': 0.1}
+  3%|▎         | 52/1500 [29:06<13:17:53, 33.06s/it]  4%|▎         | 53/1500 [29:40<13:20:37, 33.20s/it]                                                    {'loss': 0.2334, 'grad_norm': 0.29244929552078247, 'learning_rate': 9.999812749151968e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1346.63, 'total_tokens': 14536760, 'epoch': 0.11}
+  4%|▎         | 53/1500 [29:40<13:20:37, 33.20s/it]  4%|▎         | 54/1500 [30:14<13:26:55, 33.48s/it]                                                    {'loss': 0.2193, 'grad_norm': 0.28418204188346863, 'learning_rate': 9.999707421577188e-06, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 912.03, 'total_tokens': 14825984, 'epoch': 0.11}
+  4%|▎         | 54/1500 [30:14<13:26:55, 33.48s/it]  4%|▎         | 55/1500 [30:47<13:22:49, 33.34s/it]                                                    {'loss': 0.2402, 'grad_norm': 0.2964015007019043, 'learning_rate': 9.999578688879085e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 918.6, 'total_tokens': 15111311, 'epoch': 0.11}
+  4%|▎         | 55/1500 [30:47<13:22:49, 33.34s/it]  4%|▎         | 56/1500 [31:20<13:21:30, 33.30s/it]                                                    {'loss': 0.2215, 'grad_norm': 0.2960069179534912, 'learning_rate': 9.999426551660296e-06, 'memory/max_active (GiB)': 51.88, 'memory/max_allocated (GiB)': 51.88, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 968.58, 'total_tokens': 15383168, 'epoch': 0.11}
+  4%|▎         | 56/1500 [31:20<13:21:30, 33.30s/it]  4%|▍         | 57/1500 [31:53<13:15:43, 33.09s/it]                                                    {'loss': 0.2166, 'grad_norm': 0.277523398399353, 'learning_rate': 9.99925101063302e-06, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1113.13, 'total_tokens': 15660741, 'epoch': 0.11}
+  4%|▍         | 57/1500 [31:53<13:15:43, 33.09s/it]  4%|▍         | 58/1500 [32:25<13:10:45, 32.90s/it]                                                    {'loss': 0.2253, 'grad_norm': 0.29894372820854187, 'learning_rate': 9.999052066619017e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 864.26, 'total_tokens': 15921052, 'epoch': 0.12}
+  4%|▍         | 58/1500 [32:25<13:10:45, 32.90s/it]  4%|▍         | 59/1500 [32:59<13:11:50, 32.97s/it]                                                    {'loss': 0.2122, 'grad_norm': 0.28652462363243103, 'learning_rate': 9.998829720549603e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 869.85, 'total_tokens': 16192190, 'epoch': 0.12}
+  4%|▍         | 59/1500 [32:59<13:11:50, 32.97s/it]  4%|▍         | 60/1500 [33:33<13:21:10, 33.38s/it]                                                    {'loss': 0.216, 'grad_norm': 0.2836185395717621, 'learning_rate': 9.998583973465647e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 907.35, 'total_tokens': 16491199, 'epoch': 0.12}
+  4%|▍         | 60/1500 [33:33<13:21:10, 33.38s/it]  4%|▍         | 61/1500 [34:06<13:19:56, 33.35s/it]                                                    {'loss': 0.2088, 'grad_norm': 0.2942884564399719, 'learning_rate': 9.998314826517564e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1132.95, 'total_tokens': 16765520, 'epoch': 0.12}
+  4%|▍         | 61/1500 [34:06<13:19:56, 33.35s/it]  4%|▍         | 62/1500 [34:40<13:20:34, 33.40s/it]                                                    {'loss': 0.2232, 'grad_norm': 0.3015613555908203, 'learning_rate': 9.998022280965311e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1014.36, 'total_tokens': 17046172, 'epoch': 0.12}
+  4%|▍         | 62/1500 [34:40<13:20:34, 33.40s/it]  4%|▍         | 63/1500 [35:13<13:18:27, 33.34s/it]                                                    {'loss': 0.2099, 'grad_norm': 0.2878548800945282, 'learning_rate': 9.99770633817838e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1301.05, 'total_tokens': 17329488, 'epoch': 0.13}
+  4%|▍         | 63/1500 [35:13<13:18:27, 33.34s/it]  4%|▍         | 64/1500 [35:45<13:06:12, 32.85s/it]                                                    {'loss': 0.2229, 'grad_norm': 0.3187447786331177, 'learning_rate': 9.997366999635798e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1215.95, 'total_tokens': 17598263, 'epoch': 0.13}
+  4%|▍         | 64/1500 [35:45<13:06:12, 32.85s/it]  4%|▍         | 65/1500 [36:16<12:58:10, 32.54s/it]                                                    {'loss': 0.2179, 'grad_norm': 0.33600032329559326, 'learning_rate': 9.997004266926105e-06, 'memory/max_active (GiB)': 51.37, 'memory/max_allocated (GiB)': 51.37, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 863.78, 'total_tokens': 17839961, 'epoch': 0.13}
+  4%|▍         | 65/1500 [36:16<12:58:10, 32.54s/it]  4%|▍         | 66/1500 [36:50<13:04:05, 32.81s/it]                                                    {'loss': 0.2133, 'grad_norm': 0.3062179982662201, 'learning_rate': 9.996618141747363e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1085.83, 'total_tokens': 18146342, 'epoch': 0.13}
+  4%|▍         | 66/1500 [36:50<13:04:05, 32.81s/it]  4%|▍         | 67/1500 [37:23<13:07:49, 32.99s/it]                                                    {'loss': 0.2062, 'grad_norm': 0.2943173944950104, 'learning_rate': 9.99620862590714e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1182.32, 'total_tokens': 18423427, 'epoch': 0.13}
+  4%|▍         | 67/1500 [37:23<13:07:49, 32.99s/it]  5%|▍         | 68/1500 [37:56<13:03:20, 32.82s/it]                                                    {'loss': 0.2149, 'grad_norm': 0.3056532144546509, 'learning_rate': 9.995775721322502e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 895.13, 'total_tokens': 18683775, 'epoch': 0.14}
+  5%|▍         | 68/1500 [37:56<13:03:20, 32.82s/it]  5%|▍         | 69/1500 [38:27<12:50:55, 32.32s/it]                                                    {'loss': 0.2133, 'grad_norm': 0.30356264114379883, 'learning_rate': 9.995319430020004e-06, 'memory/max_active (GiB)': 51.56, 'memory/max_allocated (GiB)': 51.56, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 945.3, 'total_tokens': 18958844, 'epoch': 0.14}
+  5%|▍         | 69/1500 [38:27<12:50:55, 32.32s/it]  5%|▍         | 70/1500 [39:00<12:53:35, 32.46s/it]                                                    {'loss': 0.2072, 'grad_norm': 0.3006720542907715, 'learning_rate': 9.99483975413568e-06, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 762.22, 'total_tokens': 19227731, 'epoch': 0.14}
+  5%|▍         | 70/1500 [39:00<12:53:35, 32.46s/it]  5%|▍         | 71/1500 [39:32<12:54:52, 32.54s/it]                                                    {'loss': 0.2214, 'grad_norm': 0.3124455511569977, 'learning_rate': 9.994336695915041e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 824.85, 'total_tokens': 19499782, 'epoch': 0.14}
+  5%|▍         | 71/1500 [39:32<12:54:52, 32.54s/it]  5%|▍         | 72/1500 [40:05<12:52:34, 32.46s/it]                                                    {'loss': 0.2107, 'grad_norm': 0.2982291877269745, 'learning_rate': 9.993810257713049e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1373.37, 'total_tokens': 19796689, 'epoch': 0.14}
+  5%|▍         | 72/1500 [40:05<12:52:34, 32.46s/it]  5%|▍         | 73/1500 [40:38<12:56:54, 32.67s/it]                                                    {'loss': 0.2151, 'grad_norm': 0.2976992726325989, 'learning_rate': 9.993260441994116e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1124.51, 'total_tokens': 20093841, 'epoch': 0.15}
+  5%|▍         | 73/1500 [40:38<12:56:54, 32.67s/it]  5%|▍         | 74/1500 [41:11<12:58:36, 32.76s/it]                                                    {'loss': 0.2095, 'grad_norm': 0.3019077777862549, 'learning_rate': 9.992687251332098e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1084.03, 'total_tokens': 20379662, 'epoch': 0.15}
+  5%|▍         | 74/1500 [41:11<12:58:36, 32.76s/it]  5%|▌         | 75/1500 [41:43<12:54:17, 32.60s/it]                                                    {'loss': 0.2043, 'grad_norm': 0.3262016177177429, 'learning_rate': 9.992090688410271e-06, 'memory/max_active (GiB)': 51.98, 'memory/max_allocated (GiB)': 51.98, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1022.48, 'total_tokens': 20657297, 'epoch': 0.15}
+  5%|▌         | 75/1500 [41:43<12:54:17, 32.60s/it]  5%|▌         | 76/1500 [42:16<12:56:54, 32.73s/it]                                                    {'loss': 0.222, 'grad_norm': 0.3542048931121826, 'learning_rate': 9.991470756021323e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 813.86, 'total_tokens': 20934318, 'epoch': 0.15}
+  5%|▌         | 76/1500 [42:16<12:56:54, 32.73s/it]  5%|▌         | 77/1500 [42:51<13:09:06, 33.27s/it]                                                    {'loss': 0.2013, 'grad_norm': 0.3114452064037323, 'learning_rate': 9.990827457067342e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1105.72, 'total_tokens': 21192444, 'epoch': 0.15}
+  5%|▌         | 77/1500 [42:51<13:09:06, 33.27s/it]  5%|▌         | 78/1500 [43:25<13:16:07, 33.59s/it]                                                    {'loss': 0.2118, 'grad_norm': 0.31834876537323, 'learning_rate': 9.990160794559805e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 948.55, 'total_tokens': 21466629, 'epoch': 0.16}
+  5%|▌         | 78/1500 [43:25<13:16:07, 33.59s/it]  5%|▌         | 79/1500 [43:56<13:01:47, 33.01s/it]                                                    {'loss': 0.2015, 'grad_norm': 0.3275411128997803, 'learning_rate': 9.989470771619555e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 852.6, 'total_tokens': 21732640, 'epoch': 0.16}
+  5%|▌         | 79/1500 [43:56<13:01:47, 33.01s/it]  5%|▌         | 80/1500 [44:30<13:06:42, 33.24s/it]                                                    {'loss': 0.214, 'grad_norm': 0.32406073808670044, 'learning_rate': 9.988757391476797e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1183.73, 'total_tokens': 22045110, 'epoch': 0.16}
+  5%|▌         | 80/1500 [44:30<13:06:42, 33.24s/it]  5%|▌         | 81/1500 [45:03<13:01:03, 33.03s/it]                                                    {'loss': 0.1946, 'grad_norm': 0.29576393961906433, 'learning_rate': 9.988020657471078e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1241.74, 'total_tokens': 22349663, 'epoch': 0.16}
+  5%|▌         | 81/1500 [45:03<13:01:03, 33.03s/it]  5%|▌         | 82/1500 [45:36<13:03:25, 33.15s/it]                                                    {'loss': 0.2045, 'grad_norm': 0.34734871983528137, 'learning_rate': 9.987260573051268e-06, 'memory/max_active (GiB)': 51.7, 'memory/max_allocated (GiB)': 51.7, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 991.87, 'total_tokens': 22608091, 'epoch': 0.16}
+  5%|▌         | 82/1500 [45:36<13:03:25, 33.15s/it]  6%|▌         | 83/1500 [46:09<12:58:27, 32.96s/it]                                                    {'loss': 0.2031, 'grad_norm': 0.2992374300956726, 'learning_rate': 9.98647714177555e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1113.49, 'total_tokens': 22909549, 'epoch': 0.17}
+  6%|▌         | 83/1500 [46:09<12:58:27, 32.96s/it]  6%|▌         | 84/1500 [46:42<12:59:57, 33.05s/it]                                                    {'loss': 0.1966, 'grad_norm': 0.2974633276462555, 'learning_rate': 9.9856703673114e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 913.95, 'total_tokens': 23184697, 'epoch': 0.17}
+  6%|▌         | 84/1500 [46:42<12:59:57, 33.05s/it]  6%|▌         | 85/1500 [47:15<13:00:51, 33.11s/it]                                                    {'loss': 0.1994, 'grad_norm': 0.33576515316963196, 'learning_rate': 9.984840253435569e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 929.74, 'total_tokens': 23445308, 'epoch': 0.17}
+  6%|▌         | 85/1500 [47:15<13:00:51, 33.11s/it]  6%|▌         | 86/1500 [47:49<13:02:57, 33.22s/it]                                                    {'loss': 0.2044, 'grad_norm': 0.3376428186893463, 'learning_rate': 9.983986804034066e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1166.61, 'total_tokens': 23706364, 'epoch': 0.17}
+  6%|▌         | 86/1500 [47:49<13:02:57, 33.22s/it]  6%|▌         | 87/1500 [48:22<13:03:39, 33.28s/it]                                                    {'loss': 0.1938, 'grad_norm': 0.3651767075061798, 'learning_rate': 9.983110023102148e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 968.3, 'total_tokens': 23941273, 'epoch': 0.17}
+  6%|▌         | 87/1500 [48:22<13:03:39, 33.28s/it]  6%|▌         | 88/1500 [48:55<13:02:48, 33.26s/it]                                                    {'loss': 0.2145, 'grad_norm': 0.32646021246910095, 'learning_rate': 9.982209914744284e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1421.5, 'total_tokens': 24215876, 'epoch': 0.18}
+  6%|▌         | 88/1500 [48:55<13:02:48, 33.26s/it]  6%|▌         | 89/1500 [49:30<13:10:12, 33.60s/it]                                                    {'loss': 0.2028, 'grad_norm': 0.31678739190101624, 'learning_rate': 9.98128648317415e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 833.84, 'total_tokens': 24507333, 'epoch': 0.18}
+  6%|▌         | 89/1500 [49:30<13:10:12, 33.60s/it]  6%|▌         | 90/1500 [50:02<13:01:53, 33.27s/it]                                                    {'loss': 0.2074, 'grad_norm': 0.3150493800640106, 'learning_rate': 9.980339732714607e-06, 'memory/max_active (GiB)': 51.47, 'memory/max_allocated (GiB)': 51.47, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 886.77, 'total_tokens': 24783313, 'epoch': 0.18}
+  6%|▌         | 90/1500 [50:02<13:01:53, 33.27s/it]  6%|▌         | 91/1500 [50:36<13:07:19, 33.53s/it]                                                    {'loss': 0.2012, 'grad_norm': 0.32454413175582886, 'learning_rate': 9.979369667797675e-06, 'memory/max_active (GiB)': 51.01, 'memory/max_allocated (GiB)': 51.01, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 689.14, 'total_tokens': 25065681, 'epoch': 0.18}
+  6%|▌         | 91/1500 [50:36<13:07:19, 33.53s/it]  6%|▌         | 92/1500 [51:06<12:40:49, 32.42s/it]                                                    {'loss': 0.2044, 'grad_norm': 0.35793131589889526, 'learning_rate': 9.97837629296452e-06, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1133.76, 'total_tokens': 25312625, 'epoch': 0.18}
+  6%|▌         | 92/1500 [51:06<12:40:49, 32.42s/it]  6%|▌         | 93/1500 [51:38<12:38:49, 32.36s/it]                                                    {'loss': 0.2046, 'grad_norm': 0.34239012002944946, 'learning_rate': 9.977359612865424e-06, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 856.15, 'total_tokens': 25582116, 'epoch': 0.19}
+  6%|▌         | 93/1500 [51:38<12:38:49, 32.36s/it]  6%|▋         | 94/1500 [52:12<12:49:49, 32.85s/it]                                                    {'loss': 0.2134, 'grad_norm': 0.3304428160190582, 'learning_rate': 9.97631963225977e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1062.75, 'total_tokens': 25868136, 'epoch': 0.19}
+  6%|▋         | 94/1500 [52:12<12:49:49, 32.85s/it]  6%|▋         | 95/1500 [52:46<12:54:38, 33.08s/it]                                                    {'loss': 0.2054, 'grad_norm': 0.33317092061042786, 'learning_rate': 9.975256356016019e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1022.09, 'total_tokens': 26136141, 'epoch': 0.19}
+  6%|▋         | 95/1500 [52:46<12:54:38, 33.08s/it]  6%|▋         | 96/1500 [53:19<12:53:08, 33.04s/it]                                                    {'loss': 0.2032, 'grad_norm': 0.335004061460495, 'learning_rate': 9.974169789111683e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 987.87, 'total_tokens': 26428918, 'epoch': 0.19}
+  6%|▋         | 96/1500 [53:19<12:53:08, 33.04s/it]  6%|▋         | 97/1500 [53:51<12:48:02, 32.85s/it]                                                    {'loss': 0.2034, 'grad_norm': 0.3206680715084076, 'learning_rate': 9.973059936633308e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1300.92, 'total_tokens': 26727184, 'epoch': 0.19}
+  6%|▋         | 97/1500 [53:51<12:48:02, 32.85s/it]  7%|▋         | 98/1500 [54:25<12:49:54, 32.95s/it]                                                    {'loss': 0.1891, 'grad_norm': 0.3174649775028229, 'learning_rate': 9.971926803776443e-06, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 736.25, 'total_tokens': 27002982, 'epoch': 0.2}
+  7%|▋         | 98/1500 [54:25<12:49:54, 32.95s/it]  7%|▋         | 99/1500 [54:59<12:56:57, 33.27s/it]                                                    {'loss': 0.1907, 'grad_norm': 0.34259307384490967, 'learning_rate': 9.970770395845622e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1007.33, 'total_tokens': 27263735, 'epoch': 0.2}
+  7%|▋         | 99/1500 [54:59<12:56:57, 33.27s/it]  7%|▋         | 100/1500 [55:30<12:40:06, 32.58s/it]                                                     {'loss': 0.2094, 'grad_norm': 0.35685452818870544, 'learning_rate': 9.969590718254337e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1032.7, 'total_tokens': 27509986, 'epoch': 0.2}
+  7%|▋         | 100/1500 [55:30<12:40:06, 32.58s/it]  7%|▋         | 101/1500 [56:03<12:47:04, 32.90s/it]                                                     {'loss': 0.2043, 'grad_norm': 0.32631707191467285, 'learning_rate': 9.968387776525009e-06, 'memory/max_active (GiB)': 51.98, 'memory/max_allocated (GiB)': 51.98, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1044.0, 'total_tokens': 27778225, 'epoch': 0.2}
+  7%|▋         | 101/1500 [56:03<12:47:04, 32.90s/it]  7%|▋         | 102/1500 [56:37<12:54:35, 33.24s/it]                                                     {'loss': 0.2106, 'grad_norm': 0.38818490505218506, 'learning_rate': 9.967161576288969e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 990.76, 'total_tokens': 28036084, 'epoch': 0.2}
+  7%|▋         | 102/1500 [56:37<12:54:35, 33.24s/it]  7%|▋         | 103/1500 [57:11<12:56:25, 33.35s/it]                                                     {'loss': 0.1974, 'grad_norm': 0.3335576355457306, 'learning_rate': 9.965912123286425e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 845.65, 'total_tokens': 28308314, 'epoch': 0.21}
+  7%|▋         | 103/1500 [57:11<12:56:25, 33.35s/it]  7%|▋         | 104/1500 [57:44<12:56:28, 33.37s/it]                                                     {'loss': 0.2027, 'grad_norm': 0.3428322672843933, 'learning_rate': 9.964639423366442e-06, 'memory/max_active (GiB)': 51.37, 'memory/max_allocated (GiB)': 51.37, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 782.01, 'total_tokens': 28587955, 'epoch': 0.21}
+  7%|▋         | 104/1500 [57:44<12:56:28, 33.37s/it]  7%|▋         | 105/1500 [58:18<12:59:24, 33.52s/it]                                                     {'loss': 0.1891, 'grad_norm': 0.3312930464744568, 'learning_rate': 9.963343482486907e-06, 'memory/max_active (GiB)': 51.63, 'memory/max_allocated (GiB)': 51.63, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 999.86, 'total_tokens': 28884956, 'epoch': 0.21}
+  7%|▋         | 105/1500 [58:18<12:59:24, 33.52s/it]  7%|▋         | 106/1500 [58:52<12:57:33, 33.47s/it]                                                     {'loss': 0.1889, 'grad_norm': 0.33051198720932007, 'learning_rate': 9.962024306714504e-06, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 981.19, 'total_tokens': 29159367, 'epoch': 0.21}
+  7%|▋         | 106/1500 [58:52<12:57:33, 33.47s/it]  7%|▋         | 107/1500 [59:25<12:55:17, 33.39s/it]                                                     {'loss': 0.1986, 'grad_norm': 0.3447130024433136, 'learning_rate': 9.960681902224692e-06, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 830.81, 'total_tokens': 29427350, 'epoch': 0.21}
+  7%|▋         | 107/1500 [59:25<12:55:17, 33.39s/it]  7%|▋         | 108/1500 [59:59<12:57:45, 33.52s/it]                                                     {'loss': 0.1937, 'grad_norm': 0.339499831199646, 'learning_rate': 9.959316275301664e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1036.48, 'total_tokens': 29729055, 'epoch': 0.22}
+  7%|▋         | 108/1500 [59:59<12:57:45, 33.52s/it]  7%|▋         | 109/1500 [1:00:32<12:57:10, 33.52s/it]                                                       {'loss': 0.1976, 'grad_norm': 0.32746654748916626, 'learning_rate': 9.957927432338332e-06, 'memory/max_active (GiB)': 51.7, 'memory/max_allocated (GiB)': 51.7, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 991.01, 'total_tokens': 30023256, 'epoch': 0.22}
+  7%|▋         | 109/1500 [1:00:32<12:57:10, 33.52s/it]  7%|▋         | 110/1500 [1:01:05<12:55:33, 33.48s/it]                                                       {'loss': 0.1816, 'grad_norm': 0.3322105407714844, 'learning_rate': 9.956515379836282e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 882.1, 'total_tokens': 30303558, 'epoch': 0.22}
+  7%|▋         | 110/1500 [1:01:05<12:55:33, 33.48s/it]  7%|▋         | 111/1500 [1:01:39<12:57:47, 33.60s/it]                                                       {'loss': 0.1868, 'grad_norm': 0.3461697995662689, 'learning_rate': 9.955080124405751e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1203.78, 'total_tokens': 30579559, 'epoch': 0.22}
+  7%|▋         | 111/1500 [1:01:39<12:57:47, 33.60s/it]  7%|▋         | 112/1500 [1:02:11<12:45:50, 33.11s/it]                                                       {'loss': 0.1937, 'grad_norm': 0.3308134377002716, 'learning_rate': 9.953621672765603e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1009.81, 'total_tokens': 30860681, 'epoch': 0.22}
+  7%|▋         | 112/1500 [1:02:11<12:45:50, 33.11s/it]  8%|▊         | 113/1500 [1:02:44<12:42:22, 32.98s/it]                                                       {'loss': 0.1945, 'grad_norm': 0.3184454143047333, 'learning_rate': 9.952140031743282e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 986.28, 'total_tokens': 31146760, 'epoch': 0.23}
+  8%|▊         | 113/1500 [1:02:44<12:42:22, 32.98s/it]  8%|▊         | 114/1500 [1:03:17<12:43:25, 33.05s/it]                                                       {'loss': 0.1927, 'grad_norm': 0.35949763655662537, 'learning_rate': 9.950635208274792e-06, 'memory/max_active (GiB)': 51.63, 'memory/max_allocated (GiB)': 51.63, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 923.49, 'total_tokens': 31417057, 'epoch': 0.23}
+  8%|▊         | 114/1500 [1:03:17<12:43:25, 33.05s/it]  8%|▊         | 115/1500 [1:03:49<12:32:58, 32.62s/it]                                                       {'loss': 0.195, 'grad_norm': 0.32371827960014343, 'learning_rate': 9.949107209404664e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1050.94, 'total_tokens': 31679603, 'epoch': 0.23}
+  8%|▊         | 115/1500 [1:03:49<12:32:58, 32.62s/it]  8%|▊         | 116/1500 [1:04:23<12:42:27, 33.05s/it]                                                       {'loss': 0.1815, 'grad_norm': 0.46527066826820374, 'learning_rate': 9.947556042285915e-06, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 807.87, 'total_tokens': 31958733, 'epoch': 0.23}
+  8%|▊         | 116/1500 [1:04:23<12:42:27, 33.05s/it]  8%|▊         | 117/1500 [1:04:57<12:49:54, 33.40s/it]                                                       {'loss': 0.1973, 'grad_norm': 0.38465559482574463, 'learning_rate': 9.945981714180021e-06, 'memory/max_active (GiB)': 51.76, 'memory/max_allocated (GiB)': 51.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 796.09, 'total_tokens': 32214285, 'epoch': 0.23}
+  8%|▊         | 117/1500 [1:04:57<12:49:54, 33.40s/it]  8%|▊         | 118/1500 [1:05:29<12:38:22, 32.93s/it]                                                       {'loss': 0.1956, 'grad_norm': 0.3244771361351013, 'learning_rate': 9.944384232456883e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1141.13, 'total_tokens': 32488309, 'epoch': 0.24}
+  8%|▊         | 118/1500 [1:05:29<12:38:22, 32.93s/it]  8%|▊         | 119/1500 [1:06:01<12:30:42, 32.62s/it]                                                       {'loss': 0.1921, 'grad_norm': 0.3599996864795685, 'learning_rate': 9.942763604594789e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1201.73, 'total_tokens': 32752668, 'epoch': 0.24}
+  8%|▊         | 119/1500 [1:06:01<12:30:42, 32.62s/it]  8%|▊         | 120/1500 [1:06:37<12:56:17, 33.75s/it]                                                       {'loss': 0.1917, 'grad_norm': 0.3346974551677704, 'learning_rate': 9.941119838180385e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1077.25, 'total_tokens': 33042938, 'epoch': 0.24}
+  8%|▊         | 120/1500 [1:06:37<12:56:17, 33.75s/it]  8%|▊         | 121/1500 [1:07:11<12:56:35, 33.79s/it]                                                       {'loss': 0.1886, 'grad_norm': 0.3547525405883789, 'learning_rate': 9.939452940908627e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1176.97, 'total_tokens': 33301580, 'epoch': 0.24}
+  8%|▊         | 121/1500 [1:07:11<12:56:35, 33.79s/it]  8%|▊         | 122/1500 [1:07:40<12:25:12, 32.45s/it]                                                       {'loss': 0.2068, 'grad_norm': 0.4078327417373657, 'learning_rate': 9.937762920582762e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1163.06, 'total_tokens': 33549057, 'epoch': 0.24}
+  8%|▊         | 122/1500 [1:07:40<12:25:12, 32.45s/it]  8%|▊         | 123/1500 [1:08:14<12:33:03, 32.81s/it]                                                       {'loss': 0.1928, 'grad_norm': 0.3506370782852173, 'learning_rate': 9.936049785114278e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1010.25, 'total_tokens': 33824511, 'epoch': 0.25}
+  8%|▊         | 123/1500 [1:08:14<12:33:03, 32.81s/it]  8%|▊         | 124/1500 [1:08:48<12:40:47, 33.17s/it]                                                       {'loss': 0.1947, 'grad_norm': 0.3395143449306488, 'learning_rate': 9.93431354252288e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1372.99, 'total_tokens': 34109882, 'epoch': 0.25}
+  8%|▊         | 124/1500 [1:08:48<12:40:47, 33.17s/it]  8%|▊         | 125/1500 [1:09:21<12:40:36, 33.19s/it]                                                       {'loss': 0.196, 'grad_norm': 0.3789152503013611, 'learning_rate': 9.932554200936428e-06, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 878.12, 'total_tokens': 34370627, 'epoch': 0.25}
+  8%|▊         | 125/1500 [1:09:21<12:40:36, 33.19s/it]  8%|▊         | 126/1500 [1:09:56<12:47:25, 33.51s/it]                                                       {'loss': 0.182, 'grad_norm': 0.3635098338127136, 'learning_rate': 9.930771768590934e-06, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 860.54, 'total_tokens': 34645501, 'epoch': 0.25}
+  8%|▊         | 126/1500 [1:09:56<12:47:25, 33.51s/it]  8%|▊         | 127/1500 [1:10:29<12:46:29, 33.50s/it]                                                       {'loss': 0.1952, 'grad_norm': 0.3582726716995239, 'learning_rate': 9.928966253830492e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 907.4, 'total_tokens': 34940710, 'epoch': 0.25}
+  8%|▊         | 127/1500 [1:10:29<12:46:29, 33.50s/it]  9%|▊         | 128/1500 [1:11:02<12:42:12, 33.33s/it]                                                       {'loss': 0.2102, 'grad_norm': 0.37820273637771606, 'learning_rate': 9.927137665107253e-06, 'memory/max_active (GiB)': 51.88, 'memory/max_allocated (GiB)': 51.88, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 974.49, 'total_tokens': 35198790, 'epoch': 0.26}
+  9%|▊         | 128/1500 [1:11:02<12:42:12, 33.33s/it]  9%|▊         | 129/1500 [1:11:34<12:35:35, 33.07s/it]                                                       {'loss': 0.189, 'grad_norm': 0.3378911316394806, 'learning_rate': 9.925286010981394e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1038.28, 'total_tokens': 35472308, 'epoch': 0.26}
+  9%|▊         | 129/1500 [1:11:34<12:35:35, 33.07s/it]  9%|▊         | 130/1500 [1:12:07<12:33:53, 33.02s/it]                                                       {'loss': 0.1974, 'grad_norm': 0.37297484278678894, 'learning_rate': 9.923411300121055e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1074.95, 'total_tokens': 35754265, 'epoch': 0.26}
+  9%|▊         | 130/1500 [1:12:07<12:33:53, 33.02s/it]  9%|▊         | 131/1500 [1:12:40<12:31:13, 32.92s/it]                                                       {'loss': 0.1946, 'grad_norm': 0.36099860072135925, 'learning_rate': 9.92151354130232e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1008.43, 'total_tokens': 36036422, 'epoch': 0.26}
+  9%|▊         | 131/1500 [1:12:40<12:31:13, 32.92s/it]  9%|▉         | 132/1500 [1:13:13<12:27:55, 32.80s/it]                                                       {'loss': 0.182, 'grad_norm': 0.3385896682739258, 'learning_rate': 9.919592743409161e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1144.28, 'total_tokens': 36314972, 'epoch': 0.26}
+  9%|▉         | 132/1500 [1:13:13<12:27:55, 32.80s/it]  9%|▉         | 133/1500 [1:13:47<12:36:03, 33.18s/it]                                                       {'loss': 0.1971, 'grad_norm': 0.34826087951660156, 'learning_rate': 9.917648915433413e-06, 'memory/max_active (GiB)': 50.91, 'memory/max_allocated (GiB)': 50.91, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 812.38, 'total_tokens': 36601418, 'epoch': 0.27}
+  9%|▉         | 133/1500 [1:13:47<12:36:03, 33.18s/it]  9%|▉         | 134/1500 [1:14:19<12:33:09, 33.08s/it]                                                       {'loss': 0.1932, 'grad_norm': 0.35901400446891785, 'learning_rate': 9.91568206647471e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 943.93, 'total_tokens': 36875953, 'epoch': 0.27}
+  9%|▉         | 134/1500 [1:14:19<12:33:09, 33.08s/it]  9%|▉         | 135/1500 [1:14:52<12:29:38, 32.95s/it]                                                       {'loss': 0.1781, 'grad_norm': 0.30598706007003784, 'learning_rate': 9.913692205740462e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 848.73, 'total_tokens': 37155998, 'epoch': 0.27}
+  9%|▉         | 135/1500 [1:14:52<12:29:38, 32.95s/it]  9%|▉         | 136/1500 [1:15:25<12:29:20, 32.96s/it]                                                       {'loss': 0.1931, 'grad_norm': 0.3821071684360504, 'learning_rate': 9.911679342545799e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 995.95, 'total_tokens': 37430785, 'epoch': 0.27}
+  9%|▉         | 136/1500 [1:15:25<12:29:20, 32.96s/it]  9%|▉         | 137/1500 [1:15:57<12:23:44, 32.74s/it]                                                       {'loss': 0.1858, 'grad_norm': 0.35647693276405334, 'learning_rate': 9.909643486313533e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 887.99, 'total_tokens': 37680671, 'epoch': 0.27}
+  9%|▉         | 137/1500 [1:15:57<12:23:44, 32.74s/it]  9%|▉         | 138/1500 [1:16:29<12:17:08, 32.47s/it]                                                       {'loss': 0.1865, 'grad_norm': 0.3658321797847748, 'learning_rate': 9.907584646574123e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1114.99, 'total_tokens': 37938691, 'epoch': 0.28}
+  9%|▉         | 138/1500 [1:16:29<12:17:08, 32.47s/it]  9%|▉         | 139/1500 [1:17:04<12:29:16, 33.03s/it]                                                       {'loss': 0.1891, 'grad_norm': 0.34144365787506104, 'learning_rate': 9.905502832965603e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 789.79, 'total_tokens': 38219198, 'epoch': 0.28}
+  9%|▉         | 139/1500 [1:17:04<12:29:16, 33.03s/it]  9%|▉         | 140/1500 [1:17:37<12:30:34, 33.11s/it]                                                       {'loss': 0.1862, 'grad_norm': 0.351836621761322, 'learning_rate': 9.90339805523357e-06, 'memory/max_active (GiB)': 50.68, 'memory/max_allocated (GiB)': 50.68, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 755.75, 'total_tokens': 38473925, 'epoch': 0.28}
+  9%|▉         | 140/1500 [1:17:37<12:30:34, 33.11s/it]  9%|▉         | 141/1500 [1:18:09<12:21:59, 32.76s/it]                                                       {'loss': 0.1849, 'grad_norm': 0.33537936210632324, 'learning_rate': 9.901270323231114e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1213.57, 'total_tokens': 38750657, 'epoch': 0.28}
+  9%|▉         | 141/1500 [1:18:09<12:21:59, 32.76s/it]  9%|▉         | 142/1500 [1:18:40<12:14:07, 32.44s/it]                                                       {'loss': 0.1889, 'grad_norm': 0.5183609127998352, 'learning_rate': 9.899119646918786e-06, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1266.14, 'total_tokens': 39044904, 'epoch': 0.28}
+  9%|▉         | 142/1500 [1:18:40<12:14:07, 32.44s/it] 10%|▉         | 143/1500 [1:19:15<12:25:14, 32.95s/it]                                                       {'loss': 0.1929, 'grad_norm': 0.3755439221858978, 'learning_rate': 9.896946036364543e-06, 'memory/max_active (GiB)': 51.76, 'memory/max_allocated (GiB)': 51.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 688.18, 'total_tokens': 39302313, 'epoch': 0.29}
+ 10%|▉         | 143/1500 [1:19:15<12:25:14, 32.95s/it] 10%|▉         | 144/1500 [1:19:48<12:27:26, 33.07s/it]                                                       {'loss': 0.1838, 'grad_norm': 0.33360642194747925, 'learning_rate': 9.894749501743706e-06, 'memory/max_active (GiB)': 52.48, 'memory/max_allocated (GiB)': 52.48, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1072.45, 'total_tokens': 39576202, 'epoch': 0.29}
+ 10%|▉         | 144/1500 [1:19:48<12:27:26, 33.07s/it] 10%|▉         | 145/1500 [1:20:19<12:13:31, 32.48s/it]                                                       {'loss': 0.183, 'grad_norm': 0.34087619185447693, 'learning_rate': 9.892530053338909e-06, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1093.25, 'total_tokens': 39829832, 'epoch': 0.29}
+ 10%|▉         | 145/1500 [1:20:19<12:13:31, 32.48s/it] 10%|▉         | 146/1500 [1:20:51<12:12:22, 32.45s/it]                                                       {'loss': 0.1957, 'grad_norm': 0.36046063899993896, 'learning_rate': 9.890287701540051e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1202.23, 'total_tokens': 40104084, 'epoch': 0.29}
+ 10%|▉         | 146/1500 [1:20:51<12:12:22, 32.45s/it] 10%|▉         | 147/1500 [1:21:25<12:20:17, 32.83s/it]                                                       {'loss': 0.1973, 'grad_norm': 0.3272255063056946, 'learning_rate': 9.888022456844251e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1414.96, 'total_tokens': 40430086, 'epoch': 0.29}
+ 10%|▉         | 147/1500 [1:21:25<12:20:17, 32.83s/it] 10%|▉         | 148/1500 [1:21:57<12:16:14, 32.67s/it]                                                       {'loss': 0.1996, 'grad_norm': 0.35594162344932556, 'learning_rate': 9.885734329855798e-06, 'memory/max_active (GiB)': 51.98, 'memory/max_allocated (GiB)': 51.98, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 853.4, 'total_tokens': 40707527, 'epoch': 0.3}
+ 10%|▉         | 148/1500 [1:21:57<12:16:14, 32.67s/it] 10%|▉         | 149/1500 [1:22:30<12:14:48, 32.63s/it]                                                       {'loss': 0.1938, 'grad_norm': 0.35170626640319824, 'learning_rate': 9.883423331286096e-06, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 927.26, 'total_tokens': 40997952, 'epoch': 0.3}
+ 10%|▉         | 149/1500 [1:22:30<12:14:48, 32.63s/it] 10%|█         | 150/1500 [1:23:03<12:13:31, 32.60s/it]                                                       {'loss': 0.1904, 'grad_norm': 0.359497994184494, 'learning_rate': 9.88108947195362e-06, 'memory/max_active (GiB)': 50.98, 'memory/max_allocated (GiB)': 50.98, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 900.92, 'total_tokens': 41279499, 'epoch': 0.3}
+ 10%|█         | 150/1500 [1:23:03<12:13:31, 32.60s/it] 10%|█         | 151/1500 [1:23:35<12:14:33, 32.67s/it]                                                       {'loss': 0.1915, 'grad_norm': 0.36215782165527344, 'learning_rate': 9.87873276278386e-06, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1114.85, 'total_tokens': 41577198, 'epoch': 0.3}
+ 10%|█         | 151/1500 [1:23:35<12:14:33, 32.67s/it] 10%|█         | 152/1500 [1:24:06<11:57:51, 31.95s/it]                                                       {'loss': 0.1946, 'grad_norm': 0.41080012917518616, 'learning_rate': 9.876353214809277e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1122.89, 'total_tokens': 41831800, 'epoch': 0.3}
+ 10%|█         | 152/1500 [1:24:06<11:57:51, 31.95s/it] 10%|█         | 153/1500 [1:24:39<12:04:10, 32.26s/it]                                                       {'loss': 0.1788, 'grad_norm': 0.32590243220329285, 'learning_rate': 9.873950839169248e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1225.07, 'total_tokens': 42132453, 'epoch': 0.31}
+ 10%|█         | 153/1500 [1:24:39<12:04:10, 32.26s/it] 10%|█         | 154/1500 [1:25:10<11:58:23, 32.02s/it]                                                       {'loss': 0.192, 'grad_norm': 0.35642895102500916, 'learning_rate': 9.871525647110007e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 942.75, 'total_tokens': 42392364, 'epoch': 0.31}
+ 10%|█         | 154/1500 [1:25:10<11:58:23, 32.02s/it] 10%|█         | 155/1500 [1:25:43<12:02:24, 32.23s/it]                                                       {'loss': 0.1852, 'grad_norm': 0.3494870662689209, 'learning_rate': 9.869077649984604e-06, 'memory/max_active (GiB)': 51.88, 'memory/max_allocated (GiB)': 51.88, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 860.83, 'total_tokens': 42660900, 'epoch': 0.31}
+ 10%|█         | 155/1500 [1:25:43<12:02:24, 32.23s/it] 10%|█         | 156/1500 [1:26:16<12:07:15, 32.47s/it]                                                       {'loss': 0.1817, 'grad_norm': 0.3561486601829529, 'learning_rate': 9.866606859252845e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1172.65, 'total_tokens': 42953741, 'epoch': 0.31}
+ 10%|█         | 156/1500 [1:26:16<12:07:15, 32.47s/it] 10%|█         | 157/1500 [1:26:47<11:57:55, 32.07s/it]                                                       {'loss': 0.19, 'grad_norm': 0.3496246039867401, 'learning_rate': 9.864113286481237e-06, 'memory/max_active (GiB)': 51.88, 'memory/max_allocated (GiB)': 51.88, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1102.38, 'total_tokens': 43219003, 'epoch': 0.31}
+ 10%|█         | 157/1500 [1:26:47<11:57:55, 32.07s/it] 11%|█         | 158/1500 [1:27:21<12:12:35, 32.75s/it]                                                       {'loss': 0.1888, 'grad_norm': 0.3324120342731476, 'learning_rate': 9.861596943342941e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1050.28, 'total_tokens': 43501246, 'epoch': 0.32}
+ 11%|█         | 158/1500 [1:27:21<12:12:35, 32.75s/it] 11%|█         | 159/1500 [1:27:55<12:18:03, 33.02s/it]                                                       {'loss': 0.1783, 'grad_norm': 0.3343876302242279, 'learning_rate': 9.859057841617709e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1329.79, 'total_tokens': 43794113, 'epoch': 0.32}
+ 11%|█         | 159/1500 [1:27:55<12:18:03, 33.02s/it] 11%|█         | 160/1500 [1:28:27<12:10:30, 32.71s/it]                                                       {'loss': 0.191, 'grad_norm': 0.40880003571510315, 'learning_rate': 9.856495993191836e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 912.9, 'total_tokens': 44059050, 'epoch': 0.32}
+ 11%|█         | 160/1500 [1:28:27<12:10:30, 32.71s/it] 11%|█         | 161/1500 [1:28:59<12:05:40, 32.52s/it]                                                       {'loss': 0.1913, 'grad_norm': 0.359620064496994, 'learning_rate': 9.853911410058097e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1136.84, 'total_tokens': 44322620, 'epoch': 0.32}
+ 11%|█         | 161/1500 [1:28:59<12:05:40, 32.52s/it] 11%|█         | 162/1500 [1:29:32<12:09:38, 32.72s/it]                                                       {'loss': 0.1752, 'grad_norm': 0.364238440990448, 'learning_rate': 9.8513041043157e-06, 'memory/max_active (GiB)': 51.47, 'memory/max_allocated (GiB)': 51.47, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 915.31, 'total_tokens': 44591063, 'epoch': 0.32}
+ 11%|█         | 162/1500 [1:29:32<12:09:38, 32.72s/it] 11%|█         | 163/1500 [1:30:05<12:08:35, 32.70s/it]                                                       {'loss': 0.1884, 'grad_norm': 0.3721115291118622, 'learning_rate': 9.848674088170221e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 941.48, 'total_tokens': 44852189, 'epoch': 0.33}
+ 11%|█         | 163/1500 [1:30:05<12:08:35, 32.70s/it] 11%|█         | 164/1500 [1:30:38<12:14:18, 32.98s/it]                                                       {'loss': 0.2022, 'grad_norm': 0.3873739540576935, 'learning_rate': 9.846021373933548e-06, 'memory/max_active (GiB)': 51.3, 'memory/max_allocated (GiB)': 51.3, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 821.42, 'total_tokens': 45111974, 'epoch': 0.33}
+ 11%|█         | 164/1500 [1:30:38<12:14:18, 32.98s/it] 11%|█         | 165/1500 [1:31:10<12:03:26, 32.51s/it]                                                       {'loss': 0.1915, 'grad_norm': 0.38686755299568176, 'learning_rate': 9.843345974023833e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 890.42, 'total_tokens': 45355172, 'epoch': 0.33}
+ 11%|█         | 165/1500 [1:31:10<12:03:26, 32.51s/it] 11%|█         | 166/1500 [1:31:43<12:06:26, 32.67s/it]                                                       {'loss': 0.1971, 'grad_norm': 0.3816692531108856, 'learning_rate': 9.84064790096542e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 913.56, 'total_tokens': 45617068, 'epoch': 0.33}
+ 11%|█         | 166/1500 [1:31:43<12:06:26, 32.67s/it] 11%|█         | 167/1500 [1:32:16<12:09:09, 32.82s/it]                                                       {'loss': 0.1944, 'grad_norm': 0.393787682056427, 'learning_rate': 9.837927167388793e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 856.87, 'total_tokens': 45855002, 'epoch': 0.33}
+ 11%|█         | 167/1500 [1:32:16<12:09:09, 32.82s/it] 11%|█         | 168/1500 [1:32:49<12:08:55, 32.83s/it]                                                       {'loss': 0.1818, 'grad_norm': 0.3410463035106659, 'learning_rate': 9.835183786030517e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 763.72, 'total_tokens': 46129763, 'epoch': 0.34}
+ 11%|█         | 168/1500 [1:32:49<12:08:55, 32.83s/it] 11%|█▏        | 169/1500 [1:33:22<12:09:11, 32.87s/it]                                                       {'loss': 0.1843, 'grad_norm': 0.3333917558193207, 'learning_rate': 9.832417769733185e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 845.98, 'total_tokens': 46423828, 'epoch': 0.34}
+ 11%|█▏        | 169/1500 [1:33:22<12:09:11, 32.87s/it] 11%|█▏        | 170/1500 [1:33:55<12:06:59, 32.80s/it]                                                       {'loss': 0.1762, 'grad_norm': 0.3856661021709442, 'learning_rate': 9.829629131445342e-06, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 964.97, 'total_tokens': 46671445, 'epoch': 0.34}
+ 11%|█▏        | 170/1500 [1:33:55<12:06:59, 32.80s/it] 11%|█▏        | 171/1500 [1:34:27<12:03:41, 32.67s/it]                                                       {'loss': 0.1901, 'grad_norm': 0.35824838280677795, 'learning_rate': 9.826817884221436e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1247.37, 'total_tokens': 46935630, 'epoch': 0.34}
+ 11%|█▏        | 171/1500 [1:34:27<12:03:41, 32.67s/it] 11%|█▏        | 172/1500 [1:34:58<11:54:01, 32.26s/it]                                                       {'loss': 0.1817, 'grad_norm': 0.34735238552093506, 'learning_rate': 9.823984041221755e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1082.75, 'total_tokens': 47190045, 'epoch': 0.34}
+ 11%|█▏        | 172/1500 [1:34:58<11:54:01, 32.26s/it] 12%|█▏        | 173/1500 [1:35:32<12:00:21, 32.57s/it]                                                       {'loss': 0.1847, 'grad_norm': 0.3661215603351593, 'learning_rate': 9.821127615712365e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1158.61, 'total_tokens': 47452867, 'epoch': 0.35}
+ 12%|█▏        | 173/1500 [1:35:32<12:00:21, 32.57s/it] 12%|█▏        | 174/1500 [1:36:06<12:09:29, 33.01s/it]                                                       {'loss': 0.1982, 'grad_norm': 0.3433457911014557, 'learning_rate': 9.818248621065047e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 958.74, 'total_tokens': 47745734, 'epoch': 0.35}
+ 12%|█▏        | 174/1500 [1:36:06<12:09:29, 33.01s/it] 12%|█▏        | 175/1500 [1:36:40<12:16:00, 33.33s/it]                                                       {'loss': 0.1796, 'grad_norm': 0.3619483709335327, 'learning_rate': 9.815347070757234e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 928.41, 'total_tokens': 48038994, 'epoch': 0.35}
+ 12%|█▏        | 175/1500 [1:36:40<12:16:00, 33.33s/it] 12%|█▏        | 176/1500 [1:37:12<12:06:40, 32.93s/it]                                                       {'loss': 0.1764, 'grad_norm': 0.33809250593185425, 'learning_rate': 9.812422978371946e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 932.62, 'total_tokens': 48308461, 'epoch': 0.35}
+ 12%|█▏        | 176/1500 [1:37:12<12:06:40, 32.93s/it] 12%|█▏        | 177/1500 [1:37:43<11:53:54, 32.38s/it]                                                       {'loss': 0.1794, 'grad_norm': 0.3640384078025818, 'learning_rate': 9.809476357597738e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1266.34, 'total_tokens': 48563258, 'epoch': 0.35}
+ 12%|█▏        | 177/1500 [1:37:43<11:53:54, 32.38s/it] 12%|█▏        | 178/1500 [1:38:15<11:52:33, 32.34s/it]                                                       {'loss': 0.1924, 'grad_norm': 0.36449697613716125, 'learning_rate': 9.806507222228619e-06, 'memory/max_active (GiB)': 51.56, 'memory/max_allocated (GiB)': 51.56, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 884.32, 'total_tokens': 48836779, 'epoch': 0.36}
+ 12%|█▏        | 178/1500 [1:38:15<11:52:33, 32.34s/it] 12%|█▏        | 179/1500 [1:38:49<12:05:17, 32.94s/it]                                                       {'loss': 0.1796, 'grad_norm': 0.36588966846466064, 'learning_rate': 9.803515586163999e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 946.77, 'total_tokens': 49121760, 'epoch': 0.36}
+ 12%|█▏        | 179/1500 [1:38:49<12:05:17, 32.94s/it] 12%|█▏        | 180/1500 [1:39:23<12:08:40, 33.12s/it]                                                       {'loss': 0.1831, 'grad_norm': 0.3915174901485443, 'learning_rate': 9.800501463408618e-06, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 721.33, 'total_tokens': 49380458, 'epoch': 0.36}
+ 12%|█▏        | 180/1500 [1:39:23<12:08:40, 33.12s/it] 12%|█▏        | 181/1500 [1:39:55<12:03:45, 32.92s/it]                                                       {'loss': 0.1841, 'grad_norm': 0.38311007618904114, 'learning_rate': 9.797464868072489e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1219.33, 'total_tokens': 49623796, 'epoch': 0.36}
+ 12%|█▏        | 181/1500 [1:39:55<12:03:45, 32.92s/it] 12%|█▏        | 182/1500 [1:40:28<12:04:38, 32.99s/it]                                                       {'loss': 0.1779, 'grad_norm': 0.3727204203605652, 'learning_rate': 9.794405814370816e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1097.46, 'total_tokens': 49869281, 'epoch': 0.36}
+ 12%|█▏        | 182/1500 [1:40:28<12:04:38, 32.99s/it] 12%|█▏        | 183/1500 [1:41:01<12:04:25, 33.00s/it]                                                       {'loss': 0.1794, 'grad_norm': 0.3587625324726105, 'learning_rate': 9.791324316623944e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1198.02, 'total_tokens': 50142498, 'epoch': 0.37}
+ 12%|█▏        | 183/1500 [1:41:01<12:04:25, 33.00s/it] 12%|█▏        | 184/1500 [1:41:34<11:59:56, 32.82s/it]                                                       {'loss': 0.1757, 'grad_norm': 0.34971824288368225, 'learning_rate': 9.788220389257288e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1135.27, 'total_tokens': 50412527, 'epoch': 0.37}
+ 12%|█▏        | 184/1500 [1:41:34<11:59:56, 32.82s/it] 12%|█▏        | 185/1500 [1:42:08<12:04:41, 33.07s/it]                                                       {'loss': 0.1842, 'grad_norm': 0.38147103786468506, 'learning_rate': 9.785094046801256e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 843.98, 'total_tokens': 50669610, 'epoch': 0.37}
+ 12%|█▏        | 185/1500 [1:42:08<12:04:41, 33.07s/it] 12%|█▏        | 186/1500 [1:42:41<12:06:46, 33.19s/it]                                                       {'loss': 0.1799, 'grad_norm': 0.3253478705883026, 'learning_rate': 9.78194530389119e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1017.36, 'total_tokens': 50946904, 'epoch': 0.37}
+ 12%|█▏        | 186/1500 [1:42:41<12:06:46, 33.19s/it] 12%|█▏        | 187/1500 [1:43:14<12:08:10, 33.28s/it]                                                       {'loss': 0.186, 'grad_norm': 0.34908562898635864, 'learning_rate': 9.778774175267294e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1129.74, 'total_tokens': 51230145, 'epoch': 0.37}
+ 12%|█▏        | 187/1500 [1:43:14<12:08:10, 33.28s/it] 13%|█▎        | 188/1500 [1:43:48<12:09:01, 33.34s/it]                                                       {'loss': 0.1885, 'grad_norm': 0.34734871983528137, 'learning_rate': 9.775580675774575e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 969.65, 'total_tokens': 51482646, 'epoch': 0.38}
+ 13%|█▎        | 188/1500 [1:43:48<12:09:01, 33.34s/it] 13%|█▎        | 189/1500 [1:44:21<12:07:54, 33.31s/it]                                                       {'loss': 0.1858, 'grad_norm': 0.3431781232357025, 'learning_rate': 9.77236482036275e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1184.78, 'total_tokens': 51755748, 'epoch': 0.38}
+ 13%|█▎        | 189/1500 [1:44:21<12:07:54, 33.31s/it] 13%|█▎        | 190/1500 [1:44:55<12:12:44, 33.56s/it]                                                       {'loss': 0.1805, 'grad_norm': 0.3403971493244171, 'learning_rate': 9.769126624086202e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1015.91, 'total_tokens': 52026019, 'epoch': 0.38}
+ 13%|█▎        | 190/1500 [1:44:55<12:12:44, 33.56s/it] 13%|█▎        | 191/1500 [1:45:29<12:13:57, 33.64s/it]                                                       {'loss': 0.1786, 'grad_norm': 0.33491599559783936, 'learning_rate': 9.765866102103894e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1112.24, 'total_tokens': 52318517, 'epoch': 0.38}
+ 13%|█▎        | 191/1500 [1:45:29<12:13:57, 33.64s/it] 13%|█▎        | 192/1500 [1:46:01<12:02:08, 33.13s/it]                                                       {'loss': 0.1717, 'grad_norm': 0.36347874999046326, 'learning_rate': 9.762583269679304e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1300.69, 'total_tokens': 52564150, 'epoch': 0.38}
+ 13%|█▎        | 192/1500 [1:46:01<12:02:08, 33.13s/it] 13%|█▎        | 193/1500 [1:46:35<12:06:08, 33.33s/it]                                                       {'loss': 0.1811, 'grad_norm': 0.3490363359451294, 'learning_rate': 9.759278142180348e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1444.62, 'total_tokens': 52844297, 'epoch': 0.39}
+ 13%|█▎        | 193/1500 [1:46:35<12:06:08, 33.33s/it] 13%|█▎        | 194/1500 [1:47:07<11:55:28, 32.87s/it]                                                       {'loss': 0.1779, 'grad_norm': 0.3419061601161957, 'learning_rate': 9.75595073507932e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1397.0, 'total_tokens': 53142795, 'epoch': 0.39}
+ 13%|█▎        | 194/1500 [1:47:07<11:55:28, 32.87s/it] 13%|█▎        | 195/1500 [1:47:38<11:43:43, 32.36s/it]                                                       {'loss': 0.1737, 'grad_norm': 0.35369911789894104, 'learning_rate': 9.7526010639528e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1146.65, 'total_tokens': 53418762, 'epoch': 0.39}
+ 13%|█▎        | 195/1500 [1:47:38<11:43:43, 32.36s/it] 13%|█▎        | 196/1500 [1:48:11<11:47:15, 32.54s/it]                                                       {'loss': 0.1793, 'grad_norm': 0.37079453468322754, 'learning_rate': 9.749229144481602e-06, 'memory/max_active (GiB)': 51.76, 'memory/max_allocated (GiB)': 51.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 810.27, 'total_tokens': 53682441, 'epoch': 0.39}
+ 13%|█▎        | 196/1500 [1:48:11<11:47:15, 32.54s/it] 13%|█▎        | 197/1500 [1:48:45<11:55:12, 32.93s/it]                                                       {'loss': 0.1787, 'grad_norm': 0.3493296504020691, 'learning_rate': 9.745834992450688e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1403.52, 'total_tokens': 53968532, 'epoch': 0.39}
+ 13%|█▎        | 197/1500 [1:48:45<11:55:12, 32.93s/it] 13%|█▎        | 198/1500 [1:49:17<11:51:24, 32.78s/it]                                                       {'loss': 0.1881, 'grad_norm': 0.3417011797428131, 'learning_rate': 9.742418623749097e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 973.82, 'total_tokens': 54249554, 'epoch': 0.4}
+ 13%|█▎        | 198/1500 [1:49:17<11:51:24, 32.78s/it] 13%|█▎        | 199/1500 [1:49:52<12:01:50, 33.29s/it]                                                       {'loss': 0.1775, 'grad_norm': 0.3249233365058899, 'learning_rate': 9.73898005436987e-06, 'memory/max_active (GiB)': 51.3, 'memory/max_allocated (GiB)': 51.3, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 950.12, 'total_tokens': 54533457, 'epoch': 0.4}
+ 13%|█▎        | 199/1500 [1:49:52<12:01:50, 33.29s/it] 13%|█▎        | 200/1500 [1:50:25<12:01:48, 33.31s/it]                                                       {'loss': 0.1781, 'grad_norm': 0.3450825810432434, 'learning_rate': 9.735519300409978e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1080.61, 'total_tokens': 54809942, 'epoch': 0.4}
+ 13%|█▎        | 200/1500 [1:50:25<12:01:48, 33.31s/it] 13%|█▎        | 201/1500 [1:50:58<11:57:30, 33.14s/it]                                                       {'loss': 0.1851, 'grad_norm': 0.3539508879184723, 'learning_rate': 9.732036378070243e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1069.44, 'total_tokens': 55092697, 'epoch': 0.4}
+ 13%|█▎        | 201/1500 [1:50:58<11:57:30, 33.14s/it] 13%|█▎        | 202/1500 [1:51:30<11:52:35, 32.94s/it]                                                       {'loss': 0.1818, 'grad_norm': 0.31646063923835754, 'learning_rate': 9.728531303655264e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1315.62, 'total_tokens': 55378415, 'epoch': 0.4}
+ 13%|█▎        | 202/1500 [1:51:30<11:52:35, 32.94s/it] 14%|█▎        | 203/1500 [1:52:02<11:46:47, 32.70s/it]                                                       {'loss': 0.1791, 'grad_norm': 0.34568360447883606, 'learning_rate': 9.725004093573343e-06, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 752.64, 'total_tokens': 55639392, 'epoch': 0.41}
+ 14%|█▎        | 203/1500 [1:52:02<11:46:47, 32.70s/it] 14%|█▎        | 204/1500 [1:52:34<11:36:55, 32.26s/it]                                                       {'loss': 0.1908, 'grad_norm': 0.3522757589817047, 'learning_rate': 9.721454764336401e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1067.8, 'total_tokens': 55906804, 'epoch': 0.41}
+ 14%|█▎        | 204/1500 [1:52:34<11:36:55, 32.26s/it] 14%|█▎        | 205/1500 [1:53:06<11:37:45, 32.33s/it]                                                       {'loss': 0.1899, 'grad_norm': 0.32707715034484863, 'learning_rate': 9.717883332559911e-06, 'memory/max_active (GiB)': 50.68, 'memory/max_allocated (GiB)': 50.68, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 874.71, 'total_tokens': 56203701, 'epoch': 0.41}
+ 14%|█▎        | 205/1500 [1:53:06<11:37:45, 32.33s/it] 14%|█▎        | 206/1500 [1:53:38<11:32:58, 32.13s/it]                                                       {'loss': 0.1786, 'grad_norm': 0.3463777005672455, 'learning_rate': 9.714289814962807e-06, 'memory/max_active (GiB)': 51.24, 'memory/max_allocated (GiB)': 51.24, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 886.21, 'total_tokens': 56473925, 'epoch': 0.41}
+ 14%|█▎        | 206/1500 [1:53:38<11:32:58, 32.13s/it] 14%|█▍        | 207/1500 [1:54:11<11:40:29, 32.51s/it]                                                       {'loss': 0.1791, 'grad_norm': 0.3453424274921417, 'learning_rate': 9.710674228367422e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1099.62, 'total_tokens': 56758980, 'epoch': 0.41}
+ 14%|█▍        | 207/1500 [1:54:11<11:40:29, 32.51s/it] 14%|█▍        | 208/1500 [1:54:42<11:29:24, 32.02s/it]                                                       {'loss': 0.186, 'grad_norm': 0.35126274824142456, 'learning_rate': 9.707036589699397e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 994.05, 'total_tokens': 57020039, 'epoch': 0.42}
+ 14%|█▍        | 208/1500 [1:54:42<11:29:24, 32.02s/it] 14%|█▍        | 209/1500 [1:55:16<11:40:35, 32.56s/it]                                                       {'loss': 0.1776, 'grad_norm': 0.3375590443611145, 'learning_rate': 9.703376915987601e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1119.81, 'total_tokens': 57284612, 'epoch': 0.42}
+ 14%|█▍        | 209/1500 [1:55:16<11:40:35, 32.56s/it] 14%|█▍        | 210/1500 [1:55:49<11:42:10, 32.66s/it]                                                       {'loss': 0.1861, 'grad_norm': 0.3556366562843323, 'learning_rate': 9.69969522436406e-06, 'memory/max_active (GiB)': 52.48, 'memory/max_allocated (GiB)': 52.48, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 766.13, 'total_tokens': 57548539, 'epoch': 0.42}
+ 14%|█▍        | 210/1500 [1:55:49<11:42:10, 32.66s/it] 14%|█▍        | 211/1500 [1:56:22<11:44:59, 32.82s/it]                                                       {'loss': 0.177, 'grad_norm': 0.3352057635784149, 'learning_rate': 9.695991532063875e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 903.31, 'total_tokens': 57819205, 'epoch': 0.42}
+ 14%|█▍        | 211/1500 [1:56:22<11:44:59, 32.82s/it] 14%|█▍        | 212/1500 [1:56:55<11:48:43, 33.01s/it]                                                       {'loss': 0.172, 'grad_norm': 0.345196008682251, 'learning_rate': 9.692265856425134e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 984.39, 'total_tokens': 58095015, 'epoch': 0.42}
+ 14%|█▍        | 212/1500 [1:56:55<11:48:43, 33.01s/it] 14%|█▍        | 213/1500 [1:57:28<11:46:16, 32.93s/it]                                                       {'loss': 0.1731, 'grad_norm': 0.3308181166648865, 'learning_rate': 9.688518214888836e-06, 'memory/max_active (GiB)': 50.87, 'memory/max_allocated (GiB)': 50.87, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 794.14, 'total_tokens': 58372267, 'epoch': 0.43}
+ 14%|█▍        | 213/1500 [1:57:28<11:46:16, 32.93s/it] 14%|█▍        | 214/1500 [1:58:00<11:41:04, 32.71s/it]                                                       {'loss': 0.1914, 'grad_norm': 0.3575202226638794, 'learning_rate': 9.68474862499881e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 942.37, 'total_tokens': 58647979, 'epoch': 0.43}
+ 14%|█▍        | 214/1500 [1:58:00<11:41:04, 32.71s/it] 14%|█▍        | 215/1500 [1:58:34<11:45:56, 32.96s/it]                                                       {'loss': 0.1795, 'grad_norm': 0.33335041999816895, 'learning_rate': 9.680957104401632e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1284.64, 'total_tokens': 58928401, 'epoch': 0.43}
+ 14%|█▍        | 215/1500 [1:58:34<11:45:56, 32.96s/it] 14%|█▍        | 216/1500 [1:59:07<11:49:01, 33.13s/it]                                                       {'loss': 0.1756, 'grad_norm': 0.33480241894721985, 'learning_rate': 9.677143670846545e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1190.21, 'total_tokens': 59232663, 'epoch': 0.43}
+ 14%|█▍        | 216/1500 [1:59:07<11:49:01, 33.13s/it] 14%|█▍        | 217/1500 [1:59:39<11:41:37, 32.81s/it]                                                       {'loss': 0.1716, 'grad_norm': 0.34838417172431946, 'learning_rate': 9.673308342185366e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1077.32, 'total_tokens': 59488618, 'epoch': 0.43}
+ 14%|█▍        | 217/1500 [1:59:39<11:41:37, 32.81s/it] 15%|█▍        | 218/1500 [2:00:12<11:39:03, 32.72s/it]                                                       {'loss': 0.1654, 'grad_norm': 0.35503578186035156, 'learning_rate': 9.669451136372417e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1155.46, 'total_tokens': 59766077, 'epoch': 0.44}
+ 15%|█▍        | 218/1500 [2:00:12<11:39:03, 32.72s/it] 15%|█▍        | 219/1500 [2:00:46<11:44:14, 32.99s/it]                                                       {'loss': 0.1782, 'grad_norm': 0.49371472001075745, 'learning_rate': 9.665572071464427e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1318.09, 'total_tokens': 60062158, 'epoch': 0.44}
+ 15%|█▍        | 219/1500 [2:00:46<11:44:14, 32.99s/it] 15%|█▍        | 220/1500 [2:01:19<11:43:49, 32.99s/it]                                                       {'loss': 0.1835, 'grad_norm': 0.35351476073265076, 'learning_rate': 9.66167116562046e-06, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1022.12, 'total_tokens': 60329543, 'epoch': 0.44}
+ 15%|█▍        | 220/1500 [2:01:19<11:43:49, 32.99s/it] 15%|█▍        | 221/1500 [2:01:52<11:43:09, 32.99s/it]                                                       {'loss': 0.1694, 'grad_norm': 0.34936001896858215, 'learning_rate': 9.657748437101819e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1197.67, 'total_tokens': 60614756, 'epoch': 0.44}
+ 15%|█▍        | 221/1500 [2:01:52<11:43:09, 32.99s/it] 15%|█▍        | 222/1500 [2:02:26<11:49:41, 33.32s/it]                                                       {'loss': 0.1866, 'grad_norm': 0.3723650276660919, 'learning_rate': 9.65380390427197e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1313.21, 'total_tokens': 60903580, 'epoch': 0.44}
+ 15%|█▍        | 222/1500 [2:02:26<11:49:41, 33.32s/it] 15%|█▍        | 223/1500 [2:02:59<11:47:26, 33.24s/it]                                                       {'loss': 0.1759, 'grad_norm': 0.42321324348449707, 'learning_rate': 9.649837585596445e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1062.97, 'total_tokens': 61171254, 'epoch': 0.45}
+ 15%|█▍        | 223/1500 [2:02:59<11:47:26, 33.24s/it] 15%|█▍        | 224/1500 [2:03:30<11:37:32, 32.80s/it]                                                       {'loss': 0.1718, 'grad_norm': 0.37105420231819153, 'learning_rate': 9.64584949964277e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 924.84, 'total_tokens': 61424655, 'epoch': 0.45}
+ 15%|█▍        | 224/1500 [2:03:30<11:37:32, 32.80s/it] 15%|█▌        | 225/1500 [2:04:04<11:39:56, 32.94s/it]                                                       {'loss': 0.1688, 'grad_norm': 0.33239686489105225, 'learning_rate': 9.641839665080363e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1230.62, 'total_tokens': 61719278, 'epoch': 0.45}
+ 15%|█▌        | 225/1500 [2:04:04<11:39:56, 32.94s/it] 15%|█▌        | 226/1500 [2:04:37<11:43:30, 33.13s/it]                                                       {'loss': 0.1647, 'grad_norm': 0.3656524121761322, 'learning_rate': 9.63780810068046e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1063.42, 'total_tokens': 61988251, 'epoch': 0.45}
+ 15%|█▌        | 226/1500 [2:04:37<11:43:30, 33.13s/it] 15%|█▌        | 227/1500 [2:05:10<11:43:12, 33.14s/it]                                                       {'loss': 0.168, 'grad_norm': 0.3605080842971802, 'learning_rate': 9.633754825316015e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 925.49, 'total_tokens': 62247740, 'epoch': 0.45}
+ 15%|█▌        | 227/1500 [2:05:10<11:43:12, 33.14s/it] 15%|█▌        | 228/1500 [2:05:43<11:40:03, 33.02s/it]                                                       {'loss': 0.1747, 'grad_norm': 0.3526817262172699, 'learning_rate': 9.629679857961622e-06, 'memory/max_active (GiB)': 51.3, 'memory/max_allocated (GiB)': 51.3, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 955.83, 'total_tokens': 62537882, 'epoch': 0.46}
+ 15%|█▌        | 228/1500 [2:05:43<11:40:03, 33.02s/it] 15%|█▌        | 229/1500 [2:06:17<11:43:44, 33.22s/it]                                                       {'loss': 0.1868, 'grad_norm': 0.3473546504974365, 'learning_rate': 9.625583217693419e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1102.45, 'total_tokens': 62814943, 'epoch': 0.46}
+ 15%|█▌        | 229/1500 [2:06:17<11:43:44, 33.22s/it] 15%|█▌        | 230/1500 [2:06:50<11:42:50, 33.21s/it]                                                       {'loss': 0.1757, 'grad_norm': 0.3347557485103607, 'learning_rate': 9.621464923689003e-06, 'memory/max_active (GiB)': 51.37, 'memory/max_allocated (GiB)': 51.37, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 974.6, 'total_tokens': 63094171, 'epoch': 0.46}
+ 15%|█▌        | 230/1500 [2:06:50<11:42:50, 33.21s/it] 15%|█▌        | 231/1500 [2:07:23<11:43:31, 33.26s/it]                                                       {'loss': 0.1734, 'grad_norm': 0.3301526606082916, 'learning_rate': 9.617324995227339e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1195.35, 'total_tokens': 63374994, 'epoch': 0.46}
+ 15%|█▌        | 231/1500 [2:07:23<11:43:31, 33.26s/it] 15%|█▌        | 232/1500 [2:07:55<11:34:27, 32.86s/it]                                                       {'loss': 0.1888, 'grad_norm': 0.34546270966529846, 'learning_rate': 9.613163451688666e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1130.09, 'total_tokens': 63652290, 'epoch': 0.46}
+ 15%|█▌        | 232/1500 [2:07:55<11:34:27, 32.86s/it] 16%|█▌        | 233/1500 [2:08:28<11:30:48, 32.71s/it]                                                       {'loss': 0.1813, 'grad_norm': 0.34257906675338745, 'learning_rate': 9.60898031255441e-06, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1144.57, 'total_tokens': 63944152, 'epoch': 0.47}
+ 16%|█▌        | 233/1500 [2:08:28<11:30:48, 32.71s/it] 16%|█▌        | 234/1500 [2:09:00<11:30:04, 32.71s/it]                                                       {'loss': 0.1755, 'grad_norm': 0.3475055396556854, 'learning_rate': 9.604775597407101e-06, 'memory/max_active (GiB)': 51.01, 'memory/max_allocated (GiB)': 51.01, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 663.94, 'total_tokens': 64205851, 'epoch': 0.47}
+ 16%|█▌        | 234/1500 [2:09:00<11:30:04, 32.71s/it] 16%|█▌        | 235/1500 [2:09:34<11:33:41, 32.90s/it]                                                       {'loss': 0.1736, 'grad_norm': 0.36382025480270386, 'learning_rate': 9.60054932593026e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1205.8, 'total_tokens': 64481789, 'epoch': 0.47}
+ 16%|█▌        | 235/1500 [2:09:34<11:33:41, 32.90s/it] 16%|█▌        | 236/1500 [2:10:08<11:44:11, 33.43s/it]                                                       {'loss': 0.1728, 'grad_norm': 0.33789852261543274, 'learning_rate': 9.596301517908329e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1043.77, 'total_tokens': 64759069, 'epoch': 0.47}
+ 16%|█▌        | 236/1500 [2:10:08<11:44:11, 33.43s/it] 16%|█▌        | 237/1500 [2:10:40<11:30:26, 32.80s/it]                                                       {'loss': 0.1765, 'grad_norm': 0.3435586094856262, 'learning_rate': 9.592032193226564e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1035.91, 'total_tokens': 65036910, 'epoch': 0.47}
+ 16%|█▌        | 237/1500 [2:10:40<11:30:26, 32.80s/it] 16%|█▌        | 238/1500 [2:11:14<11:37:01, 33.14s/it]                                                       {'loss': 0.1785, 'grad_norm': 0.32546207308769226, 'learning_rate': 9.58774137187095e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1109.47, 'total_tokens': 65342199, 'epoch': 0.48}
+ 16%|█▌        | 238/1500 [2:11:14<11:37:01, 33.14s/it] 16%|█▌        | 239/1500 [2:11:47<11:38:48, 33.25s/it]                                                       {'loss': 0.1749, 'grad_norm': 0.3336465358734131, 'learning_rate': 9.583429073928102e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1315.68, 'total_tokens': 65627202, 'epoch': 0.48}
+ 16%|█▌        | 239/1500 [2:11:47<11:38:48, 33.25s/it] 16%|█▌        | 240/1500 [2:12:19<11:30:32, 32.88s/it]                                                       {'loss': 0.1797, 'grad_norm': 0.3614540994167328, 'learning_rate': 9.579095319585174e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 956.0, 'total_tokens': 65887832, 'epoch': 0.48}
+ 16%|█▌        | 240/1500 [2:12:19<11:30:32, 32.88s/it] 16%|█▌        | 241/1500 [2:12:50<11:17:39, 32.30s/it]                                                       {'loss': 0.1829, 'grad_norm': 0.3643089830875397, 'learning_rate': 9.574740129129767e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1294.78, 'total_tokens': 66148406, 'epoch': 0.48}
+ 16%|█▌        | 241/1500 [2:12:50<11:17:39, 32.30s/it] 16%|█▌        | 242/1500 [2:13:23<11:20:34, 32.46s/it]                                                       {'loss': 0.168, 'grad_norm': 0.3467777371406555, 'learning_rate': 9.570363522949823e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1065.73, 'total_tokens': 66434254, 'epoch': 0.48}
+ 16%|█▌        | 242/1500 [2:13:23<11:20:34, 32.46s/it] 16%|█▌        | 243/1500 [2:13:57<11:29:22, 32.91s/it]                                                       {'loss': 0.181, 'grad_norm': 0.3623538017272949, 'learning_rate': 9.565965521533546e-06, 'memory/max_active (GiB)': 51.88, 'memory/max_allocated (GiB)': 51.88, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 930.66, 'total_tokens': 66709244, 'epoch': 0.49}
+ 16%|█▌        | 243/1500 [2:13:57<11:29:22, 32.91s/it] 16%|█▋        | 244/1500 [2:14:29<11:25:17, 32.74s/it]                                                       {'loss': 0.168, 'grad_norm': 0.351593554019928, 'learning_rate': 9.561546145469293e-06, 'memory/max_active (GiB)': 50.34, 'memory/max_allocated (GiB)': 50.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 831.07, 'total_tokens': 66972380, 'epoch': 0.49}
+ 16%|█▋        | 244/1500 [2:14:29<11:25:17, 32.74s/it] 16%|█▋        | 245/1500 [2:15:02<11:24:27, 32.72s/it]                                                       {'loss': 0.1684, 'grad_norm': 0.3394651710987091, 'learning_rate': 9.557105415445485e-06, 'memory/max_active (GiB)': 51.69, 'memory/max_allocated (GiB)': 51.69, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1017.89, 'total_tokens': 67232304, 'epoch': 0.49}
+ 16%|█▋        | 245/1500 [2:15:02<11:24:27, 32.72s/it] 16%|█▋        | 246/1500 [2:15:33<11:11:37, 32.14s/it]                                                       {'loss': 0.18, 'grad_norm': 0.36511343717575073, 'learning_rate': 9.552643352250501e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1306.53, 'total_tokens': 67503751, 'epoch': 0.49}
+ 16%|█▋        | 246/1500 [2:15:33<11:11:37, 32.14s/it] 16%|█▋        | 247/1500 [2:16:06<11:17:07, 32.42s/it]                                                       {'loss': 0.1696, 'grad_norm': 0.36293041706085205, 'learning_rate': 9.548159976772593e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 921.07, 'total_tokens': 67753447, 'epoch': 0.49}
+ 16%|█▋        | 247/1500 [2:16:06<11:17:07, 32.42s/it] 17%|█▋        | 248/1500 [2:16:41<11:31:28, 33.14s/it]                                                       {'loss': 0.1739, 'grad_norm': 0.3304527699947357, 'learning_rate': 9.54365530999978e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1145.0, 'total_tokens': 68038981, 'epoch': 0.5}
+ 17%|█▋        | 248/1500 [2:16:41<11:31:28, 33.14s/it] 17%|█▋        | 249/1500 [2:17:14<11:34:24, 33.30s/it]                                                       {'loss': 0.1681, 'grad_norm': 0.33517542481422424, 'learning_rate': 9.539129373019755e-06, 'memory/max_active (GiB)': 52.21, 'memory/max_allocated (GiB)': 52.21, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1044.5, 'total_tokens': 68313688, 'epoch': 0.5}
+ 17%|█▋        | 249/1500 [2:17:14<11:34:24, 33.30s/it] 17%|█▋        | 250/1500 [2:17:48<11:38:09, 33.51s/it]                                                       {'loss': 0.1784, 'grad_norm': 0.3554995357990265, 'learning_rate': 9.534582187019777e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1081.51, 'total_tokens': 68629745, 'epoch': 0.5}
+ 17%|█▋        | 250/1500 [2:17:48<11:38:09, 33.51s/it] 17%|█▋        | 251/1500 [2:18:23<11:42:01, 33.72s/it]                                                       {'loss': 0.1672, 'grad_norm': 0.3417830169200897, 'learning_rate': 9.530013773286582e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 839.26, 'total_tokens': 68883712, 'epoch': 0.5}
+ 17%|█▋        | 251/1500 [2:18:23<11:42:01, 33.72s/it] 17%|█▋        | 252/1500 [2:18:55<11:34:58, 33.41s/it]                                                       {'loss': 0.1795, 'grad_norm': 0.37732556462287903, 'learning_rate': 9.525424153206279e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 875.66, 'total_tokens': 69149227, 'epoch': 0.5}
+ 17%|█▋        | 252/1500 [2:18:55<11:34:58, 33.41s/it] 17%|█▋        | 253/1500 [2:19:29<11:37:45, 33.57s/it]                                                       {'loss': 0.1766, 'grad_norm': 0.3397575914859772, 'learning_rate': 9.520813348264252e-06, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1726.45, 'total_tokens': 69457443, 'epoch': 0.51}
+ 17%|█▋        | 253/1500 [2:19:29<11:37:45, 33.57s/it] 17%|█▋        | 254/1500 [2:20:04<11:44:21, 33.92s/it]                                                       {'loss': 0.166, 'grad_norm': 0.36228659749031067, 'learning_rate': 9.516181380045052e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1056.17, 'total_tokens': 69726207, 'epoch': 0.51}
+ 17%|█▋        | 254/1500 [2:20:04<11:44:21, 33.92s/it] 17%|█▋        | 255/1500 [2:20:37<11:37:51, 33.63s/it]                                                       {'loss': 0.173, 'grad_norm': 0.34243831038475037, 'learning_rate': 9.511528270232311e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 897.78, 'total_tokens': 69998237, 'epoch': 0.51}
+ 17%|█▋        | 255/1500 [2:20:37<11:37:51, 33.63s/it] 17%|█▋        | 256/1500 [2:21:10<11:32:16, 33.39s/it]                                                       {'loss': 0.1781, 'grad_norm': 0.3415588438510895, 'learning_rate': 9.506854040608619e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1232.9, 'total_tokens': 70282663, 'epoch': 0.51}
+ 17%|█▋        | 256/1500 [2:21:10<11:32:16, 33.39s/it] 17%|█▋        | 257/1500 [2:21:44<11:35:47, 33.59s/it]                                                       {'loss': 0.183, 'grad_norm': 0.3740154504776001, 'learning_rate': 9.502158713055444e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 891.3, 'total_tokens': 70553564, 'epoch': 0.51}
+ 17%|█▋        | 257/1500 [2:21:44<11:35:47, 33.59s/it] 17%|█▋        | 258/1500 [2:22:15<11:22:17, 32.96s/it]                                                       {'loss': 0.1871, 'grad_norm': 0.3455512225627899, 'learning_rate': 9.497442309553017e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1058.48, 'total_tokens': 70825039, 'epoch': 0.52}
+ 17%|█▋        | 258/1500 [2:22:15<11:22:17, 32.96s/it] 17%|█▋        | 259/1500 [2:22:50<11:31:30, 33.43s/it]                                                       {'loss': 0.1693, 'grad_norm': 0.3680133819580078, 'learning_rate': 9.492704852180228e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1044.12, 'total_tokens': 71104530, 'epoch': 0.52}
+ 17%|█▋        | 259/1500 [2:22:50<11:31:30, 33.43s/it] 17%|█▋        | 260/1500 [2:23:24<11:33:41, 33.57s/it]                                                       {'loss': 0.1651, 'grad_norm': 0.3347785472869873, 'learning_rate': 9.487946363114532e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1122.88, 'total_tokens': 71382210, 'epoch': 0.52}
+ 17%|█▋        | 260/1500 [2:23:24<11:33:41, 33.57s/it] 17%|█▋        | 261/1500 [2:23:58<11:35:00, 33.66s/it]                                                       {'loss': 0.1772, 'grad_norm': 0.3796744644641876, 'learning_rate': 9.483166864631837e-06, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1111.99, 'total_tokens': 71628592, 'epoch': 0.52}
+ 17%|█▋        | 261/1500 [2:23:58<11:35:00, 33.66s/it] 17%|█▋        | 262/1500 [2:24:32<11:38:40, 33.86s/it]                                                       {'loss': 0.175, 'grad_norm': 0.3721199929714203, 'learning_rate': 9.478366379106402e-06, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 890.49, 'total_tokens': 71917012, 'epoch': 0.52}
+ 17%|█▋        | 262/1500 [2:24:32<11:38:40, 33.86s/it] 18%|█▊        | 263/1500 [2:25:06<11:38:18, 33.87s/it]                                                       {'loss': 0.1825, 'grad_norm': 0.36643141508102417, 'learning_rate': 9.473544929010733e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 941.59, 'total_tokens': 72204687, 'epoch': 0.53}
+ 18%|█▊        | 263/1500 [2:25:06<11:38:18, 33.87s/it] 18%|█▊        | 264/1500 [2:25:38<11:30:17, 33.51s/it]                                                       {'loss': 0.1829, 'grad_norm': 0.41982001066207886, 'learning_rate': 9.468702536915478e-06, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1032.47, 'total_tokens': 72474432, 'epoch': 0.53}
+ 18%|█▊        | 264/1500 [2:25:38<11:30:17, 33.51s/it] 18%|█▊        | 265/1500 [2:26:12<11:27:41, 33.41s/it]                                                       {'loss': 0.1814, 'grad_norm': 0.3864208161830902, 'learning_rate': 9.46383922548932e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 924.02, 'total_tokens': 72739580, 'epoch': 0.53}
+ 18%|█▊        | 265/1500 [2:26:12<11:27:41, 33.41s/it] 18%|█▊        | 266/1500 [2:26:44<11:23:37, 33.24s/it]                                                       {'loss': 0.1675, 'grad_norm': 0.37437301874160767, 'learning_rate': 9.458955017498871e-06, 'memory/max_active (GiB)': 50.68, 'memory/max_allocated (GiB)': 50.68, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 736.86, 'total_tokens': 72996494, 'epoch': 0.53}
+ 18%|█▊        | 266/1500 [2:26:44<11:23:37, 33.24s/it] 18%|█▊        | 267/1500 [2:27:17<11:20:13, 33.10s/it]                                                       {'loss': 0.1704, 'grad_norm': 0.3767251670360565, 'learning_rate': 9.454049935808568e-06, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 789.02, 'total_tokens': 73243486, 'epoch': 0.53}
+ 18%|█▊        | 267/1500 [2:27:17<11:20:13, 33.10s/it] 18%|█▊        | 268/1500 [2:27:49<11:09:19, 32.60s/it]                                                       {'loss': 0.1821, 'grad_norm': 0.3562183678150177, 'learning_rate': 9.449124003380564e-06, 'memory/max_active (GiB)': 51.01, 'memory/max_allocated (GiB)': 51.01, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1143.7, 'total_tokens': 73529553, 'epoch': 0.54}
+ 18%|█▊        | 268/1500 [2:27:49<11:09:19, 32.60s/it] 18%|█▊        | 269/1500 [2:28:20<11:00:44, 32.21s/it]                                                       {'loss': 0.1746, 'grad_norm': 0.3755464255809784, 'learning_rate': 9.444177243274619e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1218.59, 'total_tokens': 73798324, 'epoch': 0.54}
+ 18%|█▊        | 269/1500 [2:28:20<11:00:44, 32.21s/it] 18%|█▊        | 270/1500 [2:28:53<11:02:29, 32.32s/it]                                                       {'loss': 0.1757, 'grad_norm': 0.33737173676490784, 'learning_rate': 9.439209678647992e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1288.77, 'total_tokens': 74078385, 'epoch': 0.54}
+ 18%|█▊        | 270/1500 [2:28:53<11:02:29, 32.32s/it] 18%|█▊        | 271/1500 [2:29:25<11:03:39, 32.40s/it]                                                       {'loss': 0.1627, 'grad_norm': 0.3342125713825226, 'learning_rate': 9.43422133275534e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1056.07, 'total_tokens': 74370533, 'epoch': 0.54}
+ 18%|█▊        | 271/1500 [2:29:25<11:03:39, 32.40s/it] 18%|█▊        | 272/1500 [2:29:58<11:08:33, 32.67s/it]                                                       {'loss': 0.1718, 'grad_norm': 0.5886985063552856, 'learning_rate': 9.429212228948595e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1181.21, 'total_tokens': 74640885, 'epoch': 0.54}
+ 18%|█▊        | 272/1500 [2:29:58<11:08:33, 32.67s/it] 18%|█▊        | 273/1500 [2:30:31<11:06:04, 32.57s/it]                                                       {'loss': 0.178, 'grad_norm': 0.3489556908607483, 'learning_rate': 9.424182390676872e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1084.51, 'total_tokens': 74911498, 'epoch': 0.55}
+ 18%|█▊        | 273/1500 [2:30:31<11:06:04, 32.57s/it] 18%|█▊        | 274/1500 [2:31:04<11:07:47, 32.68s/it]                                                       {'loss': 0.1816, 'grad_norm': 0.3331131935119629, 'learning_rate': 9.419131841486344e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1173.39, 'total_tokens': 75194489, 'epoch': 0.55}
+ 18%|█▊        | 274/1500 [2:31:04<11:07:47, 32.68s/it] 18%|█▊        | 275/1500 [2:31:37<11:13:40, 33.00s/it]                                                       {'loss': 0.1788, 'grad_norm': 0.35101965069770813, 'learning_rate': 9.41406060502014e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 999.32, 'total_tokens': 75473756, 'epoch': 0.55}
+ 18%|█▊        | 275/1500 [2:31:37<11:13:40, 33.00s/it] 18%|█▊        | 276/1500 [2:32:11<11:16:24, 33.16s/it]                                                       {'loss': 0.1797, 'grad_norm': 0.3313785493373871, 'learning_rate': 9.408968705018231e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1024.64, 'total_tokens': 75780060, 'epoch': 0.55}
+ 18%|█▊        | 276/1500 [2:32:11<11:16:24, 33.16s/it] 18%|█▊        | 277/1500 [2:32:44<11:17:28, 33.24s/it]                                                       {'loss': 0.1696, 'grad_norm': 0.33133959770202637, 'learning_rate': 9.403856165317322e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 794.93, 'total_tokens': 76050058, 'epoch': 0.55}
+ 18%|█▊        | 277/1500 [2:32:44<11:17:28, 33.24s/it] 19%|█▊        | 278/1500 [2:33:17<11:14:44, 33.13s/it]                                                       {'loss': 0.1759, 'grad_norm': 0.3547557592391968, 'learning_rate': 9.398723009850739e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1280.01, 'total_tokens': 76316382, 'epoch': 0.56}
+ 19%|█▊        | 278/1500 [2:33:17<11:14:44, 33.13s/it] 19%|█▊        | 279/1500 [2:33:48<10:58:55, 32.38s/it]                                                       {'loss': 0.1683, 'grad_norm': 0.4511749744415283, 'learning_rate': 9.393569262648315e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 859.72, 'total_tokens': 76579453, 'epoch': 0.56}
+ 19%|█▊        | 279/1500 [2:33:48<10:58:55, 32.38s/it] 19%|█▊        | 280/1500 [2:34:19<10:53:04, 32.12s/it]                                                       {'loss': 0.1747, 'grad_norm': 0.35288289189338684, 'learning_rate': 9.388394947836278e-06, 'memory/max_active (GiB)': 51.98, 'memory/max_allocated (GiB)': 51.98, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 890.57, 'total_tokens': 76837603, 'epoch': 0.56}
+ 19%|█▊        | 280/1500 [2:34:19<10:53:04, 32.12s/it] 19%|█▊        | 281/1500 [2:34:52<10:53:25, 32.16s/it]                                                       {'loss': 0.1654, 'grad_norm': 0.329351544380188, 'learning_rate': 9.383200089637143e-06, 'memory/max_active (GiB)': 51.47, 'memory/max_allocated (GiB)': 51.47, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 893.75, 'total_tokens': 77119815, 'epoch': 0.56}
+ 19%|█▊        | 281/1500 [2:34:52<10:53:25, 32.16s/it] 19%|█▉        | 282/1500 [2:35:24<10:54:05, 32.22s/it]                                                       {'loss': 0.182, 'grad_norm': 0.3484891951084137, 'learning_rate': 9.377984712369593e-06, 'memory/max_active (GiB)': 52.56, 'memory/max_allocated (GiB)': 52.56, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1092.3, 'total_tokens': 77393688, 'epoch': 0.56}
+ 19%|█▉        | 282/1500 [2:35:24<10:54:05, 32.22s/it] 19%|█▉        | 283/1500 [2:35:56<10:52:11, 32.15s/it]                                                       {'loss': 0.1842, 'grad_norm': 0.39488568902015686, 'learning_rate': 9.372748840448361e-06, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 888.1, 'total_tokens': 77650021, 'epoch': 0.57}
+ 19%|█▉        | 283/1500 [2:35:56<10:52:11, 32.15s/it] 19%|█▉        | 284/1500 [2:36:29<10:56:43, 32.40s/it]                                                       {'loss': 0.1715, 'grad_norm': 0.3643166422843933, 'learning_rate': 9.367492498384131e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1078.66, 'total_tokens': 77919908, 'epoch': 0.57}
+ 19%|█▉        | 284/1500 [2:36:29<10:56:43, 32.40s/it] 19%|█▉        | 285/1500 [2:37:02<11:00:49, 32.63s/it]                                                       {'loss': 0.1656, 'grad_norm': 0.3330426812171936, 'learning_rate': 9.362215710783411e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1075.97, 'total_tokens': 78195102, 'epoch': 0.57}
+ 19%|█▉        | 285/1500 [2:37:02<11:00:49, 32.63s/it] 19%|█▉        | 286/1500 [2:37:35<11:02:00, 32.72s/it]                                                       {'loss': 0.1715, 'grad_norm': 0.40007463097572327, 'learning_rate': 9.356918502348418e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 744.03, 'total_tokens': 78431983, 'epoch': 0.57}
+ 19%|█▉        | 286/1500 [2:37:35<11:02:00, 32.72s/it] 19%|█▉        | 287/1500 [2:38:09<11:09:01, 33.09s/it]                                                       {'loss': 0.1696, 'grad_norm': 0.3719547390937805, 'learning_rate': 9.351600897876964e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1094.43, 'total_tokens': 78698733, 'epoch': 0.57}
+ 19%|█▉        | 287/1500 [2:38:09<11:09:01, 33.09s/it] 19%|█▉        | 288/1500 [2:38:42<11:10:02, 33.17s/it]                                                       {'loss': 0.1611, 'grad_norm': 0.3416631817817688, 'learning_rate': 9.346262922262346e-06, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1068.78, 'total_tokens': 78966583, 'epoch': 0.58}
+ 19%|█▉        | 288/1500 [2:38:42<11:10:02, 33.17s/it] 19%|█▉        | 289/1500 [2:39:16<11:14:50, 33.44s/it]                                                       {'loss': 0.1653, 'grad_norm': 0.36408907175064087, 'learning_rate': 9.34090460049322e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1035.1, 'total_tokens': 79249468, 'epoch': 0.58}
+ 19%|█▉        | 289/1500 [2:39:16<11:14:50, 33.44s/it] 19%|█▉        | 290/1500 [2:39:49<11:10:18, 33.24s/it]                                                       {'loss': 0.17, 'grad_norm': 0.37523970007896423, 'learning_rate': 9.335525957653493e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1056.19, 'total_tokens': 79502949, 'epoch': 0.58}
+ 19%|█▉        | 290/1500 [2:39:49<11:10:18, 33.24s/it] 19%|█▉        | 291/1500 [2:40:23<11:10:40, 33.28s/it]                                                       {'loss': 0.1666, 'grad_norm': 0.34420883655548096, 'learning_rate': 9.330127018922195e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1252.56, 'total_tokens': 79783144, 'epoch': 0.58}
+ 19%|█▉        | 291/1500 [2:40:23<11:10:40, 33.28s/it] 19%|█▉        | 292/1500 [2:40:54<11:00:13, 32.79s/it]                                                       {'loss': 0.1791, 'grad_norm': 0.3977653384208679, 'learning_rate': 9.32470780957337e-06, 'memory/max_active (GiB)': 51.01, 'memory/max_allocated (GiB)': 51.01, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 951.78, 'total_tokens': 80044581, 'epoch': 0.58}
+ 19%|█▉        | 292/1500 [2:40:54<11:00:13, 32.79s/it] 20%|█▉        | 293/1500 [2:41:27<10:56:22, 32.63s/it]                                                       {'loss': 0.1789, 'grad_norm': 0.3809376358985901, 'learning_rate': 9.319268354975958e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1340.49, 'total_tokens': 80302046, 'epoch': 0.59}
+ 20%|█▉        | 293/1500 [2:41:27<10:56:22, 32.63s/it] 20%|█▉        | 294/1500 [2:41:59<10:57:43, 32.72s/it]                                                       {'loss': 0.1675, 'grad_norm': 0.314116895198822, 'learning_rate': 9.31380868059367e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1086.86, 'total_tokens': 80602508, 'epoch': 0.59}
+ 20%|█▉        | 294/1500 [2:41:59<10:57:43, 32.72s/it] 20%|█▉        | 295/1500 [2:42:34<11:05:13, 33.12s/it]                                                       {'loss': 0.1773, 'grad_norm': 0.3855973482131958, 'learning_rate': 9.30832881198487e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1502.89, 'total_tokens': 80879587, 'epoch': 0.59}
+ 20%|█▉        | 295/1500 [2:42:34<11:05:13, 33.12s/it] 20%|█▉        | 296/1500 [2:43:06<11:02:40, 33.02s/it]                                                       {'loss': 0.1692, 'grad_norm': 0.38957661390304565, 'learning_rate': 9.30282877480246e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1052.42, 'total_tokens': 81142578, 'epoch': 0.59}
+ 20%|█▉        | 296/1500 [2:43:06<11:02:40, 33.02s/it] 20%|█▉        | 297/1500 [2:43:39<11:02:05, 33.02s/it]                                                       {'loss': 0.1784, 'grad_norm': 0.3666059374809265, 'learning_rate': 9.297308594793757e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1009.02, 'total_tokens': 81399919, 'epoch': 0.59}
+ 20%|█▉        | 297/1500 [2:43:39<11:02:05, 33.02s/it] 20%|█▉        | 298/1500 [2:44:11<10:51:21, 32.51s/it]                                                       {'loss': 0.1767, 'grad_norm': 0.3610039949417114, 'learning_rate': 9.291768297800371e-06, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 768.81, 'total_tokens': 81648552, 'epoch': 0.6}
+ 20%|█▉        | 298/1500 [2:44:11<10:51:21, 32.51s/it] 20%|█▉        | 299/1500 [2:44:43<10:48:18, 32.39s/it]                                                       {'loss': 0.1818, 'grad_norm': 0.3664134442806244, 'learning_rate': 9.286207909758087e-06, 'memory/max_active (GiB)': 51.24, 'memory/max_allocated (GiB)': 51.24, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 880.03, 'total_tokens': 81920333, 'epoch': 0.6}
+ 20%|█▉        | 299/1500 [2:44:43<10:48:18, 32.39s/it] 20%|██        | 300/1500 [2:45:16<10:51:16, 32.56s/it]                                                       {'loss': 0.1679, 'grad_norm': 0.350428968667984, 'learning_rate': 9.28062745669674e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1189.52, 'total_tokens': 82207095, 'epoch': 0.6}
+ 20%|██        | 300/1500 [2:45:16<10:51:16, 32.56s/it] 20%|██        | 301/1500 [2:45:47<10:44:59, 32.28s/it]                                                       {'loss': 0.1766, 'grad_norm': 0.3482741415500641, 'learning_rate': 9.275026964740101e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1165.88, 'total_tokens': 82483547, 'epoch': 0.6}
+ 20%|██        | 301/1500 [2:45:47<10:44:59, 32.28s/it] 20%|██        | 302/1500 [2:46:19<10:40:40, 32.09s/it]                                                       {'loss': 0.1715, 'grad_norm': 0.34290799498558044, 'learning_rate': 9.269406460105742e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1161.7, 'total_tokens': 82745786, 'epoch': 0.6}
+ 20%|██        | 302/1500 [2:46:19<10:40:40, 32.09s/it] 20%|██        | 303/1500 [2:46:52<10:44:01, 32.28s/it]                                                       {'loss': 0.1736, 'grad_norm': 0.35716748237609863, 'learning_rate': 9.263765969104923e-06, 'memory/max_active (GiB)': 50.45, 'memory/max_allocated (GiB)': 50.45, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 767.48, 'total_tokens': 83001413, 'epoch': 0.61}
+ 20%|██        | 303/1500 [2:46:52<10:44:01, 32.28s/it] 20%|██        | 304/1500 [2:47:25<10:48:00, 32.51s/it]                                                       {'loss': 0.175, 'grad_norm': 0.34106728434562683, 'learning_rate': 9.258105518142469e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1259.2, 'total_tokens': 83279640, 'epoch': 0.61}
+ 20%|██        | 304/1500 [2:47:25<10:48:00, 32.51s/it] 20%|██        | 305/1500 [2:47:57<10:48:23, 32.55s/it]                                                       {'loss': 0.1735, 'grad_norm': 0.40300092101097107, 'learning_rate': 9.252425133716639e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1181.55, 'total_tokens': 83534281, 'epoch': 0.61}
+ 20%|██        | 305/1500 [2:47:57<10:48:23, 32.55s/it] 20%|██        | 306/1500 [2:48:29<10:42:17, 32.28s/it]                                                       {'loss': 0.1788, 'grad_norm': 0.3545559346675873, 'learning_rate': 9.246724842419011e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1294.96, 'total_tokens': 83822148, 'epoch': 0.61}
+ 20%|██        | 306/1500 [2:48:29<10:42:17, 32.28s/it] 20%|██        | 307/1500 [2:49:02<10:44:59, 32.44s/it]                                                       {'loss': 0.1702, 'grad_norm': 0.3454236090183258, 'learning_rate': 9.241004670934348e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 897.34, 'total_tokens': 84092665, 'epoch': 0.61}
+ 20%|██        | 307/1500 [2:49:02<10:44:59, 32.44s/it] 21%|██        | 308/1500 [2:49:36<10:55:30, 33.00s/it]                                                       {'loss': 0.176, 'grad_norm': 0.3591930568218231, 'learning_rate': 9.235264646040482e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1177.99, 'total_tokens': 84394570, 'epoch': 0.62}
+ 21%|██        | 308/1500 [2:49:36<10:55:30, 33.00s/it] 21%|██        | 309/1500 [2:50:09<10:54:48, 32.99s/it]                                                       {'loss': 0.174, 'grad_norm': 0.3701101541519165, 'learning_rate': 9.229504794608182e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1493.01, 'total_tokens': 84668236, 'epoch': 0.62}
+ 21%|██        | 309/1500 [2:50:09<10:54:48, 32.99s/it] 21%|██        | 310/1500 [2:50:43<10:57:32, 33.15s/it]                                                       {'loss': 0.1626, 'grad_norm': 0.3669721782207489, 'learning_rate': 9.223725143601037e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 948.65, 'total_tokens': 84941338, 'epoch': 0.62}
+ 21%|██        | 310/1500 [2:50:43<10:57:32, 33.15s/it] 21%|██        | 311/1500 [2:51:16<10:59:55, 33.30s/it]                                                       {'loss': 0.1769, 'grad_norm': 0.3721065819263458, 'learning_rate': 9.217925720075314e-06, 'memory/max_active (GiB)': 51.76, 'memory/max_allocated (GiB)': 51.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 915.69, 'total_tokens': 85187161, 'epoch': 0.62}
+ 21%|██        | 311/1500 [2:51:16<10:59:55, 33.30s/it] 21%|██        | 312/1500 [2:51:50<10:59:19, 33.30s/it]                                                       {'loss': 0.1732, 'grad_norm': 0.32903870940208435, 'learning_rate': 9.212106551179849e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 999.97, 'total_tokens': 85474969, 'epoch': 0.62}
+ 21%|██        | 312/1500 [2:51:50<10:59:19, 33.30s/it] 21%|██        | 313/1500 [2:52:23<11:00:14, 33.37s/it]                                                       {'loss': 0.1641, 'grad_norm': 0.34068286418914795, 'learning_rate': 9.206267664155906e-06, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1000.21, 'total_tokens': 85753220, 'epoch': 0.63}
+ 21%|██        | 313/1500 [2:52:23<11:00:14, 33.37s/it] 21%|██        | 314/1500 [2:52:57<11:00:40, 33.42s/it]                                                       {'loss': 0.1718, 'grad_norm': 0.3517163097858429, 'learning_rate': 9.200409086337063e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 992.04, 'total_tokens': 86023411, 'epoch': 0.63}
+ 21%|██        | 314/1500 [2:52:57<11:00:40, 33.42s/it] 21%|██        | 315/1500 [2:53:31<11:04:43, 33.66s/it]                                                       {'loss': 0.1764, 'grad_norm': 0.3621123731136322, 'learning_rate': 9.19453084514907e-06, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 708.09, 'total_tokens': 86297848, 'epoch': 0.63}
+ 21%|██        | 315/1500 [2:53:31<11:04:43, 33.66s/it] 21%|██        | 316/1500 [2:54:03<10:54:03, 33.14s/it]                                                       {'loss': 0.1781, 'grad_norm': 0.37710121273994446, 'learning_rate': 9.188632968109729e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1337.51, 'total_tokens': 86546589, 'epoch': 0.63}
+ 21%|██        | 316/1500 [2:54:03<10:54:03, 33.14s/it] 21%|██        | 317/1500 [2:54:35<10:50:35, 33.00s/it]                                                       {'loss': 0.1708, 'grad_norm': 0.3497507870197296, 'learning_rate': 9.182715482828764e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1159.37, 'total_tokens': 86820834, 'epoch': 0.63}
+ 21%|██        | 317/1500 [2:54:35<10:50:35, 33.00s/it] 21%|██        | 318/1500 [2:55:10<10:57:20, 33.37s/it]                                                       {'loss': 0.1631, 'grad_norm': 0.3702535927295685, 'learning_rate': 9.176778417007688e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1354.18, 'total_tokens': 87105409, 'epoch': 0.64}
+ 21%|██        | 318/1500 [2:55:10<10:57:20, 33.37s/it] 21%|██▏       | 319/1500 [2:55:42<10:49:27, 33.00s/it]                                                       {'loss': 0.17, 'grad_norm': 0.36642518639564514, 'learning_rate': 9.170821798439685e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1159.04, 'total_tokens': 87375272, 'epoch': 0.64}
+ 21%|██▏       | 319/1500 [2:55:42<10:49:27, 33.00s/it] 21%|██▏       | 320/1500 [2:56:16<10:53:37, 33.24s/it]                                                       {'loss': 0.1759, 'grad_norm': 0.38006141781806946, 'learning_rate': 9.164845655009457e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1108.0, 'total_tokens': 87652180, 'epoch': 0.64}
+ 21%|██▏       | 320/1500 [2:56:16<10:53:37, 33.24s/it] 21%|██▏       | 321/1500 [2:56:49<10:54:15, 33.30s/it]                                                       {'loss': 0.1634, 'grad_norm': 0.3829309940338135, 'learning_rate': 9.158850014693123e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1151.71, 'total_tokens': 87917893, 'epoch': 0.64}
+ 21%|██▏       | 321/1500 [2:56:49<10:54:15, 33.30s/it] 21%|██▏       | 322/1500 [2:57:22<10:48:46, 33.04s/it]                                                       {'loss': 0.178, 'grad_norm': 0.36886101961135864, 'learning_rate': 9.152834905558061e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1055.31, 'total_tokens': 88196162, 'epoch': 0.64}
+ 21%|██▏       | 322/1500 [2:57:22<10:48:46, 33.04s/it] 22%|██▏       | 323/1500 [2:57:52<10:30:27, 32.14s/it]                                                       {'loss': 0.1751, 'grad_norm': 0.3459452986717224, 'learning_rate': 9.146800355762795e-06, 'memory/max_active (GiB)': 51.56, 'memory/max_allocated (GiB)': 51.56, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 960.24, 'total_tokens': 88436682, 'epoch': 0.65}
+ 22%|██▏       | 323/1500 [2:57:52<10:30:27, 32.14s/it] 22%|██▏       | 324/1500 [2:58:25<10:40:22, 32.67s/it]                                                       {'loss': 0.1671, 'grad_norm': 0.34752175211906433, 'learning_rate': 9.140746393556853e-06, 'memory/max_active (GiB)': 51.37, 'memory/max_allocated (GiB)': 51.37, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1001.78, 'total_tokens': 88733825, 'epoch': 0.65}
+ 22%|██▏       | 324/1500 [2:58:25<10:40:22, 32.67s/it] 22%|██▏       | 325/1500 [2:58:57<10:31:35, 32.25s/it]                                                       {'loss': 0.1763, 'grad_norm': 0.36084097623825073, 'learning_rate': 9.134673047280644e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1181.28, 'total_tokens': 89018059, 'epoch': 0.65}
+ 22%|██▏       | 325/1500 [2:58:57<10:31:35, 32.25s/it] 22%|██▏       | 326/1500 [2:59:29<10:31:03, 32.25s/it]                                                       {'loss': 0.1776, 'grad_norm': 0.363254189491272, 'learning_rate': 9.12858034536531e-06, 'memory/max_active (GiB)': 51.3, 'memory/max_allocated (GiB)': 51.3, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 888.51, 'total_tokens': 89297786, 'epoch': 0.65}
+ 22%|██▏       | 326/1500 [2:59:29<10:31:03, 32.25s/it] 22%|██▏       | 327/1500 [3:00:02<10:34:42, 32.47s/it]                                                       {'loss': 0.1669, 'grad_norm': 0.3459835648536682, 'learning_rate': 9.122468316332611e-06, 'memory/max_active (GiB)': 52.56, 'memory/max_allocated (GiB)': 52.56, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1293.85, 'total_tokens': 89557109, 'epoch': 0.65}
+ 22%|██▏       | 327/1500 [3:00:02<10:34:42, 32.47s/it] 22%|██▏       | 328/1500 [3:00:36<10:40:59, 32.82s/it]                                                       {'loss': 0.1687, 'grad_norm': 0.3730977773666382, 'learning_rate': 9.116336988794778e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 986.73, 'total_tokens': 89823298, 'epoch': 0.66}
+ 22%|██▏       | 328/1500 [3:00:36<10:40:59, 32.82s/it] 22%|██▏       | 329/1500 [3:01:09<10:45:23, 33.07s/it]                                                       {'loss': 0.1727, 'grad_norm': 0.34957391023635864, 'learning_rate': 9.110186391454389e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1025.52, 'total_tokens': 90089042, 'epoch': 0.66}
+ 22%|██▏       | 329/1500 [3:01:09<10:45:23, 33.07s/it] 22%|██▏       | 330/1500 [3:01:43<10:48:31, 33.26s/it]                                                       {'loss': 0.1638, 'grad_norm': 0.3365679979324341, 'learning_rate': 9.104016553104222e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 828.88, 'total_tokens': 90362687, 'epoch': 0.66}
+ 22%|██▏       | 330/1500 [3:01:43<10:48:31, 33.26s/it] 22%|██▏       | 331/1500 [3:02:17<10:50:01, 33.36s/it]                                                       {'loss': 0.1636, 'grad_norm': 0.3402920067310333, 'learning_rate': 9.097827502627137e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 975.58, 'total_tokens': 90661036, 'epoch': 0.66}
+ 22%|██▏       | 331/1500 [3:02:17<10:50:01, 33.36s/it] 22%|██▏       | 332/1500 [3:02:49<10:45:35, 33.16s/it]                                                       {'loss': 0.169, 'grad_norm': 0.3420582413673401, 'learning_rate': 9.091619268995926e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 934.65, 'total_tokens': 90937548, 'epoch': 0.66}
+ 22%|██▏       | 332/1500 [3:02:49<10:45:35, 33.16s/it] 22%|██▏       | 333/1500 [3:03:23<10:49:14, 33.38s/it]                                                       {'loss': 0.1718, 'grad_norm': 0.3669831156730652, 'learning_rate': 9.085391881273182e-06, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 855.64, 'total_tokens': 91192738, 'epoch': 0.67}
+ 22%|██▏       | 333/1500 [3:03:23<10:49:14, 33.38s/it] 22%|██▏       | 334/1500 [3:03:56<10:44:59, 33.19s/it]                                                       {'loss': 0.1683, 'grad_norm': 0.3581375777721405, 'learning_rate': 9.07914536861117e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 958.93, 'total_tokens': 91470115, 'epoch': 0.67}
+ 22%|██▏       | 334/1500 [3:03:56<10:44:59, 33.19s/it] 22%|██▏       | 335/1500 [3:04:29<10:43:37, 33.15s/it]                                                       {'loss': 0.1602, 'grad_norm': 0.3263891041278839, 'learning_rate': 9.07287976025168e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1271.39, 'total_tokens': 91723712, 'epoch': 0.67}
+ 22%|██▏       | 335/1500 [3:04:29<10:43:37, 33.15s/it] 22%|██▏       | 336/1500 [3:05:00<10:31:13, 32.54s/it]                                                       {'loss': 0.1717, 'grad_norm': 0.3744138777256012, 'learning_rate': 9.066595085525893e-06, 'memory/max_active (GiB)': 51.98, 'memory/max_allocated (GiB)': 51.98, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1057.74, 'total_tokens': 91976362, 'epoch': 0.67}
+ 22%|██▏       | 336/1500 [3:05:00<10:31:13, 32.54s/it] 22%|██▏       | 337/1500 [3:05:34<10:39:27, 32.99s/it]                                                       {'loss': 0.181, 'grad_norm': 0.3452666401863098, 'learning_rate': 9.060291373854252e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 916.36, 'total_tokens': 92274384, 'epoch': 0.67}
+ 22%|██▏       | 337/1500 [3:05:34<10:39:27, 32.99s/it] 23%|██▎       | 338/1500 [3:06:09<10:47:28, 33.43s/it]                                                       {'loss': 0.1637, 'grad_norm': 0.32946696877479553, 'learning_rate': 9.053968654746308e-06, 'memory/max_active (GiB)': 51.76, 'memory/max_allocated (GiB)': 51.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1013.89, 'total_tokens': 92549589, 'epoch': 0.68}
+ 23%|██▎       | 338/1500 [3:06:09<10:47:28, 33.43s/it] 23%|██▎       | 339/1500 [3:06:41<10:41:41, 33.16s/it]                                                       {'loss': 0.1585, 'grad_norm': 0.3518201410770416, 'learning_rate': 9.047626957800604e-06, 'memory/max_active (GiB)': 50.68, 'memory/max_allocated (GiB)': 50.68, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 841.13, 'total_tokens': 92807109, 'epoch': 0.68}
+ 23%|██▎       | 339/1500 [3:06:41<10:41:41, 33.16s/it] 23%|██▎       | 340/1500 [3:07:14<10:38:18, 33.02s/it]                                                       {'loss': 0.1759, 'grad_norm': 0.350119024515152, 'learning_rate': 9.041266312704511e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1101.86, 'total_tokens': 93095172, 'epoch': 0.68}
+ 23%|██▎       | 340/1500 [3:07:14<10:38:18, 33.02s/it] 23%|██▎       | 341/1500 [3:07:47<10:37:25, 33.00s/it]                                                       {'loss': 0.1697, 'grad_norm': 0.3452470600605011, 'learning_rate': 9.034886749234112e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1172.15, 'total_tokens': 93388758, 'epoch': 0.68}
+ 23%|██▎       | 341/1500 [3:07:47<10:37:25, 33.00s/it] 23%|██▎       | 342/1500 [3:08:20<10:40:35, 33.19s/it]                                                       {'loss': 0.171, 'grad_norm': 0.34544917941093445, 'learning_rate': 9.028488297254047e-06, 'memory/max_active (GiB)': 52.48, 'memory/max_allocated (GiB)': 52.48, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1213.13, 'total_tokens': 93689020, 'epoch': 0.68}
+ 23%|██▎       | 342/1500 [3:08:20<10:40:35, 33.19s/it] 23%|██▎       | 343/1500 [3:08:54<10:40:58, 33.24s/it]                                                       {'loss': 0.175, 'grad_norm': 0.36130526661872864, 'learning_rate': 9.02207098671738e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 986.89, 'total_tokens': 93942681, 'epoch': 0.69}
+ 23%|██▎       | 343/1500 [3:08:54<10:40:58, 33.24s/it] 23%|██▎       | 344/1500 [3:09:27<10:39:03, 33.17s/it]                                                       {'loss': 0.1686, 'grad_norm': 0.3353602886199951, 'learning_rate': 9.015634847665456e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1101.49, 'total_tokens': 94206323, 'epoch': 0.69}
+ 23%|██▎       | 344/1500 [3:09:27<10:39:03, 33.17s/it] 23%|██▎       | 345/1500 [3:09:59<10:33:58, 32.93s/it]                                                       {'loss': 0.1605, 'grad_norm': 0.34544748067855835, 'learning_rate': 9.009179910227767e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1134.83, 'total_tokens': 94492965, 'epoch': 0.69}
+ 23%|██▎       | 345/1500 [3:09:59<10:33:58, 32.93s/it] 23%|██▎       | 346/1500 [3:10:32<10:30:29, 32.78s/it]                                                       {'loss': 0.1705, 'grad_norm': 0.32639792561531067, 'learning_rate': 9.002706204621802e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1122.95, 'total_tokens': 94786826, 'epoch': 0.69}
+ 23%|██▎       | 346/1500 [3:10:32<10:30:29, 32.78s/it] 23%|██▎       | 347/1500 [3:11:05<10:33:30, 32.97s/it]                                                       {'loss': 0.1691, 'grad_norm': 0.3381684422492981, 'learning_rate': 8.99621376115291e-06, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1372.74, 'total_tokens': 95096984, 'epoch': 0.69}
+ 23%|██▎       | 347/1500 [3:11:05<10:33:30, 32.97s/it] 23%|██▎       | 348/1500 [3:11:36<10:23:29, 32.47s/it]                                                       {'loss': 0.1696, 'grad_norm': 0.34476667642593384, 'learning_rate': 8.989702610214155e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1271.63, 'total_tokens': 95354503, 'epoch': 0.7}
+ 23%|██▎       | 348/1500 [3:11:36<10:23:29, 32.47s/it] 23%|██▎       | 349/1500 [3:12:10<10:27:55, 32.73s/it]                                                       {'loss': 0.1738, 'grad_norm': 0.436249315738678, 'learning_rate': 8.98317278228618e-06, 'memory/max_active (GiB)': 51.88, 'memory/max_allocated (GiB)': 51.88, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 789.82, 'total_tokens': 95630713, 'epoch': 0.7}
+ 23%|██▎       | 349/1500 [3:12:10<10:27:55, 32.73s/it] 23%|██▎       | 350/1500 [3:12:44<10:35:13, 33.14s/it]                                                       {'loss': 0.162, 'grad_norm': 0.32911327481269836, 'learning_rate': 8.976624307937061e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1036.46, 'total_tokens': 95916580, 'epoch': 0.7}
+ 23%|██▎       | 350/1500 [3:12:44<10:35:13, 33.14s/it] 23%|██▎       | 351/1500 [3:13:17<10:35:11, 33.17s/it]                                                       {'loss': 0.1725, 'grad_norm': 0.32949402928352356, 'learning_rate': 8.97005721782216e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1111.06, 'total_tokens': 96200348, 'epoch': 0.7}
+ 23%|██▎       | 351/1500 [3:13:17<10:35:11, 33.17s/it] 23%|██▎       | 352/1500 [3:13:51<10:39:36, 33.43s/it]                                                       {'loss': 0.1782, 'grad_norm': 0.3276118040084839, 'learning_rate': 8.963471542683988e-06, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1049.2, 'total_tokens': 96498669, 'epoch': 0.7}
+ 23%|██▎       | 352/1500 [3:13:51<10:39:36, 33.43s/it] 24%|██▎       | 353/1500 [3:14:24<10:34:47, 33.21s/it]                                                       {'loss': 0.1736, 'grad_norm': 0.3636398911476135, 'learning_rate': 8.956867313352055e-06, 'memory/max_active (GiB)': 52.48, 'memory/max_allocated (GiB)': 52.48, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1135.62, 'total_tokens': 96769868, 'epoch': 0.71}
+ 24%|██▎       | 353/1500 [3:14:24<10:34:47, 33.21s/it] 24%|██▎       | 354/1500 [3:14:57<10:32:45, 33.13s/it]                                                       {'loss': 0.1587, 'grad_norm': 0.33486297726631165, 'learning_rate': 8.950244560742733e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1136.63, 'total_tokens': 97060129, 'epoch': 0.71}
+ 24%|██▎       | 354/1500 [3:14:57<10:32:45, 33.13s/it] 24%|██▎       | 355/1500 [3:15:29<10:25:29, 32.78s/it]                                                       {'loss': 0.1631, 'grad_norm': 0.3661269545555115, 'learning_rate': 8.943603315859101e-06, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 771.83, 'total_tokens': 97315282, 'epoch': 0.71}
+ 24%|██▎       | 355/1500 [3:15:29<10:25:29, 32.78s/it] 24%|██▎       | 356/1500 [3:16:02<10:26:57, 32.88s/it]                                                       {'loss': 0.165, 'grad_norm': 0.34314781427383423, 'learning_rate': 8.936943609790813e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1237.58, 'total_tokens': 97594818, 'epoch': 0.71}
+ 24%|██▎       | 356/1500 [3:16:02<10:26:57, 32.88s/it] 24%|██▍       | 357/1500 [3:16:34<10:25:56, 32.86s/it]                                                       {'loss': 0.1713, 'grad_norm': 0.3613379895687103, 'learning_rate': 8.930265473713939e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 902.72, 'total_tokens': 97865794, 'epoch': 0.71}
+ 24%|██▍       | 357/1500 [3:16:34<10:25:56, 32.86s/it] 24%|██▍       | 358/1500 [3:17:08<10:28:21, 33.01s/it]                                                       {'loss': 0.1684, 'grad_norm': 0.3550315201282501, 'learning_rate': 8.923568938890827e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1036.09, 'total_tokens': 98120423, 'epoch': 0.72}
+ 24%|██▍       | 358/1500 [3:17:08<10:28:21, 33.01s/it] 24%|██▍       | 359/1500 [3:17:39<10:16:33, 32.42s/it]                                                       {'loss': 0.1748, 'grad_norm': 0.36589592695236206, 'learning_rate': 8.916854036669962e-06, 'memory/max_active (GiB)': 51.24, 'memory/max_allocated (GiB)': 51.24, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 903.15, 'total_tokens': 98368594, 'epoch': 0.72}
+ 24%|██▍       | 359/1500 [3:17:39<10:16:33, 32.42s/it] 24%|██▍       | 360/1500 [3:18:12<10:21:27, 32.71s/it]                                                       {'loss': 0.1582, 'grad_norm': 0.3410746455192566, 'learning_rate': 8.9101207984858e-06, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1065.12, 'total_tokens': 98632509, 'epoch': 0.72}
+ 24%|██▍       | 360/1500 [3:18:12<10:21:27, 32.71s/it] 24%|██▍       | 361/1500 [3:18:46<10:23:54, 32.87s/it]                                                       {'loss': 0.1741, 'grad_norm': 0.3558298647403717, 'learning_rate': 8.90336925585864e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1286.06, 'total_tokens': 98921178, 'epoch': 0.72}
+ 24%|██▍       | 361/1500 [3:18:46<10:23:54, 32.87s/it] 24%|██▍       | 362/1500 [3:19:19<10:26:41, 33.04s/it]                                                       {'loss': 0.1681, 'grad_norm': 0.3352776765823364, 'learning_rate': 8.896599440394474e-06, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1003.1, 'total_tokens': 99183477, 'epoch': 0.72}
+ 24%|██▍       | 362/1500 [3:19:19<10:26:41, 33.04s/it] 24%|██▍       | 363/1500 [3:19:53<10:31:36, 33.33s/it]                                                       {'loss': 0.1731, 'grad_norm': 0.34912335872650146, 'learning_rate': 8.889811383784825e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1033.14, 'total_tokens': 99459956, 'epoch': 0.73}
+ 24%|██▍       | 363/1500 [3:19:53<10:31:36, 33.33s/it] 24%|██▍       | 364/1500 [3:20:26<10:29:08, 33.23s/it]                                                       {'loss': 0.1678, 'grad_norm': 0.3571053147315979, 'learning_rate': 8.883005117806613e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1068.19, 'total_tokens': 99729715, 'epoch': 0.73}
+ 24%|██▍       | 364/1500 [3:20:26<10:29:08, 33.23s/it] 24%|██▍       | 365/1500 [3:21:00<10:33:05, 33.47s/it]                                                       {'loss': 0.1753, 'grad_norm': 0.34313085675239563, 'learning_rate': 8.876180674322006e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1044.15, 'total_tokens': 100013919, 'epoch': 0.73}
+ 24%|██▍       | 365/1500 [3:21:00<10:33:05, 33.47s/it] 24%|██▍       | 366/1500 [3:21:33<10:30:17, 33.35s/it]                                                       {'loss': 0.1746, 'grad_norm': 0.38388189673423767, 'learning_rate': 8.869338085278254e-06, 'memory/max_active (GiB)': 51.47, 'memory/max_allocated (GiB)': 51.47, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 909.18, 'total_tokens': 100276126, 'epoch': 0.73}
+ 24%|██▍       | 366/1500 [3:21:33<10:30:17, 33.35s/it] 24%|██▍       | 367/1500 [3:22:07<10:31:32, 33.44s/it]                                                       {'loss': 0.177, 'grad_norm': 0.3621891736984253, 'learning_rate': 8.862477382707569e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1219.97, 'total_tokens': 100541272, 'epoch': 0.73}
+ 24%|██▍       | 367/1500 [3:22:07<10:31:32, 33.44s/it] 25%|██▍       | 368/1500 [3:22:40<10:27:46, 33.27s/it]                                                       {'loss': 0.1665, 'grad_norm': 0.3533165156841278, 'learning_rate': 8.85559859872694e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1115.93, 'total_tokens': 100803045, 'epoch': 0.74}
+ 25%|██▍       | 368/1500 [3:22:40<10:27:46, 33.27s/it] 25%|██▍       | 369/1500 [3:23:14<10:32:21, 33.55s/it]                                                       {'loss': 0.1722, 'grad_norm': 0.3635205626487732, 'learning_rate': 8.84870176553801e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1158.83, 'total_tokens': 101102437, 'epoch': 0.74}
+ 25%|██▍       | 369/1500 [3:23:14<10:32:21, 33.55s/it] 25%|██▍       | 370/1500 [3:23:47<10:27:37, 33.33s/it]                                                       {'loss': 0.1733, 'grad_norm': 0.3403739929199219, 'learning_rate': 8.841786915426918e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1156.63, 'total_tokens': 101387365, 'epoch': 0.74}
+ 25%|██▍       | 370/1500 [3:23:47<10:27:37, 33.33s/it] 25%|██▍       | 371/1500 [3:24:20<10:28:00, 33.38s/it]                                                       {'loss': 0.173, 'grad_norm': 0.39736059308052063, 'learning_rate': 8.83485408076414e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 852.98, 'total_tokens': 101641769, 'epoch': 0.74}
+ 25%|██▍       | 371/1500 [3:24:20<10:28:00, 33.38s/it] 25%|██▍       | 372/1500 [3:24:54<10:31:19, 33.58s/it]                                                       {'loss': 0.183, 'grad_norm': 0.4001961946487427, 'learning_rate': 8.827903294004347e-06, 'memory/max_active (GiB)': 51.24, 'memory/max_allocated (GiB)': 51.24, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 924.04, 'total_tokens': 101929963, 'epoch': 0.74}
+ 25%|██▍       | 372/1500 [3:24:54<10:31:19, 33.58s/it] 25%|██▍       | 373/1500 [3:25:27<10:27:21, 33.40s/it]                                                       {'loss': 0.1752, 'grad_norm': 0.3616428077220917, 'learning_rate': 8.820934587686247e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1302.95, 'total_tokens': 102234850, 'epoch': 0.75}
+ 25%|██▍       | 373/1500 [3:25:27<10:27:21, 33.40s/it] 25%|██▍       | 374/1500 [3:26:00<10:26:32, 33.39s/it]                                                       {'loss': 0.1769, 'grad_norm': 0.37157514691352844, 'learning_rate': 8.813947994432432e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1076.94, 'total_tokens': 102512274, 'epoch': 0.75}
+ 25%|██▍       | 374/1500 [3:26:00<10:26:32, 33.39s/it] 25%|██▌       | 375/1500 [3:26:34<10:24:42, 33.32s/it]                                                       {'loss': 0.1616, 'grad_norm': 0.35589510202407837, 'learning_rate': 8.806943546949233e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 815.05, 'total_tokens': 102776660, 'epoch': 0.75}
+ 25%|██▌       | 375/1500 [3:26:34<10:24:42, 33.32s/it] 25%|██▌       | 376/1500 [3:27:08<10:27:14, 33.48s/it]                                                       {'loss': 0.1791, 'grad_norm': 0.39159268140792847, 'learning_rate': 8.79992127802656e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1006.16, 'total_tokens': 103058063, 'epoch': 0.75}
+ 25%|██▌       | 376/1500 [3:27:08<10:27:14, 33.48s/it] 25%|██▌       | 377/1500 [3:27:40<10:23:51, 33.33s/it]                                                       {'loss': 0.1605, 'grad_norm': 0.34080442786216736, 'learning_rate': 8.792881220537752e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1394.2, 'total_tokens': 103340285, 'epoch': 0.75}
+ 25%|██▌       | 377/1500 [3:27:40<10:23:51, 33.33s/it] 25%|██▌       | 378/1500 [3:28:14<10:24:04, 33.37s/it]                                                       {'loss': 0.163, 'grad_norm': 0.36778485774993896, 'learning_rate': 8.78582340743942e-06, 'memory/max_active (GiB)': 51.88, 'memory/max_allocated (GiB)': 51.88, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 943.19, 'total_tokens': 103624861, 'epoch': 0.76}
+ 25%|██▌       | 378/1500 [3:28:14<10:24:04, 33.37s/it] 25%|██▌       | 379/1500 [3:28:49<10:30:52, 33.77s/it]                                                       {'loss': 0.1739, 'grad_norm': 0.3454303741455078, 'learning_rate': 8.778747871771293e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1262.17, 'total_tokens': 103907206, 'epoch': 0.76}
+ 25%|██▌       | 379/1500 [3:28:49<10:30:52, 33.77s/it] 25%|██▌       | 380/1500 [3:29:21<10:24:50, 33.47s/it]                                                       {'loss': 0.1683, 'grad_norm': 0.3772906959056854, 'learning_rate': 8.771654646656065e-06, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1022.48, 'total_tokens': 104162156, 'epoch': 0.76}
+ 25%|██▌       | 380/1500 [3:29:21<10:24:50, 33.47s/it] 25%|██▌       | 381/1500 [3:29:53<10:14:05, 32.93s/it]                                                       {'loss': 0.1623, 'grad_norm': 0.35275641083717346, 'learning_rate': 8.764543765299245e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1570.32, 'total_tokens': 104439471, 'epoch': 0.76}
+ 25%|██▌       | 381/1500 [3:29:53<10:14:05, 32.93s/it] 25%|██▌       | 382/1500 [3:30:26<10:12:33, 32.87s/it]                                                       {'loss': 0.1705, 'grad_norm': 0.32580140233039856, 'learning_rate': 8.757415260988989e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1011.89, 'total_tokens': 104722002, 'epoch': 0.76}
+ 25%|██▌       | 382/1500 [3:30:26<10:12:33, 32.87s/it] 26%|██▌       | 383/1500 [3:31:00<10:16:45, 33.13s/it]                                                       {'loss': 0.1585, 'grad_norm': 0.3743329346179962, 'learning_rate': 8.750269167095953e-06, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 865.42, 'total_tokens': 105000849, 'epoch': 0.77}
+ 26%|██▌       | 383/1500 [3:31:00<10:16:45, 33.13s/it] 26%|██▌       | 384/1500 [3:31:34<10:23:24, 33.52s/it]                                                       {'loss': 0.1653, 'grad_norm': 0.34207722544670105, 'learning_rate': 8.743105517073141e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 908.52, 'total_tokens': 105316782, 'epoch': 0.77}
+ 26%|██▌       | 384/1500 [3:31:34<10:23:24, 33.52s/it] 26%|██▌       | 385/1500 [3:32:07<10:17:52, 33.25s/it]                                                       {'loss': 0.1736, 'grad_norm': 0.36957597732543945, 'learning_rate': 8.735924344455732e-06, 'memory/max_active (GiB)': 51.76, 'memory/max_allocated (GiB)': 51.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 920.54, 'total_tokens': 105591142, 'epoch': 0.77}
+ 26%|██▌       | 385/1500 [3:32:07<10:17:52, 33.25s/it] 26%|██▌       | 386/1500 [3:32:39<10:15:09, 33.13s/it]                                                       {'loss': 0.1787, 'grad_norm': 0.33359161019325256, 'learning_rate': 8.728725682860944e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1441.87, 'total_tokens': 105898680, 'epoch': 0.77}
+ 26%|██▌       | 386/1500 [3:32:39<10:15:09, 33.13s/it] 26%|██▌       | 387/1500 [3:33:13<10:18:25, 33.34s/it]                                                       {'loss': 0.1723, 'grad_norm': 0.33067020773887634, 'learning_rate': 8.721509565987858e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 962.82, 'total_tokens': 106203882, 'epoch': 0.77}
+ 26%|██▌       | 387/1500 [3:33:13<10:18:25, 33.34s/it] 26%|██▌       | 388/1500 [3:33:47<10:18:03, 33.35s/it]                                                       {'loss': 0.1668, 'grad_norm': 0.354638010263443, 'learning_rate': 8.714276027617274e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1043.7, 'total_tokens': 106487514, 'epoch': 0.78}
+ 26%|██▌       | 388/1500 [3:33:47<10:18:03, 33.35s/it] 26%|██▌       | 389/1500 [3:34:20<10:17:24, 33.34s/it]                                                       {'loss': 0.1667, 'grad_norm': 0.36111825704574585, 'learning_rate': 8.707025101611546e-06, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 986.02, 'total_tokens': 106752107, 'epoch': 0.78}
+ 26%|██▌       | 389/1500 [3:34:20<10:17:24, 33.34s/it] 26%|██▌       | 390/1500 [3:34:53<10:12:54, 33.13s/it]                                                       {'loss': 0.169, 'grad_norm': 0.3363431394100189, 'learning_rate': 8.69975682191442e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1131.79, 'total_tokens': 107013189, 'epoch': 0.78}
+ 26%|██▌       | 390/1500 [3:34:53<10:12:54, 33.13s/it] 26%|██▌       | 391/1500 [3:35:24<10:03:40, 32.66s/it]                                                       {'loss': 0.17, 'grad_norm': 0.3570656180381775, 'learning_rate': 8.692471222550886e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1147.99, 'total_tokens': 107276271, 'epoch': 0.78}
+ 26%|██▌       | 391/1500 [3:35:24<10:03:40, 32.66s/it] 26%|██▌       | 392/1500 [3:35:57<10:06:19, 32.83s/it]                                                       {'loss': 0.1644, 'grad_norm': 0.3502570390701294, 'learning_rate': 8.68516833762701e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1178.8, 'total_tokens': 107559436, 'epoch': 0.78}
+ 26%|██▌       | 392/1500 [3:35:57<10:06:19, 32.83s/it] 26%|██▌       | 393/1500 [3:36:29<10:01:31, 32.60s/it]                                                       {'loss': 0.1627, 'grad_norm': 0.33431756496429443, 'learning_rate': 8.677848201329775e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 891.55, 'total_tokens': 107823165, 'epoch': 0.79}
+ 26%|██▌       | 393/1500 [3:36:29<10:01:31, 32.60s/it] 26%|██▋       | 394/1500 [3:37:03<10:05:10, 32.83s/it]                                                       {'loss': 0.1617, 'grad_norm': 2.0478034019470215, 'learning_rate': 8.670510847926928e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1149.35, 'total_tokens': 108118777, 'epoch': 0.79}
+ 26%|██▋       | 394/1500 [3:37:03<10:05:10, 32.83s/it] 26%|██▋       | 395/1500 [3:37:35<10:03:33, 32.77s/it]                                                       {'loss': 0.1706, 'grad_norm': 0.39604049921035767, 'learning_rate': 8.663156311766809e-06, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1053.38, 'total_tokens': 108393577, 'epoch': 0.79}
+ 26%|██▋       | 395/1500 [3:37:35<10:03:33, 32.77s/it] 26%|██▋       | 396/1500 [3:38:09<10:06:55, 32.98s/it]                                                       {'loss': 0.1675, 'grad_norm': 0.38202789425849915, 'learning_rate': 8.655784627278198e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 700.8, 'total_tokens': 108662178, 'epoch': 0.79}
+ 26%|██▋       | 396/1500 [3:38:09<10:06:55, 32.98s/it] 26%|██▋       | 397/1500 [3:38:42<10:08:08, 33.08s/it]                                                       {'loss': 0.1713, 'grad_norm': 0.3203829824924469, 'learning_rate': 8.64839582897015e-06, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1120.34, 'total_tokens': 108950733, 'epoch': 0.79}
+ 26%|██▋       | 397/1500 [3:38:42<10:08:08, 33.08s/it] 27%|██▋       | 398/1500 [3:39:14<10:01:23, 32.74s/it]                                                       {'loss': 0.1672, 'grad_norm': 0.3865290582180023, 'learning_rate': 8.640989951431839e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1136.68, 'total_tokens': 109217753, 'epoch': 0.8}
+ 27%|██▋       | 398/1500 [3:39:14<10:01:23, 32.74s/it] 27%|██▋       | 399/1500 [3:39:49<10:09:54, 33.24s/it]                                                       {'loss': 0.1594, 'grad_norm': 0.3276360332965851, 'learning_rate': 8.633567029332388e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 785.82, 'total_tokens': 109509606, 'epoch': 0.8}
+ 27%|██▋       | 399/1500 [3:39:49<10:09:54, 33.24s/it] 27%|██▋       | 400/1500 [3:40:20<9:59:32, 32.70s/it]                                                       {'loss': 0.1637, 'grad_norm': 0.3523085415363312, 'learning_rate': 8.626127097420711e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1518.68, 'total_tokens': 109790348, 'epoch': 0.8}
+ 27%|██▋       | 400/1500 [3:40:20<9:59:32, 32.70s/it] 27%|██▋       | 401/1500 [3:40:53<9:59:55, 32.75s/it]                                                      {'loss': 0.1603, 'grad_norm': 0.3222910165786743, 'learning_rate': 8.61867019052535e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1103.74, 'total_tokens': 110074839, 'epoch': 0.8}
+ 27%|██▋       | 401/1500 [3:40:53<9:59:55, 32.75s/it] 27%|██▋       | 402/1500 [3:41:24<9:49:04, 32.19s/it]                                                      {'loss': 0.1634, 'grad_norm': 0.35385558009147644, 'learning_rate': 8.611196343554318e-06, 'memory/max_active (GiB)': 51.98, 'memory/max_allocated (GiB)': 51.98, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1334.32, 'total_tokens': 110338316, 'epoch': 0.8}
+ 27%|██▋       | 402/1500 [3:41:24<9:49:04, 32.19s/it] 27%|██▋       | 403/1500 [3:41:57<9:53:14, 32.45s/it]                                                      {'loss': 0.17, 'grad_norm': 0.36622315645217896, 'learning_rate': 8.603705591494917e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1026.14, 'total_tokens': 110612921, 'epoch': 0.81}
+ 27%|██▋       | 403/1500 [3:41:57<9:53:14, 32.45s/it] 27%|██▋       | 404/1500 [3:42:31<10:00:51, 32.89s/it]                                                       {'loss': 0.1698, 'grad_norm': 0.36877012252807617, 'learning_rate': 8.596197969413598e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1156.23, 'total_tokens': 110900036, 'epoch': 0.81}
+ 27%|██▋       | 404/1500 [3:42:31<10:00:51, 32.89s/it] 27%|██▋       | 405/1500 [3:43:05<10:05:44, 33.19s/it]                                                       {'loss': 0.165, 'grad_norm': 0.33870914578437805, 'learning_rate': 8.588673512455781e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 970.03, 'total_tokens': 111177991, 'epoch': 0.81}
+ 27%|██▋       | 405/1500 [3:43:05<10:05:44, 33.19s/it] 27%|██▋       | 406/1500 [3:43:39<10:09:10, 33.41s/it]                                                       {'loss': 0.1778, 'grad_norm': 0.3784392178058624, 'learning_rate': 8.581132255845696e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 981.49, 'total_tokens': 111432665, 'epoch': 0.81}
+ 27%|██▋       | 406/1500 [3:43:39<10:09:10, 33.41s/it] 27%|██▋       | 407/1500 [3:44:12<10:08:41, 33.41s/it]                                                       {'loss': 0.1675, 'grad_norm': 0.3320118486881256, 'learning_rate': 8.573574234886217e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1024.7, 'total_tokens': 111727713, 'epoch': 0.81}
+ 27%|██▋       | 407/1500 [3:44:12<10:08:41, 33.41s/it] 27%|██▋       | 408/1500 [3:44:45<10:06:36, 33.33s/it]                                                       {'loss': 0.1662, 'grad_norm': 0.35811394453048706, 'learning_rate': 8.565999484958697e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 860.67, 'total_tokens': 111995791, 'epoch': 0.82}
+ 27%|██▋       | 408/1500 [3:44:45<10:06:36, 33.33s/it] 27%|██▋       | 409/1500 [3:45:18<10:03:26, 33.19s/it]                                                       {'loss': 0.1756, 'grad_norm': 0.33537858724594116, 'learning_rate': 8.558408041522801e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1111.78, 'total_tokens': 112282662, 'epoch': 0.82}
+ 27%|██▋       | 409/1500 [3:45:18<10:03:26, 33.19s/it] 27%|██▋       | 410/1500 [3:45:50<9:54:58, 32.75s/it]                                                       {'loss': 0.1586, 'grad_norm': 0.3558875322341919, 'learning_rate': 8.550799940116346e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1015.37, 'total_tokens': 112554459, 'epoch': 0.82}
+ 27%|██▋       | 410/1500 [3:45:50<9:54:58, 32.75s/it] 27%|██▋       | 411/1500 [3:46:22<9:52:20, 32.64s/it]                                                      {'loss': 0.1735, 'grad_norm': 0.3457251489162445, 'learning_rate': 8.543175216355122e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1228.04, 'total_tokens': 112826939, 'epoch': 0.82}
+ 27%|██▋       | 411/1500 [3:46:22<9:52:20, 32.64s/it] 27%|██▋       | 412/1500 [3:46:55<9:53:34, 32.73s/it]                                                      {'loss': 0.1735, 'grad_norm': 0.3368334472179413, 'learning_rate': 8.535533905932739e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1145.09, 'total_tokens': 113112452, 'epoch': 0.82}
+ 27%|██▋       | 412/1500 [3:46:55<9:53:34, 32.73s/it] 28%|██▊       | 413/1500 [3:47:28<9:55:50, 32.89s/it]                                                      {'loss': 0.1777, 'grad_norm': 0.36158162355422974, 'learning_rate': 8.527876044620453e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1421.75, 'total_tokens': 113390777, 'epoch': 0.83}
+ 28%|██▊       | 413/1500 [3:47:28<9:55:50, 32.89s/it] 28%|██▊       | 414/1500 [3:48:00<9:48:21, 32.51s/it]                                                      {'loss': 0.1611, 'grad_norm': 0.33609017729759216, 'learning_rate': 8.520201668267e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 983.14, 'total_tokens': 113643340, 'epoch': 0.83}
+ 28%|██▊       | 414/1500 [3:48:00<9:48:21, 32.51s/it] 28%|██▊       | 415/1500 [3:48:33<9:53:21, 32.81s/it]                                                      {'loss': 0.1706, 'grad_norm': 0.3566969335079193, 'learning_rate': 8.512510812798426e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1012.89, 'total_tokens': 113901644, 'epoch': 0.83}
+ 28%|██▊       | 415/1500 [3:48:33<9:53:21, 32.81s/it] 28%|██▊       | 416/1500 [3:49:05<9:45:38, 32.42s/it]                                                      {'loss': 0.1644, 'grad_norm': 0.3702470064163208, 'learning_rate': 8.504803514217926e-06, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 995.76, 'total_tokens': 114158498, 'epoch': 0.83}
+ 28%|██▊       | 416/1500 [3:49:05<9:45:38, 32.42s/it] 28%|██▊       | 417/1500 [3:49:38<9:46:22, 32.49s/it]                                                      {'loss': 0.1581, 'grad_norm': 0.31442758440971375, 'learning_rate': 8.497079808605659e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 955.53, 'total_tokens': 114434221, 'epoch': 0.83}
+ 28%|██▊       | 417/1500 [3:49:38<9:46:22, 32.49s/it] 28%|██▊       | 418/1500 [3:50:11<9:52:07, 32.83s/it]                                                      {'loss': 0.1695, 'grad_norm': 0.3547021448612213, 'learning_rate': 8.489339732118605e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 967.18, 'total_tokens': 114704135, 'epoch': 0.84}
+ 28%|██▊       | 418/1500 [3:50:11<9:52:07, 32.83s/it] 28%|██▊       | 419/1500 [3:50:44<9:53:05, 32.92s/it]                                                      {'loss': 0.1636, 'grad_norm': 0.33145636320114136, 'learning_rate': 8.481583320990366e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1271.33, 'total_tokens': 114993867, 'epoch': 0.84}
+ 28%|██▊       | 419/1500 [3:50:44<9:53:05, 32.92s/it] 28%|██▊       | 420/1500 [3:51:18<9:58:00, 33.22s/it]                                                      {'loss': 0.162, 'grad_norm': 0.35245272517204285, 'learning_rate': 8.47381061153102e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1065.45, 'total_tokens': 115265442, 'epoch': 0.84}
+ 28%|██▊       | 420/1500 [3:51:18<9:58:00, 33.22s/it] 28%|██▊       | 421/1500 [3:51:52<9:59:29, 33.34s/it]                                                      {'loss': 0.1672, 'grad_norm': 0.3381314277648926, 'learning_rate': 8.466021640126946e-06, 'memory/max_active (GiB)': 51.98, 'memory/max_allocated (GiB)': 51.98, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1024.75, 'total_tokens': 115552399, 'epoch': 0.84}
+ 28%|██▊       | 421/1500 [3:51:52<9:59:29, 33.34s/it] 28%|██▊       | 422/1500 [3:52:25<9:59:07, 33.35s/it]                                                      {'loss': 0.1669, 'grad_norm': 0.34428271651268005, 'learning_rate': 8.45821644324064e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 924.79, 'total_tokens': 115826677, 'epoch': 0.84}
+ 28%|██▊       | 422/1500 [3:52:25<9:59:07, 33.35s/it] 28%|██▊       | 423/1500 [3:52:58<9:52:45, 33.02s/it]                                                      {'loss': 0.1607, 'grad_norm': 0.35614919662475586, 'learning_rate': 8.450395057410561e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 982.42, 'total_tokens': 116076456, 'epoch': 0.85}
+ 28%|██▊       | 423/1500 [3:52:58<9:52:45, 33.02s/it] 28%|██▊       | 424/1500 [3:53:29<9:45:19, 32.64s/it]                                                      {'loss': 0.1627, 'grad_norm': 0.36178186535835266, 'learning_rate': 8.442557519250951e-06, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1277.48, 'total_tokens': 116324672, 'epoch': 0.85}
+ 28%|██▊       | 424/1500 [3:53:29<9:45:19, 32.64s/it] 28%|██▊       | 425/1500 [3:54:02<9:47:02, 32.77s/it]                                                      {'loss': 0.1728, 'grad_norm': 0.3922325670719147, 'learning_rate': 8.434703865451666e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1058.16, 'total_tokens': 116613546, 'epoch': 0.85}
+ 28%|██▊       | 425/1500 [3:54:02<9:47:02, 32.77s/it] 28%|██▊       | 426/1500 [3:54:36<9:51:58, 33.07s/it]                                                      {'loss': 0.1733, 'grad_norm': 0.3511046767234802, 'learning_rate': 8.426834132778005e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 985.66, 'total_tokens': 116897008, 'epoch': 0.85}
+ 28%|██▊       | 426/1500 [3:54:36<9:51:58, 33.07s/it] 28%|██▊       | 427/1500 [3:55:08<9:45:32, 32.74s/it]                                                      {'loss': 0.1521, 'grad_norm': 0.36494138836860657, 'learning_rate': 8.418948358070535e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 945.5, 'total_tokens': 117148973, 'epoch': 0.85}
+ 28%|██▊       | 427/1500 [3:55:08<9:45:32, 32.74s/it] 29%|██▊       | 428/1500 [3:55:41<9:44:08, 32.69s/it]                                                      {'loss': 0.1667, 'grad_norm': 0.3435748517513275, 'learning_rate': 8.411046578244926e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1062.89, 'total_tokens': 117436561, 'epoch': 0.86}
+ 29%|██▊       | 428/1500 [3:55:41<9:44:08, 32.69s/it] 29%|██▊       | 429/1500 [3:56:14<9:46:11, 32.84s/it]                                                      {'loss': 0.1651, 'grad_norm': 0.3440593481063843, 'learning_rate': 8.403128830291767e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1076.59, 'total_tokens': 117718257, 'epoch': 0.86}
+ 29%|██▊       | 429/1500 [3:56:14<9:46:11, 32.84s/it] 29%|██▊       | 430/1500 [3:56:47<9:46:33, 32.89s/it]                                                      {'loss': 0.1701, 'grad_norm': 0.36411306262016296, 'learning_rate': 8.395195151276397e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1229.27, 'total_tokens': 117998483, 'epoch': 0.86}
+ 29%|██▊       | 430/1500 [3:56:47<9:46:33, 32.89s/it] 29%|██▊       | 431/1500 [3:57:20<9:47:16, 32.96s/it]                                                      {'loss': 0.1755, 'grad_norm': 0.3882637321949005, 'learning_rate': 8.387245578338741e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1185.49, 'total_tokens': 118281263, 'epoch': 0.86}
+ 29%|██▊       | 431/1500 [3:57:20<9:47:16, 32.96s/it] 29%|██▉       | 432/1500 [3:57:52<9:39:05, 32.53s/it]                                                      {'loss': 0.1646, 'grad_norm': 0.3265629708766937, 'learning_rate': 8.37928014869312e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1066.45, 'total_tokens': 118555521, 'epoch': 0.86}
+ 29%|██▉       | 432/1500 [3:57:52<9:39:05, 32.53s/it] 29%|██▉       | 433/1500 [3:58:25<9:45:20, 32.92s/it]                                                      {'loss': 0.1672, 'grad_norm': 0.3268694579601288, 'learning_rate': 8.371298899628091e-06, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1282.45, 'total_tokens': 118855896, 'epoch': 0.87}
+ 29%|██▉       | 433/1500 [3:58:25<9:45:20, 32.92s/it] 29%|██▉       | 434/1500 [3:58:59<9:50:44, 33.25s/it]                                                      {'loss': 0.178, 'grad_norm': 0.34348809719085693, 'learning_rate': 8.363301868506264e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1165.84, 'total_tokens': 119142524, 'epoch': 0.87}
+ 29%|██▉       | 434/1500 [3:58:59<9:50:44, 33.25s/it] 29%|██▉       | 435/1500 [3:59:32<9:48:33, 33.16s/it]                                                      {'loss': 0.173, 'grad_norm': 0.3690783381462097, 'learning_rate': 8.355289092764127e-06, 'memory/max_active (GiB)': 52.48, 'memory/max_allocated (GiB)': 52.48, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1449.76, 'total_tokens': 119421488, 'epoch': 0.87}
+ 29%|██▉       | 435/1500 [3:59:32<9:48:33, 33.16s/it] 29%|██▉       | 436/1500 [4:00:06<9:53:08, 33.45s/it]                                                      {'loss': 0.1706, 'grad_norm': 0.3368064761161804, 'learning_rate': 8.347260609911879e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1084.9, 'total_tokens': 119725761, 'epoch': 0.87}
+ 29%|██▉       | 436/1500 [4:00:06<9:53:08, 33.45s/it] 29%|██▉       | 437/1500 [4:00:40<9:52:20, 33.43s/it]                                                      {'loss': 0.1723, 'grad_norm': 0.3478485345840454, 'learning_rate': 8.339216457533244e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1051.48, 'total_tokens': 119994079, 'epoch': 0.87}
+ 29%|██▉       | 437/1500 [4:00:40<9:52:20, 33.43s/it] 29%|██▉       | 438/1500 [4:01:13<9:50:30, 33.36s/it]                                                      {'loss': 0.1581, 'grad_norm': 0.3141862154006958, 'learning_rate': 8.3311566732853e-06, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 933.6, 'total_tokens': 120289421, 'epoch': 0.88}
+ 29%|██▉       | 438/1500 [4:01:13<9:50:30, 33.36s/it] 29%|██▉       | 439/1500 [4:01:47<9:52:03, 33.48s/it]                                                      {'loss': 0.1561, 'grad_norm': 0.33205026388168335, 'learning_rate': 8.323081294898308e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 765.12, 'total_tokens': 120551659, 'epoch': 0.88}
+ 29%|██▉       | 439/1500 [4:01:47<9:52:03, 33.48s/it] 29%|██▉       | 440/1500 [4:02:19<9:47:06, 33.23s/it]                                                      {'loss': 0.1623, 'grad_norm': 0.3418479263782501, 'learning_rate': 8.314990360175521e-06, 'memory/max_active (GiB)': 51.44, 'memory/max_allocated (GiB)': 51.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 888.36, 'total_tokens': 120813792, 'epoch': 0.88}
+ 29%|██▉       | 440/1500 [4:02:19<9:47:06, 33.23s/it] 29%|██▉       | 441/1500 [4:02:51<9:40:12, 32.87s/it]                                                      {'loss': 0.1678, 'grad_norm': 0.362060546875, 'learning_rate': 8.306883906993022e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1011.62, 'total_tokens': 121074589, 'epoch': 0.88}
+ 29%|██▉       | 441/1500 [4:02:51<9:40:12, 32.87s/it] 29%|██▉       | 442/1500 [4:03:24<9:36:21, 32.69s/it]                                                      {'loss': 0.1647, 'grad_norm': 0.3551560938358307, 'learning_rate': 8.298761973299538e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 810.24, 'total_tokens': 121325380, 'epoch': 0.88}
+ 29%|██▉       | 442/1500 [4:03:24<9:36:21, 32.69s/it] 30%|██▉       | 443/1500 [4:03:57<9:36:26, 32.72s/it]                                                      {'loss': 0.1747, 'grad_norm': 0.37011227011680603, 'learning_rate': 8.290624597116266e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1101.41, 'total_tokens': 121626391, 'epoch': 0.89}
+ 30%|██▉       | 443/1500 [4:03:57<9:36:26, 32.72s/it] 30%|██▉       | 444/1500 [4:04:29<9:32:24, 32.52s/it]                                                      {'loss': 0.1666, 'grad_norm': 0.36842817068099976, 'learning_rate': 8.282471816536696e-06, 'memory/max_active (GiB)': 50.55, 'memory/max_allocated (GiB)': 50.55, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 837.77, 'total_tokens': 121888511, 'epoch': 0.89}
+ 30%|██▉       | 444/1500 [4:04:29<9:32:24, 32.52s/it] 30%|██▉       | 445/1500 [4:05:03<9:41:24, 33.07s/it]                                                      {'loss': 0.1728, 'grad_norm': 0.359541654586792, 'learning_rate': 8.274303669726427e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1186.21, 'total_tokens': 122175755, 'epoch': 0.89}
+ 30%|██▉       | 445/1500 [4:05:03<9:41:24, 33.07s/it] 30%|██▉       | 446/1500 [4:05:35<9:34:48, 32.72s/it]                                                      {'loss': 0.1748, 'grad_norm': 0.37693923711776733, 'learning_rate': 8.266120194922991e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1234.93, 'total_tokens': 122438751, 'epoch': 0.89}
+ 30%|██▉       | 446/1500 [4:05:35<9:34:48, 32.72s/it] 30%|██▉       | 447/1500 [4:06:08<9:37:53, 32.93s/it]                                                      {'loss': 0.1654, 'grad_norm': 0.3390147387981415, 'learning_rate': 8.257921430435678e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1132.41, 'total_tokens': 122729149, 'epoch': 0.89}
+ 30%|██▉       | 447/1500 [4:06:08<9:37:53, 32.93s/it] 30%|██▉       | 448/1500 [4:06:42<9:41:24, 33.16s/it]                                                      {'loss': 0.1618, 'grad_norm': 0.3312131464481354, 'learning_rate': 8.249707414645356e-06, 'memory/max_active (GiB)': 51.01, 'memory/max_allocated (GiB)': 51.01, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 817.13, 'total_tokens': 123019491, 'epoch': 0.9}
+ 30%|██▉       | 448/1500 [4:06:42<9:41:24, 33.16s/it] 30%|██▉       | 449/1500 [4:07:13<9:28:50, 32.47s/it]                                                      {'loss': 0.1756, 'grad_norm': 0.3735899329185486, 'learning_rate': 8.24147818600428e-06, 'memory/max_active (GiB)': 50.75, 'memory/max_allocated (GiB)': 50.75, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1023.76, 'total_tokens': 123286576, 'epoch': 0.9}
+ 30%|██▉       | 449/1500 [4:07:13<9:28:50, 32.47s/it] 30%|███       | 450/1500 [4:07:47<9:35:12, 32.87s/it]                                                      {'loss': 0.1631, 'grad_norm': 0.35073596239089966, 'learning_rate': 8.233233783035932e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1049.3, 'total_tokens': 123561283, 'epoch': 0.9}
+ 30%|███       | 450/1500 [4:07:47<9:35:12, 32.87s/it] 30%|███       | 451/1500 [4:08:20<9:35:54, 32.94s/it]                                                      {'loss': 0.1646, 'grad_norm': 0.34618860483169556, 'learning_rate': 8.22497424433482e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1034.21, 'total_tokens': 123854454, 'epoch': 0.9}
+ 30%|███       | 451/1500 [4:08:20<9:35:54, 32.94s/it] 30%|███       | 452/1500 [4:08:53<9:37:13, 33.05s/it]                                                      {'loss': 0.1584, 'grad_norm': 0.32393574714660645, 'learning_rate': 8.216699608566313e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1164.04, 'total_tokens': 124148197, 'epoch': 0.9}
+ 30%|███       | 452/1500 [4:08:53<9:37:13, 33.05s/it] 30%|███       | 453/1500 [4:09:25<9:29:00, 32.61s/it]                                                      {'loss': 0.1716, 'grad_norm': 0.37441569566726685, 'learning_rate': 8.20840991446645e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1161.83, 'total_tokens': 124415840, 'epoch': 0.91}
+ 30%|███       | 453/1500 [4:09:25<9:29:00, 32.61s/it] 30%|███       | 454/1500 [4:09:58<9:30:50, 32.74s/it]                                                      {'loss': 0.163, 'grad_norm': 0.33308878540992737, 'learning_rate': 8.200105200841768e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1306.91, 'total_tokens': 124699022, 'epoch': 0.91}
+ 30%|███       | 454/1500 [4:09:58<9:30:50, 32.74s/it] 30%|███       | 455/1500 [4:10:30<9:27:18, 32.57s/it]                                                      {'loss': 0.1651, 'grad_norm': 0.35752159357070923, 'learning_rate': 8.191785506569107e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1133.07, 'total_tokens': 124969065, 'epoch': 0.91}
+ 30%|███       | 455/1500 [4:10:30<9:27:18, 32.57s/it] 30%|███       | 456/1500 [4:11:02<9:26:03, 32.53s/it]                                                      {'loss': 0.1705, 'grad_norm': 0.37427857518196106, 'learning_rate': 8.183450870595443e-06, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 852.34, 'total_tokens': 125234067, 'epoch': 0.91}
+ 30%|███       | 456/1500 [4:11:02<9:26:03, 32.53s/it] 30%|███       | 457/1500 [4:11:35<9:27:21, 32.64s/it]                                                      {'loss': 0.1731, 'grad_norm': 0.3940282464027405, 'learning_rate': 8.175101331937692e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 892.6, 'total_tokens': 125505430, 'epoch': 0.91}
+ 30%|███       | 457/1500 [4:11:35<9:27:21, 32.64s/it] 31%|███       | 458/1500 [4:12:09<9:31:37, 32.92s/it]                                                      {'loss': 0.1623, 'grad_norm': 0.3402056396007538, 'learning_rate': 8.166736929682542e-06, 'memory/max_active (GiB)': 50.87, 'memory/max_allocated (GiB)': 50.87, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 868.95, 'total_tokens': 125798660, 'epoch': 0.92}
+ 31%|███       | 458/1500 [4:12:09<9:31:37, 32.92s/it] 31%|███       | 459/1500 [4:12:40<9:20:01, 32.28s/it]                                                      {'loss': 0.1561, 'grad_norm': 0.3638019859790802, 'learning_rate': 8.158357702986255e-06, 'memory/max_active (GiB)': 51.37, 'memory/max_allocated (GiB)': 51.37, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1033.41, 'total_tokens': 126039893, 'epoch': 0.92}
+ 31%|███       | 459/1500 [4:12:40<9:20:01, 32.28s/it] 31%|███       | 460/1500 [4:13:13<9:25:58, 32.65s/it]                                                      {'loss': 0.1654, 'grad_norm': 0.3917490243911743, 'learning_rate': 8.149963691074494e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1036.14, 'total_tokens': 126306184, 'epoch': 0.92}
+ 31%|███       | 460/1500 [4:13:13<9:25:58, 32.65s/it] 31%|███       | 461/1500 [4:13:46<9:25:07, 32.64s/it]                                                      {'loss': 0.1652, 'grad_norm': 0.33855682611465454, 'learning_rate': 8.141554933242135e-06, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 934.91, 'total_tokens': 126578641, 'epoch': 0.92}
+ 31%|███       | 461/1500 [4:13:46<9:25:07, 32.64s/it] 31%|███       | 462/1500 [4:14:20<9:32:18, 33.08s/it]                                                      {'loss': 0.168, 'grad_norm': 0.3546893298625946, 'learning_rate': 8.133131468853084e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1118.78, 'total_tokens': 126845331, 'epoch': 0.92}
+ 31%|███       | 462/1500 [4:14:20<9:32:18, 33.08s/it] 31%|███       | 463/1500 [4:14:52<9:28:54, 32.92s/it]                                                      {'loss': 0.16, 'grad_norm': 0.3314374089241028, 'learning_rate': 8.124693337340093e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1230.14, 'total_tokens': 127134381, 'epoch': 0.93}
+ 31%|███       | 463/1500 [4:14:52<9:28:54, 32.92s/it] 31%|███       | 464/1500 [4:15:26<9:33:12, 33.20s/it]                                                      {'loss': 0.1644, 'grad_norm': 0.3325590491294861, 'learning_rate': 8.116240578204576e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1060.81, 'total_tokens': 127409817, 'epoch': 0.93}
+ 31%|███       | 464/1500 [4:15:26<9:33:12, 33.20s/it] 31%|███       | 465/1500 [4:15:59<9:31:47, 33.15s/it]                                                      {'loss': 0.1727, 'grad_norm': 0.3310496211051941, 'learning_rate': 8.10777323101642e-06, 'memory/max_active (GiB)': 51.44, 'memory/max_allocated (GiB)': 51.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1115.87, 'total_tokens': 127703239, 'epoch': 0.93}
+ 31%|███       | 465/1500 [4:15:59<9:31:47, 33.15s/it] 31%|███       | 466/1500 [4:16:31<9:22:30, 32.64s/it]                                                      {'loss': 0.1606, 'grad_norm': 0.35498449206352234, 'learning_rate': 8.09929133541381e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1148.68, 'total_tokens': 127976164, 'epoch': 0.93}
+ 31%|███       | 466/1500 [4:16:31<9:22:30, 32.64s/it] 31%|███       | 467/1500 [4:17:04<9:27:07, 32.94s/it]                                                      {'loss': 0.16, 'grad_norm': 0.3851897120475769, 'learning_rate': 8.090794931103026e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 958.58, 'total_tokens': 128254956, 'epoch': 0.93}
+ 31%|███       | 467/1500 [4:17:04<9:27:07, 32.94s/it] 31%|███       | 468/1500 [4:17:37<9:24:57, 32.85s/it]                                                      {'loss': 0.168, 'grad_norm': 0.3402138352394104, 'learning_rate': 8.082284057858278e-06, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 912.46, 'total_tokens': 128540349, 'epoch': 0.94}
+ 31%|███       | 468/1500 [4:17:37<9:24:57, 32.85s/it] 31%|███▏      | 469/1500 [4:18:10<9:26:33, 32.97s/it]                                                      {'loss': 0.1657, 'grad_norm': 0.3370703160762787, 'learning_rate': 8.073758755521506e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1083.83, 'total_tokens': 128813189, 'epoch': 0.94}
+ 31%|███▏      | 469/1500 [4:18:10<9:26:33, 32.97s/it] 31%|███▏      | 470/1500 [4:18:43<9:26:03, 32.97s/it]                                                      {'loss': 0.163, 'grad_norm': 0.3485984206199646, 'learning_rate': 8.06521906400219e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 813.26, 'total_tokens': 129062187, 'epoch': 0.94}
+ 31%|███▏      | 470/1500 [4:18:43<9:26:03, 32.97s/it] 31%|███▏      | 471/1500 [4:19:15<9:18:23, 32.56s/it]                                                      {'loss': 0.167, 'grad_norm': 0.36873894929885864, 'learning_rate': 8.056665023277182e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 855.93, 'total_tokens': 129346746, 'epoch': 0.94}
+ 31%|███▏      | 471/1500 [4:19:15<9:18:23, 32.56s/it] 31%|███▏      | 472/1500 [4:19:47<9:18:30, 32.60s/it]                                                      {'loss': 0.1719, 'grad_norm': 0.3325141966342926, 'learning_rate': 8.048096673390498e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1179.31, 'total_tokens': 129632001, 'epoch': 0.94}
+ 31%|███▏      | 472/1500 [4:19:47<9:18:30, 32.60s/it] 32%|███▏      | 473/1500 [4:20:19<9:15:06, 32.43s/it]                                                      {'loss': 0.1679, 'grad_norm': 0.34484198689460754, 'learning_rate': 8.03951405445314e-06, 'memory/max_active (GiB)': 50.2, 'memory/max_allocated (GiB)': 50.2, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 910.0, 'total_tokens': 129887292, 'epoch': 0.95}
+ 32%|███▏      | 473/1500 [4:20:19<9:15:06, 32.43s/it] 32%|███▏      | 474/1500 [4:20:53<9:21:42, 32.85s/it]                                                      {'loss': 0.1714, 'grad_norm': 0.35274213552474976, 'learning_rate': 8.030917206642916e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1012.7, 'total_tokens': 130164993, 'epoch': 0.95}
+ 32%|███▏      | 474/1500 [4:20:53<9:21:42, 32.85s/it] 32%|███▏      | 475/1500 [4:21:27<9:26:55, 33.19s/it]                                                      {'loss': 0.1596, 'grad_norm': 0.36127135157585144, 'learning_rate': 8.022306170204233e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1244.62, 'total_tokens': 130435391, 'epoch': 0.95}
+ 32%|███▏      | 475/1500 [4:21:27<9:26:55, 33.19s/it] 32%|███▏      | 476/1500 [4:22:00<9:22:53, 32.98s/it]                                                      {'loss': 0.1621, 'grad_norm': 0.363247275352478, 'learning_rate': 8.013680985447924e-06, 'memory/max_active (GiB)': 50.68, 'memory/max_allocated (GiB)': 50.68, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 896.71, 'total_tokens': 130708425, 'epoch': 0.95}
+ 32%|███▏      | 476/1500 [4:22:00<9:22:53, 32.98s/it] 32%|███▏      | 477/1500 [4:22:34<9:28:24, 33.34s/it]                                                      {'loss': 0.1759, 'grad_norm': 0.37199124693870544, 'learning_rate': 8.005041692751055e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1189.11, 'total_tokens': 131010188, 'epoch': 0.95}
+ 32%|███▏      | 477/1500 [4:22:34<9:28:24, 33.34s/it] 32%|███▏      | 478/1500 [4:23:08<9:30:25, 33.49s/it]                                                      {'loss': 0.1659, 'grad_norm': 0.33598044514656067, 'learning_rate': 7.996388332556735e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1097.31, 'total_tokens': 131281043, 'epoch': 0.96}
+ 32%|███▏      | 478/1500 [4:23:08<9:30:25, 33.49s/it] 32%|███▏      | 479/1500 [4:23:41<9:27:33, 33.35s/it]                                                      {'loss': 0.1614, 'grad_norm': 0.32460302114486694, 'learning_rate': 7.987720945373928e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1170.33, 'total_tokens': 131571895, 'epoch': 0.96}
+ 32%|███▏      | 479/1500 [4:23:41<9:27:33, 33.35s/it] 32%|███▏      | 480/1500 [4:24:15<9:31:13, 33.60s/it]                                                      {'loss': 0.168, 'grad_norm': 0.34778159856796265, 'learning_rate': 7.979039571777258e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 940.81, 'total_tokens': 131856626, 'epoch': 0.96}
+ 32%|███▏      | 480/1500 [4:24:15<9:31:13, 33.60s/it] 32%|███▏      | 481/1500 [4:24:48<9:25:37, 33.31s/it]                                                      {'loss': 0.1595, 'grad_norm': 0.3502328097820282, 'learning_rate': 7.970344252406832e-06, 'memory/max_active (GiB)': 51.3, 'memory/max_allocated (GiB)': 51.3, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 753.14, 'total_tokens': 132108867, 'epoch': 0.96}
+ 32%|███▏      | 481/1500 [4:24:48<9:25:37, 33.31s/it] 32%|███▏      | 482/1500 [4:25:20<9:19:57, 33.00s/it]                                                      {'loss': 0.1681, 'grad_norm': 0.34832507371902466, 'learning_rate': 7.961635027968033e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1090.34, 'total_tokens': 132371451, 'epoch': 0.96}
+ 32%|███▏      | 482/1500 [4:25:20<9:19:57, 33.00s/it] 32%|███▏      | 483/1500 [4:25:52<9:16:09, 32.81s/it]                                                      {'loss': 0.161, 'grad_norm': 0.32858747243881226, 'learning_rate': 7.95291193923134e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1049.67, 'total_tokens': 132639621, 'epoch': 0.97}
+ 32%|███▏      | 483/1500 [4:25:52<9:16:09, 32.81s/it] 32%|███▏      | 484/1500 [4:26:25<9:15:35, 32.81s/it]                                                      {'loss': 0.1704, 'grad_norm': 0.3436122536659241, 'learning_rate': 7.944175027032138e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1039.13, 'total_tokens': 132918745, 'epoch': 0.97}
+ 32%|███▏      | 484/1500 [4:26:25<9:15:35, 32.81s/it] 32%|███▏      | 485/1500 [4:26:59<9:20:44, 33.15s/it]                                                      {'loss': 0.1703, 'grad_norm': 0.311858206987381, 'learning_rate': 7.935424332270523e-06, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 936.94, 'total_tokens': 133225625, 'epoch': 0.97}
+ 32%|███▏      | 485/1500 [4:26:59<9:20:44, 33.15s/it] 32%|███▏      | 486/1500 [4:27:31<9:16:20, 32.92s/it]                                                      {'loss': 0.1547, 'grad_norm': 0.3456462323665619, 'learning_rate': 7.926659895911108e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1256.69, 'total_tokens': 133482967, 'epoch': 0.97}
+ 32%|███▏      | 486/1500 [4:27:31<9:16:20, 32.92s/it] 32%|███▏      | 487/1500 [4:28:04<9:16:11, 32.94s/it]                                                      {'loss': 0.168, 'grad_norm': 0.32493704557418823, 'learning_rate': 7.917881758982838e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 815.02, 'total_tokens': 133773689, 'epoch': 0.97}
+ 32%|███▏      | 487/1500 [4:28:04<9:16:11, 32.94s/it] 33%|███▎      | 488/1500 [4:28:37<9:14:36, 32.88s/it]                                                      {'loss': 0.1644, 'grad_norm': 0.32830488681793213, 'learning_rate': 7.90908996257879e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1053.08, 'total_tokens': 134049772, 'epoch': 0.98}
+ 33%|███▎      | 488/1500 [4:28:37<9:14:36, 32.88s/it] 33%|███▎      | 489/1500 [4:29:10<9:16:04, 33.00s/it]                                                      {'loss': 0.1706, 'grad_norm': 0.3457072079181671, 'learning_rate': 7.900284547855992e-06, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1229.59, 'total_tokens': 134325741, 'epoch': 0.98}
+ 33%|███▎      | 489/1500 [4:29:10<9:16:04, 33.00s/it] 33%|███▎      | 490/1500 [4:29:44<9:16:07, 33.04s/it]                                                      {'loss': 0.1643, 'grad_norm': 0.3520868420600891, 'learning_rate': 7.891465556035219e-06, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 757.43, 'total_tokens': 134562352, 'epoch': 0.98}
+ 33%|███▎      | 490/1500 [4:29:44<9:16:07, 33.04s/it] 33%|███▎      | 491/1500 [4:30:17<9:16:29, 33.09s/it]                                                      {'loss': 0.1608, 'grad_norm': 0.38455989956855774, 'learning_rate': 7.882633028400801e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1074.0, 'total_tokens': 134808658, 'epoch': 0.98}
+ 33%|███▎      | 491/1500 [4:30:17<9:16:29, 33.09s/it] 33%|███▎      | 492/1500 [4:30:50<9:17:57, 33.21s/it]                                                      {'loss': 0.1594, 'grad_norm': 0.3496550917625427, 'learning_rate': 7.873787006300441e-06, 'memory/max_active (GiB)': 50.55, 'memory/max_allocated (GiB)': 50.55, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 738.73, 'total_tokens': 135054394, 'epoch': 0.98}
+ 33%|███▎      | 492/1500 [4:30:50<9:17:57, 33.21s/it] 33%|███▎      | 493/1500 [4:31:21<9:07:22, 32.61s/it]                                                      {'loss': 0.1603, 'grad_norm': 0.3571399450302124, 'learning_rate': 7.864927531145012e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1078.65, 'total_tokens': 135311518, 'epoch': 0.99}
+ 33%|███▎      | 493/1500 [4:31:21<9:07:22, 32.61s/it] 33%|███▎      | 494/1500 [4:31:55<9:12:05, 32.93s/it]                                                      {'loss': 0.1611, 'grad_norm': 0.32817691564559937, 'learning_rate': 7.856054644408357e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1027.73, 'total_tokens': 135595604, 'epoch': 0.99}
+ 33%|███▎      | 494/1500 [4:31:55<9:12:05, 32.93s/it] 33%|███▎      | 495/1500 [4:32:27<9:07:36, 32.69s/it]                                                      {'loss': 0.1616, 'grad_norm': 0.3420311510562897, 'learning_rate': 7.84716838762711e-06, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 970.5, 'total_tokens': 135869713, 'epoch': 0.99}
+ 33%|███▎      | 495/1500 [4:32:27<9:07:36, 32.69s/it] 33%|███▎      | 496/1500 [4:33:01<9:13:17, 33.06s/it]                                                      {'loss': 0.1572, 'grad_norm': 0.3852003216743469, 'learning_rate': 7.838268802400496e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1015.54, 'total_tokens': 136138820, 'epoch': 0.99}
+ 33%|███▎      | 496/1500 [4:33:01<9:13:17, 33.06s/it] 33%|███▎      | 497/1500 [4:33:34<9:11:11, 32.97s/it]                                                      {'loss': 0.1501, 'grad_norm': 0.33842793107032776, 'learning_rate': 7.829355930390126e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1331.25, 'total_tokens': 136424112, 'epoch': 0.99}
+ 33%|███▎      | 497/1500 [4:33:34<9:11:11, 32.97s/it] 33%|███▎      | 498/1500 [4:34:06<9:04:07, 32.58s/it]                                                      {'loss': 0.165, 'grad_norm': 0.370911180973053, 'learning_rate': 7.82042981331982e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1101.95, 'total_tokens': 136691389, 'epoch': 1.0}
+ 33%|███▎      | 498/1500 [4:34:06<9:04:07, 32.58s/it] 33%|███▎      | 499/1500 [4:34:39<9:08:38, 32.89s/it]                                                      {'loss': 0.1653, 'grad_norm': 0.3809069097042084, 'learning_rate': 7.81149049297539e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 849.97, 'total_tokens': 136974661, 'epoch': 1.0}
+ 33%|███▎      | 499/1500 [4:34:39<9:08:38, 32.89s/it] 33%|███▎      | 500/1500 [4:35:14<9:15:20, 33.32s/it]                                                      {'loss': 0.1647, 'grad_norm': 0.3518074154853821, 'learning_rate': 7.80253801120447e-06, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1154.31, 'total_tokens': 137272628, 'epoch': 1.0}
+ 33%|███▎      | 500/1500 [4:35:14<9:15:20, 33.32s/it][2026-01-25 17:03:15,812] [INFO] [axolotl.core.trainers.base._save:676] [PID:443] Saving model checkpoint to /weka/oe-adapt-default/ethans/llm-weights/axolotl/Qwen3-8B-r0.945_16000_stage2_scaling_final_glm45a_e2e_3ipf_resolved_soft_t0_ipf_1/checkpoint-500
+ 33%|███▎      | 501/1500 [4:36:54<14:47:40, 53.31s/it]                                                       {'loss': 0.1428, 'grad_norm': 0.3703153431415558, 'learning_rate': 7.7935724099163e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 891.87, 'total_tokens': 137532578, 'epoch': 1.0}
+ 33%|███▎      | 501/1500 [4:36:54<14:47:40, 53.31s/it] 33%|███▎      | 502/1500 [4:37:25<12:58:40, 46.81s/it]                                                       {'loss': 0.1354, 'grad_norm': 0.34692561626434326, 'learning_rate': 7.784593731081534e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1075.83, 'total_tokens': 137806211, 'epoch': 1.0}
+ 33%|███▎      | 502/1500 [4:37:25<12:58:40, 46.81s/it] 34%|███▎      | 503/1500 [4:37:58<11:47:46, 42.59s/it]                                                       {'loss': 0.1512, 'grad_norm': 0.3398914635181427, 'learning_rate': 7.775602016732051e-06, 'memory/max_active (GiB)': 51.01, 'memory/max_allocated (GiB)': 51.01, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 693.26, 'total_tokens': 138073525, 'epoch': 1.01}
+ 34%|███▎      | 503/1500 [4:37:58<11:47:46, 42.59s/it] 34%|███▎      | 504/1500 [4:38:32<11:03:47, 39.99s/it]                                                       {'loss': 0.1356, 'grad_norm': 0.3163096308708191, 'learning_rate': 7.766597308960749e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1089.13, 'total_tokens': 138360182, 'epoch': 1.01}
+ 34%|███▎      | 504/1500 [4:38:32<11:03:47, 39.99s/it] 34%|███▎      | 505/1500 [4:39:05<10:27:42, 37.85s/it]                                                       {'loss': 0.1434, 'grad_norm': 0.3220653235912323, 'learning_rate': 7.757579649921354e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1105.38, 'total_tokens': 138668405, 'epoch': 1.01}
+ 34%|███▎      | 505/1500 [4:39:05<10:27:42, 37.85s/it] 34%|███▎      | 506/1500 [4:39:38<10:03:36, 36.44s/it]                                                       {'loss': 0.133, 'grad_norm': 0.33355098962783813, 'learning_rate': 7.748549081828222e-06, 'memory/max_active (GiB)': 51.98, 'memory/max_allocated (GiB)': 51.98, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 971.26, 'total_tokens': 138945940, 'epoch': 1.01}
+ 34%|███▎      | 506/1500 [4:39:38<10:03:36, 36.44s/it] 34%|███▍      | 507/1500 [4:40:11<9:48:30, 35.56s/it]                                                       {'loss': 0.1429, 'grad_norm': 0.3409914970397949, 'learning_rate': 7.739505646956136e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1202.51, 'total_tokens': 139213773, 'epoch': 1.01}
+ 34%|███▍      | 507/1500 [4:40:11<9:48:30, 35.56s/it] 34%|███▍      | 508/1500 [4:40:44<9:35:26, 34.81s/it]                                                      {'loss': 0.1389, 'grad_norm': 0.3138734698295593, 'learning_rate': 7.730449387640117e-06, 'memory/max_active (GiB)': 52.48, 'memory/max_allocated (GiB)': 52.48, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 965.25, 'total_tokens': 139501622, 'epoch': 1.02}
+ 34%|███▍      | 508/1500 [4:40:44<9:35:26, 34.81s/it] 34%|███▍      | 509/1500 [4:41:18<9:29:01, 34.45s/it]                                                      {'loss': 0.1477, 'grad_norm': 0.35254618525505066, 'learning_rate': 7.721380346275221e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 969.88, 'total_tokens': 139777752, 'epoch': 1.02}
+ 34%|███▍      | 509/1500 [4:41:18<9:29:01, 34.45s/it] 34%|███▍      | 510/1500 [4:41:52<9:28:04, 34.43s/it]                                                      {'loss': 0.1466, 'grad_norm': 0.3240818381309509, 'learning_rate': 7.712298565316333e-06, 'memory/max_active (GiB)': 50.07, 'memory/max_allocated (GiB)': 50.07, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 812.48, 'total_tokens': 140049699, 'epoch': 1.02}
+ 34%|███▍      | 510/1500 [4:41:52<9:28:04, 34.43s/it] 34%|███▍      | 511/1500 [4:42:24<9:12:56, 33.55s/it]                                                      {'loss': 0.1431, 'grad_norm': 0.32770639657974243, 'learning_rate': 7.703204087277989e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1117.26, 'total_tokens': 140326766, 'epoch': 1.02}
+ 34%|███▍      | 511/1500 [4:42:24<9:12:56, 33.55s/it] 34%|███▍      | 512/1500 [4:42:57<9:08:44, 33.32s/it]                                                      {'loss': 0.1372, 'grad_norm': 0.3327570855617523, 'learning_rate': 7.69409695473415e-06, 'memory/max_active (GiB)': 49.58, 'memory/max_allocated (GiB)': 49.58, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 593.42, 'total_tokens': 140580150, 'epoch': 1.02}
+ 34%|███▍      | 512/1500 [4:42:57<9:08:44, 33.32s/it] 34%|███▍      | 513/1500 [4:43:30<9:10:02, 33.44s/it]                                                      {'loss': 0.1418, 'grad_norm': 0.3419269919395447, 'learning_rate': 7.684977210318024e-06, 'memory/max_active (GiB)': 51.76, 'memory/max_allocated (GiB)': 51.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 914.84, 'total_tokens': 140837773, 'epoch': 1.03}
+ 34%|███▍      | 513/1500 [4:43:30<9:10:02, 33.44s/it] 34%|███▍      | 514/1500 [4:44:05<9:12:57, 33.65s/it]                                                      {'loss': 0.1405, 'grad_norm': 0.3281804323196411, 'learning_rate': 7.675844896721857e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 804.73, 'total_tokens': 141118987, 'epoch': 1.03}
+ 34%|███▍      | 514/1500 [4:44:05<9:12:57, 33.65s/it] 34%|███▍      | 515/1500 [4:44:37<9:06:58, 33.32s/it]                                                      {'loss': 0.1445, 'grad_norm': 0.3493219316005707, 'learning_rate': 7.66670005669674e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 871.99, 'total_tokens': 141376095, 'epoch': 1.03}
+ 34%|███▍      | 515/1500 [4:44:37<9:06:58, 33.32s/it] 34%|███▍      | 516/1500 [4:45:10<9:04:33, 33.20s/it]                                                      {'loss': 0.1425, 'grad_norm': 0.3224937915802002, 'learning_rate': 7.657542733052396e-06, 'memory/max_active (GiB)': 51.12, 'memory/max_allocated (GiB)': 51.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 983.19, 'total_tokens': 141651706, 'epoch': 1.03}
+ 34%|███▍      | 516/1500 [4:45:10<9:04:33, 33.20s/it] 34%|███▍      | 517/1500 [4:45:44<9:05:32, 33.30s/it]                                                      {'loss': 0.1397, 'grad_norm': 0.4280375838279724, 'learning_rate': 7.648372968656995e-06, 'memory/max_active (GiB)': 51.47, 'memory/max_allocated (GiB)': 51.47, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1093.05, 'total_tokens': 141942082, 'epoch': 1.03}
+ 34%|███▍      | 517/1500 [4:45:44<9:05:32, 33.30s/it] 35%|███▍      | 518/1500 [4:46:18<9:09:52, 33.60s/it]                                                      {'loss': 0.1374, 'grad_norm': 0.36606407165527344, 'learning_rate': 7.639190806436936e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 931.53, 'total_tokens': 142221107, 'epoch': 1.04}
+ 35%|███▍      | 518/1500 [4:46:18<9:09:52, 33.60s/it] 35%|███▍      | 519/1500 [4:46:50<9:03:09, 33.22s/it]                                                      {'loss': 0.143, 'grad_norm': 0.3213047385215759, 'learning_rate': 7.629996289376667e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1100.52, 'total_tokens': 142495884, 'epoch': 1.04}
+ 35%|███▍      | 519/1500 [4:46:50<9:03:09, 33.22s/it] 35%|███▍      | 520/1500 [4:47:24<9:06:41, 33.47s/it]                                                      {'loss': 0.145, 'grad_norm': 0.3279798626899719, 'learning_rate': 7.620789460518465e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1073.18, 'total_tokens': 142796242, 'epoch': 1.04}
+ 35%|███▍      | 520/1500 [4:47:24<9:06:41, 33.47s/it] 35%|███▍      | 521/1500 [4:47:58<9:07:06, 33.53s/it]                                                      {'loss': 0.1421, 'grad_norm': 0.3266524374485016, 'learning_rate': 7.611570362962247e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1115.9, 'total_tokens': 143082620, 'epoch': 1.04}
+ 35%|███▍      | 521/1500 [4:47:58<9:07:06, 33.53s/it] 35%|███▍      | 522/1500 [4:48:31<9:05:01, 33.44s/it]                                                      {'loss': 0.1402, 'grad_norm': 0.3286488354206085, 'learning_rate': 7.602339039865362e-06, 'memory/max_active (GiB)': 51.63, 'memory/max_allocated (GiB)': 51.63, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 908.63, 'total_tokens': 143365743, 'epoch': 1.04}
+ 35%|███▍      | 522/1500 [4:48:31<9:05:01, 33.44s/it] 35%|███▍      | 523/1500 [4:49:05<9:04:36, 33.45s/it]                                                      {'loss': 0.1475, 'grad_norm': 0.41635197401046753, 'learning_rate': 7.593095534442387e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1021.09, 'total_tokens': 143657531, 'epoch': 1.05}
+ 35%|███▍      | 523/1500 [4:49:05<9:04:36, 33.45s/it] 35%|███▍      | 524/1500 [4:49:38<9:03:18, 33.40s/it]                                                      {'loss': 0.1466, 'grad_norm': 0.3391008675098419, 'learning_rate': 7.583839889964934e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1018.8, 'total_tokens': 143914031, 'epoch': 1.05}
+ 35%|███▍      | 524/1500 [4:49:38<9:03:18, 33.40s/it] 35%|███▌      | 525/1500 [4:50:11<9:00:46, 33.28s/it]                                                      {'loss': 0.1385, 'grad_norm': 0.3353535532951355, 'learning_rate': 7.574572149761437e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1065.32, 'total_tokens': 144179227, 'epoch': 1.05}
+ 35%|███▌      | 525/1500 [4:50:11<9:00:46, 33.28s/it] 35%|███▌      | 526/1500 [4:50:45<9:05:03, 33.58s/it]                                                      {'loss': 0.1411, 'grad_norm': 0.30443260073661804, 'learning_rate': 7.5652923572169534e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1459.42, 'total_tokens': 144475991, 'epoch': 1.05}
+ 35%|███▌      | 526/1500 [4:50:45<9:05:03, 33.58s/it] 35%|███▌      | 527/1500 [4:51:15<8:47:42, 32.54s/it]                                                      {'loss': 0.1401, 'grad_norm': 0.3519534766674042, 'learning_rate': 7.5560005557729664e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1173.81, 'total_tokens': 144730954, 'epoch': 1.05}
+ 35%|███▌      | 527/1500 [4:51:15<8:47:42, 32.54s/it] 35%|███▌      | 528/1500 [4:51:45<8:34:53, 31.78s/it]                                                      {'loss': 0.1398, 'grad_norm': 0.3258829414844513, 'learning_rate': 7.546696788927172e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1133.0, 'total_tokens': 144996545, 'epoch': 1.06}
+ 35%|███▌      | 528/1500 [4:51:45<8:34:53, 31.78s/it] 35%|███▌      | 529/1500 [4:52:20<8:48:30, 32.66s/it]                                                      {'loss': 0.1305, 'grad_norm': 0.3107506036758423, 'learning_rate': 7.5373811002332785e-06, 'memory/max_active (GiB)': 50.68, 'memory/max_allocated (GiB)': 50.68, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 740.83, 'total_tokens': 145255770, 'epoch': 1.06}
+ 35%|███▌      | 529/1500 [4:52:20<8:48:30, 32.66s/it] 35%|███▌      | 530/1500 [4:52:51<8:42:19, 32.31s/it]                                                      {'loss': 0.1418, 'grad_norm': 0.3629027307033539, 'learning_rate': 7.52805353330081e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1060.62, 'total_tokens': 145506545, 'epoch': 1.06}
+ 35%|███▌      | 530/1500 [4:52:51<8:42:19, 32.31s/it] 35%|███▌      | 531/1500 [4:53:25<8:46:23, 32.59s/it]                                                      {'loss': 0.14, 'grad_norm': 0.3334236145019531, 'learning_rate': 7.518714131794889e-06, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 932.24, 'total_tokens': 145779602, 'epoch': 1.06}
+ 35%|███▌      | 531/1500 [4:53:25<8:46:23, 32.59s/it] 35%|███▌      | 532/1500 [4:53:58<8:48:50, 32.78s/it]                                                      {'loss': 0.1437, 'grad_norm': 0.3154222071170807, 'learning_rate': 7.509362939436045e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1270.24, 'total_tokens': 146057873, 'epoch': 1.06}
+ 35%|███▌      | 532/1500 [4:53:58<8:48:50, 32.78s/it] 36%|███▌      | 533/1500 [4:54:30<8:44:29, 32.54s/it]                                                      {'loss': 0.1443, 'grad_norm': 0.33293992280960083, 'learning_rate': 7.500000000000001e-06, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 947.2, 'total_tokens': 146323238, 'epoch': 1.07}
+ 36%|███▌      | 533/1500 [4:54:30<8:44:29, 32.54s/it] 36%|███▌      | 534/1500 [4:55:04<8:48:57, 32.85s/it]                                                      {'loss': 0.1359, 'grad_norm': 0.3097021281719208, 'learning_rate': 7.490625357317472e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1332.1, 'total_tokens': 146613839, 'epoch': 1.07}
+ 36%|███▌      | 534/1500 [4:55:04<8:48:57, 32.85s/it] 36%|███▌      | 535/1500 [4:55:37<8:51:39, 33.06s/it]                                                      {'loss': 0.1456, 'grad_norm': 0.3502514958381653, 'learning_rate': 7.481239055273959e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 883.5, 'total_tokens': 146870402, 'epoch': 1.07}
+ 36%|███▌      | 535/1500 [4:55:37<8:51:39, 33.06s/it] 36%|███▌      | 536/1500 [4:56:11<8:56:11, 33.37s/it]                                                      {'loss': 0.1382, 'grad_norm': 0.3382667005062103, 'learning_rate': 7.471841137809546e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1122.65, 'total_tokens': 147149237, 'epoch': 1.07}
+ 36%|███▌      | 536/1500 [4:56:11<8:56:11, 33.37s/it] 36%|███▌      | 537/1500 [4:56:42<8:44:02, 32.65s/it]                                                      {'loss': 0.1315, 'grad_norm': 0.30857253074645996, 'learning_rate': 7.462431648918689e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1158.0, 'total_tokens': 147422068, 'epoch': 1.07}
+ 36%|███▌      | 537/1500 [4:56:42<8:44:02, 32.65s/it] 36%|███▌      | 538/1500 [4:57:16<8:50:15, 33.07s/it]                                                      {'loss': 0.1432, 'grad_norm': 0.3362390995025635, 'learning_rate': 7.453010632650017e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 759.94, 'total_tokens': 147700423, 'epoch': 1.08}
+ 36%|███▌      | 538/1500 [4:57:16<8:50:15, 33.07s/it] 36%|███▌      | 539/1500 [4:57:49<8:49:48, 33.08s/it]                                                      {'loss': 0.1452, 'grad_norm': 0.33331504464149475, 'learning_rate': 7.443578133106118e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 890.44, 'total_tokens': 147978162, 'epoch': 1.08}
+ 36%|███▌      | 539/1500 [4:57:49<8:49:48, 33.08s/it] 36%|███▌      | 540/1500 [4:58:23<8:50:18, 33.14s/it]                                                      {'loss': 0.1463, 'grad_norm': 0.3714946508407593, 'learning_rate': 7.434134194443343e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 969.43, 'total_tokens': 148242863, 'epoch': 1.08}
+ 36%|███▌      | 540/1500 [4:58:23<8:50:18, 33.14s/it] 36%|███▌      | 541/1500 [4:58:55<8:46:51, 32.96s/it]                                                      {'loss': 0.1369, 'grad_norm': 0.33747532963752747, 'learning_rate': 7.424678860871584e-06, 'memory/max_active (GiB)': 51.44, 'memory/max_allocated (GiB)': 51.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1061.21, 'total_tokens': 148509274, 'epoch': 1.08}
+ 36%|███▌      | 541/1500 [4:58:55<8:46:51, 32.96s/it] 36%|███▌      | 542/1500 [4:59:28<8:47:45, 33.05s/it]                                                      {'loss': 0.1494, 'grad_norm': 0.3371325135231018, 'learning_rate': 7.415212176654083e-06, 'memory/max_active (GiB)': 52.97, 'memory/max_allocated (GiB)': 52.97, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1100.44, 'total_tokens': 148777954, 'epoch': 1.08}
+ 36%|███▌      | 542/1500 [4:59:28<8:47:45, 33.05s/it] 36%|███▌      | 543/1500 [5:00:01<8:47:18, 33.06s/it]                                                      {'loss': 0.1556, 'grad_norm': 0.3373136520385742, 'learning_rate': 7.405734186107216e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 855.73, 'total_tokens': 149074365, 'epoch': 1.09}
+ 36%|███▌      | 543/1500 [5:00:01<8:47:18, 33.06s/it] 36%|███▋      | 544/1500 [5:00:34<8:43:30, 32.86s/it]                                                      {'loss': 0.138, 'grad_norm': 0.3623502850532532, 'learning_rate': 7.396244933600285e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1003.44, 'total_tokens': 149350597, 'epoch': 1.09}
+ 36%|███▋      | 544/1500 [5:00:34<8:43:30, 32.86s/it] 36%|███▋      | 545/1500 [5:01:08<8:48:07, 33.18s/it]                                                      {'loss': 0.1475, 'grad_norm': 0.3358376622200012, 'learning_rate': 7.3867444635553165e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1192.67, 'total_tokens': 149629371, 'epoch': 1.09}
+ 36%|███▋      | 545/1500 [5:01:08<8:48:07, 33.18s/it] 36%|███▋      | 546/1500 [5:01:41<8:48:53, 33.26s/it]                                                      {'loss': 0.1501, 'grad_norm': 0.3345286548137665, 'learning_rate': 7.377232820446846e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 853.67, 'total_tokens': 149916005, 'epoch': 1.09}
+ 36%|███▋      | 546/1500 [5:01:41<8:48:53, 33.26s/it] 36%|███▋      | 547/1500 [5:02:14<8:47:00, 33.18s/it]                                                      {'loss': 0.1403, 'grad_norm': 0.30510929226875305, 'learning_rate': 7.367710048801715e-06, 'memory/max_active (GiB)': 52.48, 'memory/max_allocated (GiB)': 52.48, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1354.92, 'total_tokens': 150222960, 'epoch': 1.09}
+ 36%|███▋      | 547/1500 [5:02:14<8:47:00, 33.18s/it] 37%|███▋      | 548/1500 [5:02:47<8:42:51, 32.95s/it]                                                      {'loss': 0.1394, 'grad_norm': 0.3043700158596039, 'learning_rate': 7.358176193198863e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1101.36, 'total_tokens': 150524563, 'epoch': 1.1}
+ 37%|███▋      | 548/1500 [5:02:47<8:42:51, 32.95s/it] 37%|███▋      | 549/1500 [5:03:20<8:42:18, 32.95s/it]                                                      {'loss': 0.1383, 'grad_norm': 0.3284249007701874, 'learning_rate': 7.3486312982691134e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1255.25, 'total_tokens': 150802836, 'epoch': 1.1}
+ 37%|███▋      | 549/1500 [5:03:20<8:42:18, 32.95s/it] 37%|███▋      | 550/1500 [5:03:53<8:43:02, 33.03s/it]                                                      {'loss': 0.1336, 'grad_norm': 0.30611804127693176, 'learning_rate': 7.339075408694968e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1254.45, 'total_tokens': 151109604, 'epoch': 1.1}
+ 37%|███▋      | 550/1500 [5:03:53<8:43:02, 33.03s/it] 37%|███▋      | 551/1500 [5:04:26<8:44:01, 33.13s/it]                                                      {'loss': 0.1409, 'grad_norm': 0.3257894515991211, 'learning_rate': 7.329508569210402e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 936.52, 'total_tokens': 151388246, 'epoch': 1.1}
+ 37%|███▋      | 551/1500 [5:04:26<8:44:01, 33.13s/it] 37%|███▋      | 552/1500 [5:05:00<8:47:52, 33.41s/it]                                                      {'loss': 0.1436, 'grad_norm': 0.3525020182132721, 'learning_rate': 7.3199308246006455e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 829.33, 'total_tokens': 151643862, 'epoch': 1.1}
+ 37%|███▋      | 552/1500 [5:05:00<8:47:52, 33.41s/it] 37%|███▋      | 553/1500 [5:05:32<8:40:05, 32.95s/it]                                                      {'loss': 0.1483, 'grad_norm': 0.3428203761577606, 'learning_rate': 7.310342219701981e-06, 'memory/max_active (GiB)': 52.21, 'memory/max_allocated (GiB)': 52.21, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 984.44, 'total_tokens': 151913823, 'epoch': 1.11}
+ 37%|███▋      | 553/1500 [5:05:32<8:40:05, 32.95s/it] 37%|███▋      | 554/1500 [5:06:05<8:38:35, 32.89s/it]                                                      {'loss': 0.1326, 'grad_norm': 0.31191155314445496, 'learning_rate': 7.300742799401532e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1111.89, 'total_tokens': 152181680, 'epoch': 1.11}
+ 37%|███▋      | 554/1500 [5:06:05<8:38:35, 32.89s/it] 37%|███▋      | 555/1500 [5:06:37<8:34:21, 32.66s/it]                                                      {'loss': 0.1447, 'grad_norm': 0.3284197747707367, 'learning_rate': 7.291132608637053e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1338.79, 'total_tokens': 152463133, 'epoch': 1.11}
+ 37%|███▋      | 555/1500 [5:06:37<8:34:21, 32.66s/it] 37%|███▋      | 556/1500 [5:07:09<8:28:33, 32.32s/it]                                                      {'loss': 0.1456, 'grad_norm': 0.33955076336860657, 'learning_rate': 7.281511692396712e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 944.65, 'total_tokens': 152731710, 'epoch': 1.11}
+ 37%|███▋      | 556/1500 [5:07:09<8:28:33, 32.32s/it] 37%|███▋      | 557/1500 [5:07:40<8:24:28, 32.10s/it]                                                      {'loss': 0.1388, 'grad_norm': 0.31775951385498047, 'learning_rate': 7.271880095718895e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 973.69, 'total_tokens': 152985482, 'epoch': 1.11}
+ 37%|███▋      | 557/1500 [5:07:40<8:24:28, 32.10s/it] 37%|███▋      | 558/1500 [5:08:13<8:28:50, 32.41s/it]                                                      {'loss': 0.1346, 'grad_norm': 0.32865986227989197, 'learning_rate': 7.26223786369198e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1295.55, 'total_tokens': 153267448, 'epoch': 1.12}
+ 37%|███▋      | 558/1500 [5:08:13<8:28:50, 32.41s/it] 37%|███▋      | 559/1500 [5:08:46<8:32:00, 32.65s/it]                                                      {'loss': 0.145, 'grad_norm': 0.354091614484787, 'learning_rate': 7.252585041454134e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 840.31, 'total_tokens': 153512922, 'epoch': 1.12}
+ 37%|███▋      | 559/1500 [5:08:46<8:32:00, 32.65s/it] 37%|███▋      | 560/1500 [5:09:20<8:35:05, 32.88s/it]                                                      {'loss': 0.1431, 'grad_norm': 0.31884896755218506, 'learning_rate': 7.242921674193102e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1001.77, 'total_tokens': 153807539, 'epoch': 1.12}
+ 37%|███▋      | 560/1500 [5:09:20<8:35:05, 32.88s/it] 37%|███▋      | 561/1500 [5:09:53<8:37:03, 33.04s/it]                                                      {'loss': 0.1442, 'grad_norm': 0.3563452661037445, 'learning_rate': 7.233247807145989e-06, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1100.86, 'total_tokens': 154069846, 'epoch': 1.12}
+ 37%|███▋      | 561/1500 [5:09:53<8:37:03, 33.04s/it] 37%|███▋      | 562/1500 [5:10:27<8:38:28, 33.16s/it]                                                      {'loss': 0.1453, 'grad_norm': 0.3154650330543518, 'learning_rate': 7.223563485599057e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1053.61, 'total_tokens': 154355295, 'epoch': 1.12}
+ 37%|███▋      | 562/1500 [5:10:27<8:38:28, 33.16s/it] 38%|███▊      | 563/1500 [5:10:59<8:33:41, 32.89s/it]                                                      {'loss': 0.1373, 'grad_norm': 0.3266999125480652, 'learning_rate': 7.213868754887504e-06, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1005.02, 'total_tokens': 154639297, 'epoch': 1.13}
+ 38%|███▊      | 563/1500 [5:10:59<8:33:41, 32.89s/it] 38%|███▊      | 564/1500 [5:11:30<8:23:22, 32.27s/it]                                                      {'loss': 0.1512, 'grad_norm': 0.35432058572769165, 'learning_rate': 7.204163660395265e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1250.98, 'total_tokens': 154906483, 'epoch': 1.13}
+ 38%|███▊      | 564/1500 [5:11:30<8:23:22, 32.27s/it] 38%|███▊      | 565/1500 [5:12:02<8:23:49, 32.33s/it]                                                      {'loss': 0.1392, 'grad_norm': 0.316411554813385, 'learning_rate': 7.19444824755478e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1114.94, 'total_tokens': 155183323, 'epoch': 1.13}
+ 38%|███▊      | 565/1500 [5:12:02<8:23:49, 32.33s/it] 38%|███▊      | 566/1500 [5:12:36<8:29:18, 32.72s/it]                                                      {'loss': 0.1419, 'grad_norm': 0.34122154116630554, 'learning_rate': 7.1847225618467975e-06, 'memory/max_active (GiB)': 51.76, 'memory/max_allocated (GiB)': 51.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 929.18, 'total_tokens': 155433822, 'epoch': 1.13}
+ 38%|███▊      | 566/1500 [5:12:36<8:29:18, 32.72s/it] 38%|███▊      | 567/1500 [5:13:09<8:31:37, 32.90s/it]                                                      {'loss': 0.1407, 'grad_norm': 0.32123780250549316, 'learning_rate': 7.1749866488001604e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 999.6, 'total_tokens': 155712743, 'epoch': 1.13}
+ 38%|███▊      | 567/1500 [5:13:09<8:31:37, 32.90s/it] 38%|███▊      | 568/1500 [5:13:43<8:33:12, 33.04s/it]                                                      {'loss': 0.1415, 'grad_norm': 0.3070394694805145, 'learning_rate': 7.165240553991581e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1159.19, 'total_tokens': 156010731, 'epoch': 1.14}
+ 38%|███▊      | 568/1500 [5:13:43<8:33:12, 33.04s/it] 38%|███▊      | 569/1500 [5:14:15<8:30:08, 32.88s/it]                                                      {'loss': 0.1415, 'grad_norm': 0.31967687606811523, 'learning_rate': 7.155484323045442e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1463.43, 'total_tokens': 156303391, 'epoch': 1.14}
+ 38%|███▊      | 569/1500 [5:14:15<8:30:08, 32.88s/it] 38%|███▊      | 570/1500 [5:14:49<8:32:28, 33.06s/it]                                                      {'loss': 0.1394, 'grad_norm': 0.29344382882118225, 'learning_rate': 7.145718001633572e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 996.34, 'total_tokens': 156619578, 'epoch': 1.14}
+ 38%|███▊      | 570/1500 [5:14:49<8:32:28, 33.06s/it] 38%|███▊      | 571/1500 [5:15:21<8:30:19, 32.96s/it]                                                      {'loss': 0.1536, 'grad_norm': 0.34938931465148926, 'learning_rate': 7.1359416354750365e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1213.33, 'total_tokens': 156903864, 'epoch': 1.14}
+ 38%|███▊      | 571/1500 [5:15:21<8:30:19, 32.96s/it] 38%|███▊      | 572/1500 [5:15:54<8:30:22, 33.00s/it]                                                      {'loss': 0.1409, 'grad_norm': 0.39622676372528076, 'learning_rate': 7.126155270335927e-06, 'memory/max_active (GiB)': 51.98, 'memory/max_allocated (GiB)': 51.98, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 988.59, 'total_tokens': 157169722, 'epoch': 1.14}
+ 38%|███▊      | 572/1500 [5:15:54<8:30:22, 33.00s/it] 38%|███▊      | 573/1500 [5:16:27<8:26:22, 32.78s/it]                                                      {'loss': 0.1431, 'grad_norm': 0.3459899127483368, 'learning_rate': 7.11635895202914e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1013.6, 'total_tokens': 157438957, 'epoch': 1.15}
+ 38%|███▊      | 573/1500 [5:16:27<8:26:22, 32.78s/it] 38%|███▊      | 574/1500 [5:17:00<8:28:58, 32.98s/it]                                                      {'loss': 0.1508, 'grad_norm': 0.3281804025173187, 'learning_rate': 7.106552726414166e-06, 'memory/max_active (GiB)': 51.01, 'memory/max_allocated (GiB)': 51.01, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 788.56, 'total_tokens': 157692846, 'epoch': 1.15}
+ 38%|███▊      | 574/1500 [5:17:00<8:28:58, 32.98s/it] 38%|███▊      | 575/1500 [5:17:34<8:34:01, 33.34s/it]                                                      {'loss': 0.1598, 'grad_norm': 0.3693808317184448, 'learning_rate': 7.096736639396875e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1428.4, 'total_tokens': 157999213, 'epoch': 1.15}
+ 38%|███▊      | 575/1500 [5:17:34<8:34:01, 33.34s/it] 38%|███▊      | 576/1500 [5:18:08<8:34:37, 33.42s/it]                                                      {'loss': 0.1413, 'grad_norm': 0.396131306886673, 'learning_rate': 7.086910736929304e-06, 'memory/max_active (GiB)': 51.01, 'memory/max_allocated (GiB)': 51.01, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 702.87, 'total_tokens': 158250002, 'epoch': 1.15}
+ 38%|███▊      | 576/1500 [5:18:08<8:34:37, 33.42s/it] 38%|███▊      | 577/1500 [5:18:42<8:35:24, 33.50s/it]                                                      {'loss': 0.139, 'grad_norm': 0.31213220953941345, 'learning_rate': 7.0770750650094335e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1316.67, 'total_tokens': 158536267, 'epoch': 1.15}
+ 38%|███▊      | 577/1500 [5:18:42<8:35:24, 33.50s/it] 39%|███▊      | 578/1500 [5:19:14<8:29:20, 33.15s/it]                                                      {'loss': 0.14, 'grad_norm': 0.3216460943222046, 'learning_rate': 7.067229669680981e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 839.55, 'total_tokens': 158804994, 'epoch': 1.16}
+ 39%|███▊      | 578/1500 [5:19:14<8:29:20, 33.15s/it] 39%|███▊      | 579/1500 [5:19:47<8:27:04, 33.03s/it]                                                      {'loss': 0.1463, 'grad_norm': 0.34159618616104126, 'learning_rate': 7.057374597033182e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1044.54, 'total_tokens': 159063465, 'epoch': 1.16}
+ 39%|███▊      | 579/1500 [5:19:47<8:27:04, 33.03s/it] 39%|███▊      | 580/1500 [5:20:19<8:21:33, 32.71s/it]                                                      {'loss': 0.1402, 'grad_norm': 0.3268706500530243, 'learning_rate': 7.047509893200577e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1060.63, 'total_tokens': 159341764, 'epoch': 1.16}
+ 39%|███▊      | 580/1500 [5:20:19<8:21:33, 32.71s/it] 39%|███▊      | 581/1500 [5:20:52<8:22:02, 32.78s/it]                                                      {'loss': 0.139, 'grad_norm': 0.3127710223197937, 'learning_rate': 7.037635604362786e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1050.1, 'total_tokens': 159630478, 'epoch': 1.16}
+ 39%|███▊      | 581/1500 [5:20:52<8:22:02, 32.78s/it] 39%|███▉      | 582/1500 [5:21:24<8:21:37, 32.79s/it]                                                      {'loss': 0.1365, 'grad_norm': 0.33094918727874756, 'learning_rate': 7.027751776744305e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1075.65, 'total_tokens': 159911397, 'epoch': 1.16}
+ 39%|███▉      | 582/1500 [5:21:24<8:21:37, 32.79s/it] 39%|███▉      | 583/1500 [5:21:57<8:20:24, 32.74s/it]                                                      {'loss': 0.1432, 'grad_norm': 0.35571160912513733, 'learning_rate': 7.017858456614284e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1273.97, 'total_tokens': 160183099, 'epoch': 1.17}
+ 39%|███▉      | 583/1500 [5:21:57<8:20:24, 32.74s/it] 39%|███▉      | 584/1500 [5:22:31<8:24:57, 33.08s/it]                                                      {'loss': 0.1423, 'grad_norm': 0.30845901370048523, 'learning_rate': 7.007955690286307e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1028.29, 'total_tokens': 160488402, 'epoch': 1.17}
+ 39%|███▉      | 584/1500 [5:22:31<8:24:57, 33.08s/it] 39%|███▉      | 585/1500 [5:23:03<8:21:55, 32.91s/it]                                                      {'loss': 0.1326, 'grad_norm': 0.33650803565979004, 'learning_rate': 6.9980435241181785e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1049.22, 'total_tokens': 160745156, 'epoch': 1.17}
+ 39%|███▉      | 585/1500 [5:23:03<8:21:55, 32.91s/it] 39%|███▉      | 586/1500 [5:23:37<8:23:33, 33.06s/it]                                                      {'loss': 0.1354, 'grad_norm': 0.35589781403541565, 'learning_rate': 6.988122004511712e-06, 'memory/max_active (GiB)': 50.45, 'memory/max_allocated (GiB)': 50.45, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 761.05, 'total_tokens': 160987603, 'epoch': 1.17}
+ 39%|███▉      | 586/1500 [5:23:37<8:23:33, 33.06s/it] 39%|███▉      | 587/1500 [5:24:09<8:20:31, 32.89s/it]                                                      {'loss': 0.1325, 'grad_norm': 0.32090750336647034, 'learning_rate': 6.978191177912499e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 914.24, 'total_tokens': 161245441, 'epoch': 1.17}
+ 39%|███▉      | 587/1500 [5:24:09<8:20:31, 32.89s/it] 39%|███▉      | 588/1500 [5:24:41<8:13:11, 32.45s/it]                                                      {'loss': 0.143, 'grad_norm': 0.328227162361145, 'learning_rate': 6.968251090809708e-06, 'memory/max_active (GiB)': 52.65, 'memory/max_allocated (GiB)': 52.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1248.53, 'total_tokens': 161538831, 'epoch': 1.18}
+ 39%|███▉      | 588/1500 [5:24:41<8:13:11, 32.45s/it] 39%|███▉      | 589/1500 [5:25:13<8:11:32, 32.37s/it]                                                      {'loss': 0.1366, 'grad_norm': 0.33720898628234863, 'learning_rate': 6.958301789735853e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1316.5, 'total_tokens': 161804598, 'epoch': 1.18}
+ 39%|███▉      | 589/1500 [5:25:13<8:11:32, 32.37s/it] 39%|███▉      | 590/1500 [5:25:45<8:10:39, 32.35s/it]                                                      {'loss': 0.1418, 'grad_norm': 0.3425408899784088, 'learning_rate': 6.9483433212665815e-06, 'memory/max_active (GiB)': 51.01, 'memory/max_allocated (GiB)': 51.01, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 868.83, 'total_tokens': 162077751, 'epoch': 1.18}
+ 39%|███▉      | 590/1500 [5:25:45<8:10:39, 32.35s/it] 39%|███▉      | 591/1500 [5:26:19<8:16:06, 32.75s/it]                                                      {'loss': 0.1358, 'grad_norm': 0.35178902745246887, 'learning_rate': 6.938375732020462e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1084.25, 'total_tokens': 162343117, 'epoch': 1.18}
+ 39%|███▉      | 591/1500 [5:26:19<8:16:06, 32.75s/it] 39%|███▉      | 592/1500 [5:26:53<8:22:20, 33.19s/it]                                                      {'loss': 0.141, 'grad_norm': 0.3433611989021301, 'learning_rate': 6.928399068658751e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 750.77, 'total_tokens': 162618461, 'epoch': 1.18}
+ 39%|███▉      | 592/1500 [5:26:53<8:22:20, 33.19s/it] 40%|███▉      | 593/1500 [5:27:26<8:21:41, 33.19s/it]                                                      {'loss': 0.1407, 'grad_norm': 0.32956352829933167, 'learning_rate': 6.918413377885193e-06, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1044.27, 'total_tokens': 162887947, 'epoch': 1.19}
+ 40%|███▉      | 593/1500 [5:27:26<8:21:41, 33.19s/it] 40%|███▉      | 594/1500 [5:27:58<8:12:57, 32.65s/it]                                                      {'loss': 0.1369, 'grad_norm': 0.3166932761669159, 'learning_rate': 6.908418706445784e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1234.07, 'total_tokens': 163162685, 'epoch': 1.19}
+ 40%|███▉      | 594/1500 [5:27:58<8:12:57, 32.65s/it] 40%|███▉      | 595/1500 [5:28:31<8:15:53, 32.88s/it]                                                      {'loss': 0.1479, 'grad_norm': 0.35002610087394714, 'learning_rate': 6.898415101128571e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1026.29, 'total_tokens': 163438192, 'epoch': 1.19}
+ 40%|███▉      | 595/1500 [5:28:31<8:15:53, 32.88s/it] 40%|███▉      | 596/1500 [5:29:04<8:13:50, 32.78s/it]                                                      {'loss': 0.1488, 'grad_norm': 0.33848753571510315, 'learning_rate': 6.8884026087634114e-06, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1101.29, 'total_tokens': 163709986, 'epoch': 1.19}
+ 40%|███▉      | 596/1500 [5:29:04<8:13:50, 32.78s/it] 40%|███▉      | 597/1500 [5:29:35<8:06:58, 32.36s/it]                                                      {'loss': 0.1433, 'grad_norm': 0.34480223059654236, 'learning_rate': 6.878381276221777e-06, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1022.53, 'total_tokens': 163979670, 'epoch': 1.19}
+ 40%|███▉      | 597/1500 [5:29:35<8:06:58, 32.36s/it] 40%|███▉      | 598/1500 [5:30:09<8:13:02, 32.80s/it]                                                      {'loss': 0.1425, 'grad_norm': 0.32810890674591064, 'learning_rate': 6.868351150416513e-06, 'memory/max_active (GiB)': 50.91, 'memory/max_allocated (GiB)': 50.91, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 859.74, 'total_tokens': 164273392, 'epoch': 1.2}
+ 40%|███▉      | 598/1500 [5:30:09<8:13:02, 32.80s/it] 40%|███▉      | 599/1500 [5:30:42<8:15:29, 33.00s/it]                                                      {'loss': 0.1439, 'grad_norm': 0.3770132064819336, 'learning_rate': 6.858312278301638e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 988.9, 'total_tokens': 164549247, 'epoch': 1.2}
+ 40%|███▉      | 599/1500 [5:30:42<8:15:29, 33.00s/it] 40%|████      | 600/1500 [5:31:15<8:13:03, 32.87s/it]                                                      {'loss': 0.1383, 'grad_norm': 0.34663334488868713, 'learning_rate': 6.848264706872107e-06, 'memory/max_active (GiB)': 51.44, 'memory/max_allocated (GiB)': 51.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1085.23, 'total_tokens': 164797992, 'epoch': 1.2}
+ 40%|████      | 600/1500 [5:31:15<8:13:03, 32.87s/it] 40%|████      | 601/1500 [5:31:46<8:05:08, 32.38s/it]                                                      {'loss': 0.1383, 'grad_norm': 0.3661113679409027, 'learning_rate': 6.838208483163601e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1103.4, 'total_tokens': 165055292, 'epoch': 1.2}
+ 40%|████      | 601/1500 [5:31:46<8:05:08, 32.38s/it] 40%|████      | 602/1500 [5:32:20<8:09:38, 32.72s/it]                                                      {'loss': 0.1369, 'grad_norm': 0.3419603109359741, 'learning_rate': 6.828143654252308e-06, 'memory/max_active (GiB)': 52.52, 'memory/max_allocated (GiB)': 52.52, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1220.19, 'total_tokens': 165353859, 'epoch': 1.2}
+ 40%|████      | 602/1500 [5:32:20<8:09:38, 32.72s/it] 40%|████      | 603/1500 [5:32:52<8:08:18, 32.66s/it]                                                      {'loss': 0.1388, 'grad_norm': 0.3252770006656647, 'learning_rate': 6.818070267254696e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1307.97, 'total_tokens': 165626986, 'epoch': 1.21}
+ 40%|████      | 603/1500 [5:32:52<8:08:18, 32.66s/it] 40%|████      | 604/1500 [5:33:26<8:12:58, 33.01s/it]                                                      {'loss': 0.1544, 'grad_norm': 0.32939308881759644, 'learning_rate': 6.8079883693273e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1269.33, 'total_tokens': 165916085, 'epoch': 1.21}
+ 40%|████      | 604/1500 [5:33:26<8:12:58, 33.01s/it] 40%|████      | 605/1500 [5:33:58<8:07:39, 32.69s/it]                                                      {'loss': 0.1435, 'grad_norm': 0.35181310772895813, 'learning_rate': 6.797898007666493e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 984.23, 'total_tokens': 166164747, 'epoch': 1.21}
+ 40%|████      | 605/1500 [5:33:58<8:07:39, 32.69s/it] 40%|████      | 606/1500 [5:34:30<8:03:15, 32.43s/it]                                                      {'loss': 0.1508, 'grad_norm': 0.3330245614051819, 'learning_rate': 6.787799229508267e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1211.7, 'total_tokens': 166438399, 'epoch': 1.21}
+ 40%|████      | 606/1500 [5:34:30<8:03:15, 32.43s/it] 40%|████      | 607/1500 [5:35:02<8:02:51, 32.44s/it]                                                      {'loss': 0.1509, 'grad_norm': 0.34021052718162537, 'learning_rate': 6.777692082128024e-06, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 989.3, 'total_tokens': 166708284, 'epoch': 1.21}
+ 40%|████      | 607/1500 [5:35:02<8:02:51, 32.44s/it] 41%|████      | 608/1500 [5:35:34<7:59:29, 32.25s/it]                                                      {'loss': 0.1343, 'grad_norm': 0.3564740717411041, 'learning_rate': 6.767576612840338e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 849.97, 'total_tokens': 166973594, 'epoch': 1.22}
+ 41%|████      | 608/1500 [5:35:34<7:59:29, 32.25s/it] 41%|████      | 609/1500 [5:36:08<8:07:48, 32.85s/it]                                                      {'loss': 0.1486, 'grad_norm': 0.3542986810207367, 'learning_rate': 6.757452868998737e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 912.73, 'total_tokens': 167230036, 'epoch': 1.22}
+ 41%|████      | 609/1500 [5:36:08<8:07:48, 32.85s/it] 41%|████      | 610/1500 [5:36:41<8:04:41, 32.68s/it]                                                      {'loss': 0.1494, 'grad_norm': 0.31770020723342896, 'learning_rate': 6.747320897995493e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 994.06, 'total_tokens': 167515320, 'epoch': 1.22}
+ 41%|████      | 610/1500 [5:36:41<8:04:41, 32.68s/it] 41%|████      | 611/1500 [5:37:14<8:07:21, 32.89s/it]                                                      {'loss': 0.1312, 'grad_norm': 0.2967161238193512, 'learning_rate': 6.737180747261384e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1228.26, 'total_tokens': 167796460, 'epoch': 1.22}
+ 41%|████      | 611/1500 [5:37:14<8:07:21, 32.89s/it] 41%|████      | 612/1500 [5:37:47<8:07:29, 32.94s/it]                                                      {'loss': 0.144, 'grad_norm': 0.33843210339546204, 'learning_rate': 6.727032464265487e-06, 'memory/max_active (GiB)': 51.24, 'memory/max_allocated (GiB)': 51.24, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 889.03, 'total_tokens': 168056460, 'epoch': 1.22}
+ 41%|████      | 612/1500 [5:37:47<8:07:29, 32.94s/it] 41%|████      | 613/1500 [5:38:21<8:12:02, 33.28s/it]                                                      {'loss': 0.1466, 'grad_norm': 0.34376415610313416, 'learning_rate': 6.716876096514944e-06, 'memory/max_active (GiB)': 51.39, 'memory/max_allocated (GiB)': 51.39, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 772.87, 'total_tokens': 168350115, 'epoch': 1.23}
+ 41%|████      | 613/1500 [5:38:21<8:12:02, 33.28s/it] 41%|████      | 614/1500 [5:38:54<8:11:00, 33.25s/it]                                                      {'loss': 0.1405, 'grad_norm': 0.3687084913253784, 'learning_rate': 6.706711691554741e-06, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1278.57, 'total_tokens': 168635279, 'epoch': 1.23}
+ 41%|████      | 614/1500 [5:38:54<8:11:00, 33.25s/it] 41%|████      | 615/1500 [5:39:27<8:08:04, 33.09s/it]                                                      {'loss': 0.141, 'grad_norm': 0.35245975852012634, 'learning_rate': 6.696539296967499e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 958.15, 'total_tokens': 168911914, 'epoch': 1.23}
+ 41%|████      | 615/1500 [5:39:27<8:08:04, 33.09s/it] 41%|████      | 616/1500 [5:40:01<8:10:29, 33.29s/it]                                                      {'loss': 0.1353, 'grad_norm': 0.3094610869884491, 'learning_rate': 6.686358960373232e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1167.77, 'total_tokens': 169202256, 'epoch': 1.23}
+ 41%|████      | 616/1500 [5:40:01<8:10:29, 33.29s/it] 41%|████      | 617/1500 [5:40:34<8:08:45, 33.21s/it]                                                      {'loss': 0.1381, 'grad_norm': 0.3204667568206787, 'learning_rate': 6.676170729429132e-06, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 961.53, 'total_tokens': 169489590, 'epoch': 1.23}
+ 41%|████      | 617/1500 [5:40:34<8:08:45, 33.21s/it] 41%|████      | 618/1500 [5:41:06<8:04:19, 32.95s/it]                                                      {'loss': 0.1403, 'grad_norm': 0.3852730989456177, 'learning_rate': 6.665974651829355e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1110.9, 'total_tokens': 169733125, 'epoch': 1.24}
+ 41%|████      | 618/1500 [5:41:06<8:04:19, 32.95s/it] 41%|████▏     | 619/1500 [5:41:38<8:00:02, 32.69s/it]                                                      {'loss': 0.142, 'grad_norm': 0.3733028769493103, 'learning_rate': 6.655770775304783e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 865.17, 'total_tokens': 169975317, 'epoch': 1.24}
+ 41%|████▏     | 619/1500 [5:41:38<8:00:02, 32.69s/it] 41%|████▏     | 620/1500 [5:42:10<7:56:36, 32.50s/it]                                                      {'loss': 0.1393, 'grad_norm': 0.3564259707927704, 'learning_rate': 6.645559147622809e-06, 'memory/max_active (GiB)': 50.3, 'memory/max_allocated (GiB)': 50.3, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 728.75, 'total_tokens': 170237523, 'epoch': 1.24}
+ 41%|████▏     | 620/1500 [5:42:10<7:56:36, 32.50s/it] 41%|████▏     | 621/1500 [5:42:43<7:59:21, 32.72s/it]                                                      {'loss': 0.1513, 'grad_norm': 0.4150555431842804, 'learning_rate': 6.635339816587109e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1021.85, 'total_tokens': 170499929, 'epoch': 1.24}
+ 41%|████▏     | 621/1500 [5:42:43<7:59:21, 32.72s/it] 41%|████▏     | 622/1500 [5:43:18<8:05:55, 33.21s/it]                                                      {'loss': 0.1473, 'grad_norm': 0.31980735063552856, 'learning_rate': 6.625112830037426e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1091.77, 'total_tokens': 170788208, 'epoch': 1.24}
+ 41%|████▏     | 622/1500 [5:43:18<8:05:55, 33.21s/it] 42%|████▏     | 623/1500 [5:43:51<8:03:48, 33.10s/it]                                                      {'loss': 0.1451, 'grad_norm': 0.34372469782829285, 'learning_rate': 6.614878235849337e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 883.37, 'total_tokens': 171046083, 'epoch': 1.25}
+ 42%|████▏     | 623/1500 [5:43:51<8:03:48, 33.10s/it] 42%|████▏     | 624/1500 [5:44:24<8:03:15, 33.10s/it]                                                      {'loss': 0.1351, 'grad_norm': 0.34143561124801636, 'learning_rate': 6.604636081934033e-06, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1020.25, 'total_tokens': 171311230, 'epoch': 1.25}
+ 42%|████▏     | 624/1500 [5:44:24<8:03:15, 33.10s/it] 42%|████▏     | 625/1500 [5:44:55<7:56:34, 32.68s/it]                                                      {'loss': 0.1487, 'grad_norm': 0.4101325273513794, 'learning_rate': 6.594386416238095e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1164.12, 'total_tokens': 171568076, 'epoch': 1.25}
+ 42%|████▏     | 625/1500 [5:44:55<7:56:34, 32.68s/it] 42%|████▏     | 626/1500 [5:45:28<7:55:26, 32.64s/it]                                                      {'loss': 0.1416, 'grad_norm': 0.34146562218666077, 'learning_rate': 6.584129286743267e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 893.11, 'total_tokens': 171839478, 'epoch': 1.25}
+ 42%|████▏     | 626/1500 [5:45:28<7:55:26, 32.64s/it] 42%|████▏     | 627/1500 [5:46:01<7:56:37, 32.76s/it]                                                      {'loss': 0.1415, 'grad_norm': 0.33255264163017273, 'learning_rate': 6.573864741466236e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1020.87, 'total_tokens': 172123013, 'epoch': 1.25}
+ 42%|████▏     | 627/1500 [5:46:01<7:56:37, 32.76s/it] 42%|████▏     | 628/1500 [5:46:34<7:57:30, 32.86s/it]                                                      {'loss': 0.1441, 'grad_norm': 0.33290231227874756, 'learning_rate': 6.563592828458406e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1348.75, 'total_tokens': 172395187, 'epoch': 1.26}
+ 42%|████▏     | 628/1500 [5:46:34<7:57:30, 32.86s/it] 42%|████▏     | 629/1500 [5:47:07<7:58:19, 32.95s/it]                                                      {'loss': 0.1414, 'grad_norm': 0.32758429646492004, 'learning_rate': 6.553313595805666e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1107.4, 'total_tokens': 172657681, 'epoch': 1.26}
+ 42%|████▏     | 629/1500 [5:47:07<7:58:19, 32.95s/it] 42%|████▏     | 630/1500 [5:47:38<7:48:56, 32.34s/it]                                                      {'loss': 0.1342, 'grad_norm': 0.33629512786865234, 'learning_rate': 6.543027091628172e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1162.78, 'total_tokens': 172949797, 'epoch': 1.26}
+ 42%|████▏     | 630/1500 [5:47:38<7:48:56, 32.34s/it] 42%|████▏     | 631/1500 [5:48:11<7:48:34, 32.35s/it]                                                      {'loss': 0.1412, 'grad_norm': 0.33573272824287415, 'learning_rate': 6.532733364080126e-06, 'memory/max_active (GiB)': 50.55, 'memory/max_allocated (GiB)': 50.55, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 808.1, 'total_tokens': 173208791, 'epoch': 1.26}
+ 42%|████▏     | 631/1500 [5:48:11<7:48:34, 32.35s/it] 42%|████▏     | 632/1500 [5:48:44<7:51:32, 32.60s/it]                                                      {'loss': 0.1349, 'grad_norm': 0.34259554743766785, 'learning_rate': 6.522432461349536e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1097.41, 'total_tokens': 173474477, 'epoch': 1.26}
+ 42%|████▏     | 632/1500 [5:48:44<7:51:32, 32.60s/it] 42%|████▏     | 633/1500 [5:49:17<7:55:22, 32.90s/it]                                                      {'loss': 0.1384, 'grad_norm': 0.3196565806865692, 'learning_rate': 6.512124431658006e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1266.02, 'total_tokens': 173771015, 'epoch': 1.27}
+ 42%|████▏     | 633/1500 [5:49:17<7:55:22, 32.90s/it] 42%|████▏     | 634/1500 [5:49:49<7:49:28, 32.53s/it]                                                      {'loss': 0.1417, 'grad_norm': 0.33476749062538147, 'learning_rate': 6.501809323260499e-06, 'memory/max_active (GiB)': 49.84, 'memory/max_allocated (GiB)': 49.84, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 729.71, 'total_tokens': 174017090, 'epoch': 1.27}
+ 42%|████▏     | 634/1500 [5:49:49<7:49:28, 32.53s/it] 42%|████▏     | 635/1500 [5:50:22<7:52:47, 32.79s/it]                                                      {'loss': 0.1379, 'grad_norm': 0.34032368659973145, 'learning_rate': 6.4914871844451214e-06, 'memory/max_active (GiB)': 51.01, 'memory/max_allocated (GiB)': 51.01, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 908.28, 'total_tokens': 174277739, 'epoch': 1.27}
+ 42%|████▏     | 635/1500 [5:50:22<7:52:47, 32.79s/it] 42%|████▏     | 636/1500 [5:50:53<7:43:29, 32.19s/it]                                                      {'loss': 0.1398, 'grad_norm': 0.3399149179458618, 'learning_rate': 6.481158063532881e-06, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1188.19, 'total_tokens': 174552768, 'epoch': 1.27}
+ 42%|████▏     | 636/1500 [5:50:53<7:43:29, 32.19s/it] 42%|████▏     | 637/1500 [5:51:25<7:43:33, 32.23s/it]                                                      {'loss': 0.1423, 'grad_norm': 0.3483487367630005, 'learning_rate': 6.470822008877482e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1020.38, 'total_tokens': 174823346, 'epoch': 1.27}
+ 42%|████▏     | 637/1500 [5:51:26<7:43:33, 32.23s/it] 43%|████▎     | 638/1500 [5:51:58<7:44:03, 32.30s/it]                                                      {'loss': 0.1283, 'grad_norm': 0.3175360858440399, 'learning_rate': 6.460479068865081e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 991.95, 'total_tokens': 175107759, 'epoch': 1.28}
+ 43%|████▎     | 638/1500 [5:51:58<7:44:03, 32.30s/it] 43%|████▎     | 639/1500 [5:52:29<7:37:15, 31.86s/it]                                                      {'loss': 0.1313, 'grad_norm': 0.319271981716156, 'learning_rate': 6.450129291914069e-06, 'memory/max_active (GiB)': 52.56, 'memory/max_allocated (GiB)': 52.56, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1266.49, 'total_tokens': 175383720, 'epoch': 1.28}
+ 43%|████▎     | 639/1500 [5:52:29<7:37:15, 31.86s/it] 43%|████▎     | 640/1500 [5:53:02<7:44:01, 32.37s/it]                                                      {'loss': 0.1491, 'grad_norm': 0.34399259090423584, 'learning_rate': 6.43977272647484e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 833.75, 'total_tokens': 175686283, 'epoch': 1.28}
+ 43%|████▎     | 640/1500 [5:53:02<7:44:01, 32.37s/it] 43%|████▎     | 641/1500 [5:53:35<7:46:39, 32.60s/it]                                                      {'loss': 0.1472, 'grad_norm': 0.34609460830688477, 'learning_rate': 6.4294094210295725e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1249.06, 'total_tokens': 175991785, 'epoch': 1.28}
+ 43%|████▎     | 641/1500 [5:53:35<7:46:39, 32.60s/it] 43%|████▎     | 642/1500 [5:54:08<7:46:25, 32.62s/it]                                                      {'loss': 0.1398, 'grad_norm': 0.3332420289516449, 'learning_rate': 6.419039424091991e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 975.04, 'total_tokens': 176264240, 'epoch': 1.28}
+ 43%|████▎     | 642/1500 [5:54:08<7:46:25, 32.62s/it] 43%|████▎     | 643/1500 [5:54:40<7:40:41, 32.25s/it]                                                      {'loss': 0.1309, 'grad_norm': 0.3246762454509735, 'learning_rate': 6.408662784207149e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1052.39, 'total_tokens': 176524164, 'epoch': 1.29}
+ 43%|████▎     | 643/1500 [5:54:40<7:40:41, 32.25s/it] 43%|████▎     | 644/1500 [5:55:12<7:41:01, 32.32s/it]                                                      {'loss': 0.1314, 'grad_norm': 0.34160274267196655, 'learning_rate': 6.3982795499511964e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1169.81, 'total_tokens': 176800918, 'epoch': 1.29}
+ 43%|████▎     | 644/1500 [5:55:12<7:41:01, 32.32s/it] 43%|████▎     | 645/1500 [5:55:42<7:32:08, 31.73s/it]                                                      {'loss': 0.1388, 'grad_norm': 0.3301165997982025, 'learning_rate': 6.3878897699311525e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 938.97, 'total_tokens': 177055199, 'epoch': 1.29}
+ 43%|████▎     | 645/1500 [5:55:42<7:32:08, 31.73s/it] 43%|████▎     | 646/1500 [5:56:16<7:41:28, 32.42s/it]                                                      {'loss': 0.1393, 'grad_norm': 0.3211204707622528, 'learning_rate': 6.377493492784679e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 871.03, 'total_tokens': 177342919, 'epoch': 1.29}
+ 43%|████▎     | 646/1500 [5:56:16<7:41:28, 32.42s/it] 43%|████▎     | 647/1500 [5:56:50<7:46:16, 32.80s/it]                                                      {'loss': 0.1497, 'grad_norm': 0.33309099078178406, 'learning_rate': 6.367090767179855e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1030.55, 'total_tokens': 177609808, 'epoch': 1.29}
+ 43%|████▎     | 647/1500 [5:56:50<7:46:16, 32.80s/it] 43%|████▎     | 648/1500 [5:57:23<7:44:56, 32.74s/it]                                                      {'loss': 0.1361, 'grad_norm': 0.30655452609062195, 'learning_rate': 6.356681641814946e-06, 'memory/max_active (GiB)': 51.24, 'memory/max_allocated (GiB)': 51.24, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1074.27, 'total_tokens': 177897952, 'epoch': 1.3}
+ 43%|████▎     | 648/1500 [5:57:23<7:44:56, 32.74s/it] 43%|████▎     | 649/1500 [5:57:56<7:47:42, 32.98s/it]                                                      {'loss': 0.1379, 'grad_norm': 0.32312172651290894, 'learning_rate': 6.346266165418173e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 850.22, 'total_tokens': 178172722, 'epoch': 1.3}
+ 43%|████▎     | 649/1500 [5:57:56<7:47:42, 32.98s/it] 43%|████▎     | 650/1500 [5:58:29<7:44:45, 32.81s/it]                                                      {'loss': 0.1402, 'grad_norm': 0.3118220865726471, 'learning_rate': 6.335844386747494e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1189.28, 'total_tokens': 178453344, 'epoch': 1.3}
+ 43%|████▎     | 650/1500 [5:58:29<7:44:45, 32.81s/it] 43%|████▎     | 651/1500 [5:59:02<7:45:47, 32.92s/it]                                                      {'loss': 0.1434, 'grad_norm': 0.3245517909526825, 'learning_rate': 6.325416354590364e-06, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 904.69, 'total_tokens': 178727920, 'epoch': 1.3}
+ 43%|████▎     | 651/1500 [5:59:02<7:45:47, 32.92s/it] 43%|████▎     | 652/1500 [5:59:34<7:42:40, 32.74s/it]                                                      {'loss': 0.1417, 'grad_norm': 0.32409483194351196, 'learning_rate': 6.314982117763519e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1306.56, 'total_tokens': 179002051, 'epoch': 1.3}
+ 43%|████▎     | 652/1500 [5:59:34<7:42:40, 32.74s/it] 44%|████▎     | 653/1500 [6:00:06<7:36:58, 32.37s/it]                                                      {'loss': 0.1515, 'grad_norm': 0.3270016610622406, 'learning_rate': 6.304541725112734e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1339.96, 'total_tokens': 179308787, 'epoch': 1.31}
+ 44%|████▎     | 653/1500 [6:00:06<7:36:58, 32.37s/it] 44%|████▎     | 654/1500 [6:00:38<7:37:57, 32.48s/it]                                                      {'loss': 0.1374, 'grad_norm': 0.3291699290275574, 'learning_rate': 6.294095225512604e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1162.44, 'total_tokens': 179580368, 'epoch': 1.31}
+ 44%|████▎     | 654/1500 [6:00:38<7:37:57, 32.48s/it] 44%|████▎     | 655/1500 [6:01:11<7:39:29, 32.63s/it]                                                      {'loss': 0.1561, 'grad_norm': 0.32947203516960144, 'learning_rate': 6.283642667866317e-06, 'memory/max_active (GiB)': 51.76, 'memory/max_allocated (GiB)': 51.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 998.9, 'total_tokens': 179853000, 'epoch': 1.31}
+ 44%|████▎     | 655/1500 [6:01:11<7:39:29, 32.63s/it] 44%|████▎     | 656/1500 [6:01:45<7:44:07, 32.99s/it]                                                      {'loss': 0.1429, 'grad_norm': 0.3341757357120514, 'learning_rate': 6.273184101105412e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 876.87, 'total_tokens': 180113896, 'epoch': 1.31}
+ 44%|████▎     | 656/1500 [6:01:45<7:44:07, 32.99s/it] 44%|████▍     | 657/1500 [6:02:19<7:47:17, 33.26s/it]                                                      {'loss': 0.1424, 'grad_norm': 0.3461393415927887, 'learning_rate': 6.262719574189564e-06, 'memory/max_active (GiB)': 52.48, 'memory/max_allocated (GiB)': 52.48, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1009.15, 'total_tokens': 180372122, 'epoch': 1.31}
+ 44%|████▍     | 657/1500 [6:02:19<7:47:17, 33.26s/it] 44%|████▍     | 658/1500 [6:02:53<7:49:17, 33.44s/it]                                                      {'loss': 0.1382, 'grad_norm': 0.3235483467578888, 'learning_rate': 6.2522491361063505e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 996.59, 'total_tokens': 180669442, 'epoch': 1.32}
+ 44%|████▍     | 658/1500 [6:02:53<7:49:17, 33.44s/it] 44%|████▍     | 659/1500 [6:03:25<7:44:37, 33.15s/it]                                                      {'loss': 0.1478, 'grad_norm': 0.33550789952278137, 'learning_rate': 6.241772835871015e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1263.5, 'total_tokens': 180939090, 'epoch': 1.32}
+ 44%|████▍     | 659/1500 [6:03:25<7:44:37, 33.15s/it] 44%|████▍     | 660/1500 [6:03:59<7:44:45, 33.20s/it]                                                      {'loss': 0.1387, 'grad_norm': 0.3451550602912903, 'learning_rate': 6.2312907225262505e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1028.78, 'total_tokens': 181215383, 'epoch': 1.32}
+ 44%|████▍     | 660/1500 [6:03:59<7:44:45, 33.20s/it] 44%|████▍     | 661/1500 [6:04:31<7:39:43, 32.88s/it]                                                      {'loss': 0.1422, 'grad_norm': 0.3661375045776367, 'learning_rate': 6.2208028451419575e-06, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 966.12, 'total_tokens': 181479843, 'epoch': 1.32}
+ 44%|████▍     | 661/1500 [6:04:31<7:39:43, 32.88s/it] 44%|████▍     | 662/1500 [6:05:04<7:40:30, 32.97s/it]                                                      {'loss': 0.1486, 'grad_norm': 0.3981893062591553, 'learning_rate': 6.2103092528150225e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 861.06, 'total_tokens': 181753647, 'epoch': 1.32}
+ 44%|████▍     | 662/1500 [6:05:04<7:40:30, 32.97s/it] 44%|████▍     | 663/1500 [6:05:37<7:40:04, 32.98s/it]                                                      {'loss': 0.1496, 'grad_norm': 0.33463582396507263, 'learning_rate': 6.199809994669082e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1118.34, 'total_tokens': 182034456, 'epoch': 1.33}
+ 44%|████▍     | 663/1500 [6:05:37<7:40:04, 32.98s/it] 44%|████▍     | 664/1500 [6:06:08<7:32:20, 32.47s/it]                                                      {'loss': 0.1417, 'grad_norm': 0.3455786108970642, 'learning_rate': 6.189305119854303e-06, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1195.53, 'total_tokens': 182307858, 'epoch': 1.33}
+ 44%|████▍     | 664/1500 [6:06:08<7:32:20, 32.47s/it] 44%|████▍     | 665/1500 [6:06:39<7:25:09, 31.99s/it]                                                      {'loss': 0.1332, 'grad_norm': 0.3624539077281952, 'learning_rate': 6.178794677547138e-06, 'memory/max_active (GiB)': 50.55, 'memory/max_allocated (GiB)': 50.55, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 859.46, 'total_tokens': 182563000, 'epoch': 1.33}
+ 44%|████▍     | 665/1500 [6:06:39<7:25:09, 31.99s/it] 44%|████▍     | 666/1500 [6:07:13<7:30:48, 32.43s/it]                                                      {'loss': 0.1422, 'grad_norm': 0.3348284661769867, 'learning_rate': 6.168278716950104e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1209.06, 'total_tokens': 182848744, 'epoch': 1.33}
+ 44%|████▍     | 666/1500 [6:07:13<7:30:48, 32.43s/it] 44%|████▍     | 667/1500 [6:07:45<7:28:56, 32.34s/it]                                                      {'loss': 0.1398, 'grad_norm': 0.4149354100227356, 'learning_rate': 6.157757287291557e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1127.06, 'total_tokens': 183103987, 'epoch': 1.33}
+ 44%|████▍     | 667/1500 [6:07:45<7:28:56, 32.34s/it] 45%|████▍     | 668/1500 [6:08:18<7:33:34, 32.71s/it]                                                      {'loss': 0.1409, 'grad_norm': 0.3180009126663208, 'learning_rate': 6.147230437825448e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 825.42, 'total_tokens': 183377294, 'epoch': 1.34}
+ 45%|████▍     | 668/1500 [6:08:18<7:33:34, 32.71s/it] 45%|████▍     | 669/1500 [6:08:52<7:38:54, 33.13s/it]                                                      {'loss': 0.1394, 'grad_norm': 0.3165935277938843, 'learning_rate': 6.136698217831106e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1212.63, 'total_tokens': 183656386, 'epoch': 1.34}
+ 45%|████▍     | 669/1500 [6:08:52<7:38:54, 33.13s/it] 45%|████▍     | 670/1500 [6:09:25<7:35:25, 32.92s/it]                                                      {'loss': 0.1408, 'grad_norm': 0.32451480627059937, 'learning_rate': 6.126160676612992e-06, 'memory/max_active (GiB)': 50.91, 'memory/max_allocated (GiB)': 50.91, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 956.29, 'total_tokens': 183925133, 'epoch': 1.34}
+ 45%|████▍     | 670/1500 [6:09:25<7:35:25, 32.92s/it] 45%|████▍     | 671/1500 [6:09:58<7:36:50, 33.06s/it]                                                      {'loss': 0.143, 'grad_norm': 0.34418144822120667, 'learning_rate': 6.1156178635004885e-06, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 964.97, 'total_tokens': 184180000, 'epoch': 1.34}
+ 45%|████▍     | 671/1500 [6:09:58<7:36:50, 33.06s/it] 45%|████▍     | 672/1500 [6:10:32<7:37:28, 33.15s/it]                                                      {'loss': 0.1436, 'grad_norm': 0.33895283937454224, 'learning_rate': 6.105069827847646e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 833.7, 'total_tokens': 184464877, 'epoch': 1.34}
+ 45%|████▍     | 672/1500 [6:10:32<7:37:28, 33.15s/it] 45%|████▍     | 673/1500 [6:11:05<7:36:52, 33.15s/it]                                                      {'loss': 0.1324, 'grad_norm': 0.3353225588798523, 'learning_rate': 6.094516619032975e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1029.56, 'total_tokens': 184728048, 'epoch': 1.35}
+ 45%|████▍     | 673/1500 [6:11:05<7:36:52, 33.15s/it] 45%|████▍     | 674/1500 [6:11:38<7:38:11, 33.28s/it]                                                      {'loss': 0.1393, 'grad_norm': 0.3167685568332672, 'learning_rate': 6.083958286459193e-06, 'memory/max_active (GiB)': 50.98, 'memory/max_allocated (GiB)': 50.98, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 886.19, 'total_tokens': 185000140, 'epoch': 1.35}
+ 45%|████▍     | 674/1500 [6:11:38<7:38:11, 33.28s/it] 45%|████▌     | 675/1500 [6:12:09<7:27:40, 32.56s/it]                                                      {'loss': 0.1347, 'grad_norm': 0.32058441638946533, 'learning_rate': 6.073394879553008e-06, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 979.22, 'total_tokens': 185261988, 'epoch': 1.35}
+ 45%|████▌     | 675/1500 [6:12:09<7:27:40, 32.56s/it] 45%|████▌     | 676/1500 [6:12:43<7:30:40, 32.82s/it]                                                      {'loss': 0.1466, 'grad_norm': 0.3409251272678375, 'learning_rate': 6.062826447764883e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1223.75, 'total_tokens': 185519416, 'epoch': 1.35}
+ 45%|████▌     | 676/1500 [6:12:43<7:30:40, 32.82s/it] 45%|████▌     | 677/1500 [6:13:17<7:34:44, 33.15s/it]                                                      {'loss': 0.1362, 'grad_norm': 0.32532230019569397, 'learning_rate': 6.052253040568804e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 967.14, 'total_tokens': 185779395, 'epoch': 1.35}
+ 45%|████▌     | 677/1500 [6:13:17<7:34:44, 33.15s/it] 45%|████▌     | 678/1500 [6:13:48<7:26:00, 32.56s/it]                                                      {'loss': 0.1342, 'grad_norm': 0.3369237184524536, 'learning_rate': 6.041674707462044e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1151.16, 'total_tokens': 186036144, 'epoch': 1.36}
+ 45%|████▌     | 678/1500 [6:13:48<7:26:00, 32.56s/it] 45%|████▌     | 679/1500 [6:14:22<7:30:19, 32.91s/it]                                                      {'loss': 0.1295, 'grad_norm': 0.31187954545021057, 'learning_rate': 6.031091497964941e-06, 'memory/max_active (GiB)': 51.01, 'memory/max_allocated (GiB)': 51.01, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 826.19, 'total_tokens': 186302056, 'epoch': 1.36}
+ 45%|████▌     | 679/1500 [6:14:22<7:30:19, 32.91s/it] 45%|████▌     | 680/1500 [6:14:55<7:33:06, 33.15s/it]                                                      {'loss': 0.1411, 'grad_norm': 0.32274314761161804, 'learning_rate': 6.020503461620659e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1045.29, 'total_tokens': 186582477, 'epoch': 1.36}
+ 45%|████▌     | 680/1500 [6:14:55<7:33:06, 33.15s/it] 45%|████▌     | 681/1500 [6:15:28<7:31:40, 33.09s/it]                                                      {'loss': 0.1413, 'grad_norm': 0.3344893455505371, 'learning_rate': 6.009910647994956e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1072.38, 'total_tokens': 186864641, 'epoch': 1.36}
+ 45%|████▌     | 681/1500 [6:15:28<7:31:40, 33.09s/it] 45%|████▌     | 682/1500 [6:16:01<7:31:55, 33.15s/it]                                                      {'loss': 0.138, 'grad_norm': 0.3454076647758484, 'learning_rate': 5.999313106675957e-06, 'memory/max_active (GiB)': 52.48, 'memory/max_allocated (GiB)': 52.48, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1207.64, 'total_tokens': 187119924, 'epoch': 1.36}
+ 45%|████▌     | 682/1500 [6:16:01<7:31:55, 33.15s/it] 46%|████▌     | 683/1500 [6:16:34<7:27:43, 32.88s/it]                                                      {'loss': 0.1453, 'grad_norm': 0.330191433429718, 'learning_rate': 5.988710887273916e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1146.31, 'total_tokens': 187391136, 'epoch': 1.37}
+ 46%|████▌     | 683/1500 [6:16:34<7:27:43, 32.88s/it] 46%|████▌     | 684/1500 [6:17:07<7:27:02, 32.87s/it]                                                      {'loss': 0.1425, 'grad_norm': 0.3101576864719391, 'learning_rate': 5.97810403942099e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 992.63, 'total_tokens': 187683266, 'epoch': 1.37}
+ 46%|████▌     | 684/1500 [6:17:07<7:27:02, 32.87s/it] 46%|████▌     | 685/1500 [6:17:41<7:31:11, 33.22s/it]                                                      {'loss': 0.1379, 'grad_norm': 0.3334048390388489, 'learning_rate': 5.967492612770999e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1234.39, 'total_tokens': 187934899, 'epoch': 1.37}
+ 46%|████▌     | 685/1500 [6:17:41<7:31:11, 33.22s/it] 46%|████▌     | 686/1500 [6:18:13<7:26:52, 32.94s/it]                                                      {'loss': 0.1388, 'grad_norm': 0.32686150074005127, 'learning_rate': 5.9568766569991996e-06, 'memory/max_active (GiB)': 50.52, 'memory/max_allocated (GiB)': 50.52, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1016.02, 'total_tokens': 188220289, 'epoch': 1.37}
+ 46%|████▌     | 686/1500 [6:18:13<7:26:52, 32.94s/it] 46%|████▌     | 687/1500 [6:18:44<7:20:24, 32.50s/it]                                                      {'loss': 0.1395, 'grad_norm': 0.3202857971191406, 'learning_rate': 5.946256221802052e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1165.12, 'total_tokens': 188489390, 'epoch': 1.37}
+ 46%|████▌     | 687/1500 [6:18:44<7:20:24, 32.50s/it] 46%|████▌     | 688/1500 [6:19:16<7:15:47, 32.20s/it]                                                      {'loss': 0.1323, 'grad_norm': 0.3294365704059601, 'learning_rate': 5.9356313568969835e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 929.43, 'total_tokens': 188756516, 'epoch': 1.38}
+ 46%|████▌     | 688/1500 [6:19:16<7:15:47, 32.20s/it] 46%|████▌     | 689/1500 [6:19:48<7:13:41, 32.09s/it]                                                      {'loss': 0.1473, 'grad_norm': 0.35343044996261597, 'learning_rate': 5.925002112022158e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 995.49, 'total_tokens': 189010047, 'epoch': 1.38}
+ 46%|████▌     | 689/1500 [6:19:48<7:13:41, 32.09s/it] 46%|████▌     | 690/1500 [6:20:22<7:21:44, 32.72s/it]                                                      {'loss': 0.1495, 'grad_norm': 0.3409004807472229, 'learning_rate': 5.914368536936248e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 718.61, 'total_tokens': 189272855, 'epoch': 1.38}
+ 46%|████▌     | 690/1500 [6:20:22<7:21:44, 32.72s/it] 46%|████▌     | 691/1500 [6:20:56<7:25:51, 33.07s/it]                                                      {'loss': 0.1402, 'grad_norm': 0.3212086856365204, 'learning_rate': 5.903730681418191e-06, 'memory/max_active (GiB)': 50.91, 'memory/max_allocated (GiB)': 50.91, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 823.84, 'total_tokens': 189550240, 'epoch': 1.38}
+ 46%|████▌     | 691/1500 [6:20:56<7:25:51, 33.07s/it] 46%|████▌     | 692/1500 [6:21:29<7:25:34, 33.09s/it]                                                      {'loss': 0.1409, 'grad_norm': 0.31651759147644043, 'learning_rate': 5.893088595266965e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1150.26, 'total_tokens': 189827012, 'epoch': 1.38}
+ 46%|████▌     | 692/1500 [6:21:29<7:25:34, 33.09s/it] 46%|████▌     | 693/1500 [6:22:02<7:23:35, 32.98s/it]                                                      {'loss': 0.1414, 'grad_norm': 0.3132672905921936, 'learning_rate': 5.882442328301356e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1235.26, 'total_tokens': 190096591, 'epoch': 1.39}
+ 46%|████▌     | 693/1500 [6:22:02<7:23:35, 32.98s/it] 46%|████▋     | 694/1500 [6:22:33<7:15:32, 32.42s/it]                                                      {'loss': 0.1348, 'grad_norm': 0.3215223252773285, 'learning_rate': 5.8717919303597124e-06, 'memory/max_active (GiB)': 50.98, 'memory/max_allocated (GiB)': 50.98, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 994.03, 'total_tokens': 190358086, 'epoch': 1.39}
+ 46%|████▋     | 694/1500 [6:22:33<7:15:32, 32.42s/it] 46%|████▋     | 695/1500 [6:23:06<7:18:00, 32.65s/it]                                                      {'loss': 0.1391, 'grad_norm': 0.3073287904262543, 'learning_rate': 5.8611374512997346e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 961.68, 'total_tokens': 190637573, 'epoch': 1.39}
+ 46%|████▋     | 695/1500 [6:23:06<7:18:00, 32.65s/it] 46%|████▋     | 696/1500 [6:23:37<7:11:22, 32.19s/it]                                                      {'loss': 0.1541, 'grad_norm': 0.3516857326030731, 'learning_rate': 5.850478940998215e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1317.29, 'total_tokens': 190904069, 'epoch': 1.39}
+ 46%|████▋     | 696/1500 [6:23:37<7:11:22, 32.19s/it] 46%|████▋     | 697/1500 [6:24:10<7:14:51, 32.49s/it]                                                      {'loss': 0.1401, 'grad_norm': 0.31647440791130066, 'learning_rate': 5.839816449350824e-06, 'memory/max_active (GiB)': 51.63, 'memory/max_allocated (GiB)': 51.63, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 979.41, 'total_tokens': 191174431, 'epoch': 1.39}
+ 46%|████▋     | 697/1500 [6:24:10<7:14:51, 32.49s/it] 47%|████▋     | 698/1500 [6:24:42<7:11:12, 32.26s/it]                                                      {'loss': 0.1401, 'grad_norm': 0.33927780389785767, 'learning_rate': 5.829150026271871e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1046.2, 'total_tokens': 191451745, 'epoch': 1.4}
+ 47%|████▋     | 698/1500 [6:24:42<7:11:12, 32.26s/it] 47%|████▋     | 699/1500 [6:25:15<7:14:33, 32.55s/it]                                                      {'loss': 0.1424, 'grad_norm': 0.3194051682949066, 'learning_rate': 5.8184797216940655e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 847.79, 'total_tokens': 191736699, 'epoch': 1.4}
+ 47%|████▋     | 699/1500 [6:25:15<7:14:33, 32.55s/it] 47%|████▋     | 700/1500 [6:25:49<7:20:13, 33.02s/it]                                                      {'loss': 0.1384, 'grad_norm': 0.3190482556819916, 'learning_rate': 5.8078055855682904e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1154.26, 'total_tokens': 192004518, 'epoch': 1.4}
+ 47%|████▋     | 700/1500 [6:25:49<7:20:13, 33.02s/it] 47%|████▋     | 701/1500 [6:26:23<7:21:15, 33.14s/it]                                                      {'loss': 0.1498, 'grad_norm': 0.33328545093536377, 'learning_rate': 5.7971276678633625e-06, 'memory/max_active (GiB)': 50.98, 'memory/max_allocated (GiB)': 50.98, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 857.03, 'total_tokens': 192298617, 'epoch': 1.4}
+ 47%|████▋     | 701/1500 [6:26:23<7:21:15, 33.14s/it] 47%|████▋     | 702/1500 [6:26:53<7:11:16, 32.43s/it]                                                      {'loss': 0.1527, 'grad_norm': 0.36392179131507874, 'learning_rate': 5.786446018565804e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1224.22, 'total_tokens': 192580193, 'epoch': 1.4}
+ 47%|████▋     | 702/1500 [6:26:53<7:11:16, 32.43s/it] 47%|████▋     | 703/1500 [6:27:28<7:17:13, 32.92s/it]                                                      {'loss': 0.1386, 'grad_norm': 0.325369268655777, 'learning_rate': 5.775760687679603e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1007.64, 'total_tokens': 192864575, 'epoch': 1.41}
+ 47%|████▋     | 703/1500 [6:27:28<7:17:13, 32.92s/it] 47%|████▋     | 704/1500 [6:28:00<7:13:27, 32.67s/it]                                                      {'loss': 0.1412, 'grad_norm': 0.32238179445266724, 'learning_rate': 5.765071725225988e-06, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1205.78, 'total_tokens': 193132034, 'epoch': 1.41}
+ 47%|████▋     | 704/1500 [6:28:00<7:13:27, 32.67s/it] 47%|████▋     | 705/1500 [6:28:33<7:17:33, 33.02s/it]                                                      {'loss': 0.145, 'grad_norm': 0.32566919922828674, 'learning_rate': 5.754379181243179e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1040.4, 'total_tokens': 193405888, 'epoch': 1.41}
+ 47%|████▋     | 705/1500 [6:28:33<7:17:33, 33.02s/it] 47%|████▋     | 706/1500 [6:29:05<7:09:28, 32.45s/it]                                                      {'loss': 0.1467, 'grad_norm': 0.3288956880569458, 'learning_rate': 5.743683105786172e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 948.01, 'total_tokens': 193674571, 'epoch': 1.41}
+ 47%|████▋     | 706/1500 [6:29:05<7:09:28, 32.45s/it] 47%|████▋     | 707/1500 [6:29:38<7:14:28, 32.87s/it]                                                      {'loss': 0.1446, 'grad_norm': 0.3534089922904968, 'learning_rate': 5.7329835489264855e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 966.79, 'total_tokens': 193945841, 'epoch': 1.41}
+ 47%|████▋     | 707/1500 [6:29:38<7:14:28, 32.87s/it] 47%|████▋     | 708/1500 [6:30:12<7:16:26, 33.06s/it]                                                      {'loss': 0.1408, 'grad_norm': 0.3446260392665863, 'learning_rate': 5.7222805607519425e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1203.55, 'total_tokens': 194211207, 'epoch': 1.42}
+ 47%|████▋     | 708/1500 [6:30:12<7:16:26, 33.06s/it] 47%|████▋     | 709/1500 [6:30:45<7:16:24, 33.10s/it]                                                      {'loss': 0.1404, 'grad_norm': 0.30697983503341675, 'learning_rate': 5.711574191366427e-06, 'memory/max_active (GiB)': 51.76, 'memory/max_allocated (GiB)': 51.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 931.18, 'total_tokens': 194501198, 'epoch': 1.42}
+ 47%|████▋     | 709/1500 [6:30:45<7:16:24, 33.10s/it] 47%|████▋     | 710/1500 [6:31:19<7:17:22, 33.22s/it]                                                      {'loss': 0.1392, 'grad_norm': 0.300559937953949, 'learning_rate': 5.7008644908896485e-06, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1069.11, 'total_tokens': 194795391, 'epoch': 1.42}
+ 47%|████▋     | 710/1500 [6:31:19<7:17:22, 33.22s/it] 47%|████▋     | 711/1500 [6:31:51<7:11:40, 32.83s/it]                                                      {'loss': 0.1391, 'grad_norm': 0.3457801938056946, 'learning_rate': 5.690151509456916e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1009.03, 'total_tokens': 195065017, 'epoch': 1.42}
+ 47%|████▋     | 711/1500 [6:31:51<7:11:40, 32.83s/it] 47%|████▋     | 712/1500 [6:32:23<7:08:15, 32.61s/it]                                                      {'loss': 0.139, 'grad_norm': 0.45874160528182983, 'learning_rate': 5.67943529721889e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1331.5, 'total_tokens': 195331498, 'epoch': 1.42}
+ 47%|████▋     | 712/1500 [6:32:23<7:08:15, 32.61s/it] 48%|████▊     | 713/1500 [6:32:53<6:59:22, 31.97s/it]                                                      {'loss': 0.1383, 'grad_norm': 0.3109588027000427, 'learning_rate': 5.668715904341365e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1322.83, 'total_tokens': 195608901, 'epoch': 1.43}
+ 48%|████▊     | 713/1500 [6:32:53<6:59:22, 31.97s/it] 48%|████▊     | 714/1500 [6:33:26<7:03:29, 32.33s/it]                                                      {'loss': 0.1366, 'grad_norm': 0.3729921579360962, 'learning_rate': 5.657993381005016e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 876.2, 'total_tokens': 195858601, 'epoch': 1.43}
+ 48%|████▊     | 714/1500 [6:33:26<7:03:29, 32.33s/it] 48%|████▊     | 715/1500 [6:33:58<7:02:11, 32.27s/it]                                                      {'loss': 0.1283, 'grad_norm': 0.32364943623542786, 'learning_rate': 5.647267777405178e-06, 'memory/max_active (GiB)': 51.98, 'memory/max_allocated (GiB)': 51.98, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1002.79, 'total_tokens': 196121537, 'epoch': 1.43}
+ 48%|████▊     | 715/1500 [6:33:58<7:02:11, 32.27s/it] 48%|████▊     | 716/1500 [6:34:32<7:04:52, 32.52s/it]                                                      {'loss': 0.1415, 'grad_norm': 0.32590314745903015, 'learning_rate': 5.636539143751602e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1122.95, 'total_tokens': 196395650, 'epoch': 1.43}
+ 48%|████▊     | 716/1500 [6:34:32<7:04:52, 32.52s/it] 48%|████▊     | 717/1500 [6:35:06<7:11:28, 33.06s/it]                                                      {'loss': 0.1371, 'grad_norm': 0.30986785888671875, 'learning_rate': 5.62580753026823e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1122.02, 'total_tokens': 196684184, 'epoch': 1.43}
+ 48%|████▊     | 717/1500 [6:35:06<7:11:28, 33.06s/it] 48%|████▊     | 718/1500 [6:35:40<7:13:12, 33.24s/it]                                                      {'loss': 0.1329, 'grad_norm': 0.3078106641769409, 'learning_rate': 5.615072987192946e-06, 'memory/max_active (GiB)': 52.48, 'memory/max_allocated (GiB)': 52.48, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 898.59, 'total_tokens': 196966220, 'epoch': 1.44}
+ 48%|████▊     | 718/1500 [6:35:40<7:13:12, 33.24s/it] 48%|████▊     | 719/1500 [6:36:13<7:14:04, 33.35s/it]                                                      {'loss': 0.1311, 'grad_norm': 0.332809180021286, 'learning_rate': 5.6043355647773515e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1174.05, 'total_tokens': 197238095, 'epoch': 1.44}
+ 48%|████▊     | 719/1500 [6:36:13<7:14:04, 33.35s/it] 48%|████▊     | 720/1500 [6:36:46<7:10:49, 33.14s/it]                                                      {'loss': 0.1376, 'grad_norm': 0.3192570209503174, 'learning_rate': 5.593595313286526e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1056.94, 'total_tokens': 197530221, 'epoch': 1.44}
+ 48%|████▊     | 720/1500 [6:36:46<7:10:49, 33.14s/it] 48%|████▊     | 721/1500 [6:37:19<7:09:21, 33.07s/it]                                                      {'loss': 0.1426, 'grad_norm': 0.3243967592716217, 'learning_rate': 5.5828522829987965e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 959.05, 'total_tokens': 197825983, 'epoch': 1.44}
+ 48%|████▊     | 721/1500 [6:37:19<7:09:21, 33.07s/it] 48%|████▊     | 722/1500 [6:37:49<7:00:00, 32.39s/it]                                                      {'loss': 0.1414, 'grad_norm': 0.3458060622215271, 'learning_rate': 5.5721065242054935e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 949.51, 'total_tokens': 198085342, 'epoch': 1.44}
+ 48%|████▊     | 722/1500 [6:37:49<7:00:00, 32.39s/it] 48%|████▊     | 723/1500 [6:38:23<7:02:07, 32.60s/it]                                                      {'loss': 0.1485, 'grad_norm': 0.37666961550712585, 'learning_rate': 5.561358087210723e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 800.42, 'total_tokens': 198356618, 'epoch': 1.45}
+ 48%|████▊     | 723/1500 [6:38:23<7:02:07, 32.60s/it] 48%|████▊     | 724/1500 [6:38:56<7:06:04, 32.94s/it]                                                      {'loss': 0.1474, 'grad_norm': 0.34369340538978577, 'learning_rate': 5.550607022331129e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1046.83, 'total_tokens': 198648131, 'epoch': 1.45}
+ 48%|████▊     | 724/1500 [6:38:56<7:06:04, 32.94s/it] 48%|████▊     | 725/1500 [6:39:29<7:05:42, 32.96s/it]                                                      {'loss': 0.1378, 'grad_norm': 0.3242817521095276, 'learning_rate': 5.539853379895656e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1332.67, 'total_tokens': 198928823, 'epoch': 1.45}
+ 48%|████▊     | 725/1500 [6:39:29<7:05:42, 32.96s/it] 48%|████▊     | 726/1500 [6:40:03<7:09:26, 33.29s/it]                                                      {'loss': 0.1443, 'grad_norm': 0.35240453481674194, 'learning_rate': 5.5290972102453126e-06, 'memory/max_active (GiB)': 51.98, 'memory/max_allocated (GiB)': 51.98, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 971.21, 'total_tokens': 199192308, 'epoch': 1.45}
+ 48%|████▊     | 726/1500 [6:40:03<7:09:26, 33.29s/it] 48%|████▊     | 727/1500 [6:40:36<7:07:41, 33.20s/it]                                                      {'loss': 0.1531, 'grad_norm': 0.3314550220966339, 'learning_rate': 5.518338563732945e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 789.06, 'total_tokens': 199459489, 'epoch': 1.45}
+ 48%|████▊     | 727/1500 [6:40:36<7:07:41, 33.20s/it] 49%|████▊     | 728/1500 [6:41:10<7:10:34, 33.46s/it]                                                      {'loss': 0.1385, 'grad_norm': 0.3278958201408386, 'learning_rate': 5.5075774907229865e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1232.7, 'total_tokens': 199751043, 'epoch': 1.46}
+ 49%|████▊     | 728/1500 [6:41:10<7:10:34, 33.46s/it] 49%|████▊     | 729/1500 [6:41:43<7:07:11, 33.24s/it]                                                      {'loss': 0.1468, 'grad_norm': 0.3455234169960022, 'learning_rate': 5.496814041591234e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1144.22, 'total_tokens': 200035156, 'epoch': 1.46}
+ 49%|████▊     | 729/1500 [6:41:43<7:07:11, 33.24s/it] 49%|████▊     | 730/1500 [6:42:17<7:10:11, 33.52s/it]                                                      {'loss': 0.143, 'grad_norm': 0.35327017307281494, 'learning_rate': 5.486048266724609e-06, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 981.17, 'total_tokens': 200327768, 'epoch': 1.46}
+ 49%|████▊     | 730/1500 [6:42:17<7:10:11, 33.52s/it] 49%|████▊     | 731/1500 [6:42:49<7:03:39, 33.05s/it]                                                      {'loss': 0.1367, 'grad_norm': 0.3342503011226654, 'learning_rate': 5.475280216520913e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1126.31, 'total_tokens': 200591481, 'epoch': 1.46}
+ 49%|████▊     | 731/1500 [6:42:49<7:03:39, 33.05s/it] 49%|████▉     | 732/1500 [6:43:23<7:04:48, 33.19s/it]                                                      {'loss': 0.1389, 'grad_norm': 0.32118088006973267, 'learning_rate': 5.4645099413886106e-06, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 893.96, 'total_tokens': 200873554, 'epoch': 1.46}
+ 49%|████▉     | 732/1500 [6:43:23<7:04:48, 33.19s/it] 49%|████▉     | 733/1500 [6:43:55<7:01:32, 32.98s/it]                                                      {'loss': 0.1337, 'grad_norm': 0.3380679190158844, 'learning_rate': 5.453737491746572e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 909.84, 'total_tokens': 201117534, 'epoch': 1.47}
+ 49%|████▉     | 733/1500 [6:43:55<7:01:32, 32.98s/it] 49%|████▉     | 734/1500 [6:44:29<7:02:29, 33.09s/it]                                                      {'loss': 0.142, 'grad_norm': 0.31084293127059937, 'learning_rate': 5.4429629180238505e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1221.09, 'total_tokens': 201409262, 'epoch': 1.47}
+ 49%|████▉     | 734/1500 [6:44:29<7:02:29, 33.09s/it] 49%|████▉     | 735/1500 [6:45:03<7:06:37, 33.46s/it]                                                      {'loss': 0.1331, 'grad_norm': 0.3371521830558777, 'learning_rate': 5.4321862706594454e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1071.54, 'total_tokens': 201704642, 'epoch': 1.47}
+ 49%|████▉     | 735/1500 [6:45:03<7:06:37, 33.46s/it] 49%|████▉     | 736/1500 [6:45:36<7:04:41, 33.35s/it]                                                      {'loss': 0.1406, 'grad_norm': 0.33147478103637695, 'learning_rate': 5.421407600102058e-06, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 868.74, 'total_tokens': 201973473, 'epoch': 1.47}
+ 49%|████▉     | 736/1500 [6:45:36<7:04:41, 33.35s/it] 49%|████▉     | 737/1500 [6:46:09<7:02:16, 33.21s/it]                                                      {'loss': 0.1372, 'grad_norm': 0.3341558277606964, 'learning_rate': 5.410626956809864e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1056.3, 'total_tokens': 202256319, 'epoch': 1.47}
+ 49%|████▉     | 737/1500 [6:46:09<7:02:16, 33.21s/it] 49%|████▉     | 738/1500 [6:46:42<7:02:16, 33.25s/it]                                                      {'loss': 0.1419, 'grad_norm': 0.31838202476501465, 'learning_rate': 5.3998443912502755e-06, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 692.57, 'total_tokens': 202520878, 'epoch': 1.48}
+ 49%|████▉     | 738/1500 [6:46:42<7:02:16, 33.25s/it] 49%|████▉     | 739/1500 [6:47:15<7:00:05, 33.12s/it]                                                      {'loss': 0.1383, 'grad_norm': 0.3252417743206024, 'learning_rate': 5.3890599538996994e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1171.41, 'total_tokens': 202795895, 'epoch': 1.48}
+ 49%|████▉     | 739/1500 [6:47:15<7:00:05, 33.12s/it] 49%|████▉     | 740/1500 [6:47:49<7:03:23, 33.43s/it]                                                      {'loss': 0.1379, 'grad_norm': 0.31527164578437805, 'learning_rate': 5.378273695243309e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 972.34, 'total_tokens': 203066814, 'epoch': 1.48}
+ 49%|████▉     | 740/1500 [6:47:49<7:03:23, 33.43s/it] 49%|████▉     | 741/1500 [6:48:21<6:57:31, 33.01s/it]                                                      {'loss': 0.1359, 'grad_norm': 0.342836856842041, 'learning_rate': 5.367485665774802e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 923.94, 'total_tokens': 203318545, 'epoch': 1.48}
+ 49%|████▉     | 741/1500 [6:48:21<6:57:31, 33.01s/it] 49%|████▉     | 742/1500 [6:48:54<6:54:57, 32.85s/it]                                                      {'loss': 0.1348, 'grad_norm': 0.31708791851997375, 'learning_rate': 5.356695915996162e-06, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1128.4, 'total_tokens': 203580938, 'epoch': 1.48}
+ 49%|████▉     | 742/1500 [6:48:54<6:54:57, 32.85s/it] 50%|████▉     | 743/1500 [6:49:26<6:53:59, 32.81s/it]                                                      {'loss': 0.1372, 'grad_norm': 0.31488052010536194, 'learning_rate': 5.345904496417433e-06, 'memory/max_active (GiB)': 52.97, 'memory/max_allocated (GiB)': 52.97, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1306.61, 'total_tokens': 203853733, 'epoch': 1.49}
+ 50%|████▉     | 743/1500 [6:49:26<6:53:59, 32.81s/it] 50%|████▉     | 744/1500 [6:49:56<6:42:21, 31.93s/it]                                                      {'loss': 0.1305, 'grad_norm': 0.32366374135017395, 'learning_rate': 5.335111457556473e-06, 'memory/max_active (GiB)': 50.07, 'memory/max_allocated (GiB)': 50.07, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 962.36, 'total_tokens': 204100477, 'epoch': 1.49}
+ 50%|████▉     | 744/1500 [6:49:56<6:42:21, 31.93s/it] 50%|████▉     | 745/1500 [6:50:29<6:42:58, 32.03s/it]                                                      {'loss': 0.1356, 'grad_norm': 0.3184882402420044, 'learning_rate': 5.324316849938715e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1293.61, 'total_tokens': 204385886, 'epoch': 1.49}
+ 50%|████▉     | 745/1500 [6:50:29<6:42:58, 32.03s/it] 50%|████▉     | 746/1500 [6:51:01<6:44:06, 32.16s/it]                                                      {'loss': 0.1425, 'grad_norm': 0.3271176517009735, 'learning_rate': 5.313520724096946e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 910.84, 'total_tokens': 204663376, 'epoch': 1.49}
+ 50%|████▉     | 746/1500 [6:51:01<6:44:06, 32.16s/it] 50%|████▉     | 747/1500 [6:51:32<6:40:14, 31.89s/it]                                                      {'loss': 0.1381, 'grad_norm': 0.32999974489212036, 'learning_rate': 5.30272313057105e-06, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1090.24, 'total_tokens': 204934470, 'epoch': 1.49}
+ 50%|████▉     | 747/1500 [6:51:32<6:40:14, 31.89s/it] 50%|████▉     | 748/1500 [6:52:06<6:45:03, 32.32s/it]                                                      {'loss': 0.1415, 'grad_norm': 0.30329811573028564, 'learning_rate': 5.29192411990779e-06, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1064.07, 'total_tokens': 205228571, 'epoch': 1.5}
+ 50%|████▉     | 748/1500 [6:52:06<6:45:03, 32.32s/it] 50%|████▉     | 749/1500 [6:52:39<6:50:14, 32.78s/it]                                                      {'loss': 0.1411, 'grad_norm': 0.30150192975997925, 'learning_rate': 5.281123742660558e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1093.06, 'total_tokens': 205529607, 'epoch': 1.5}
+ 50%|████▉     | 749/1500 [6:52:40<6:50:14, 32.78s/it] 50%|█████     | 750/1500 [6:53:12<6:48:03, 32.64s/it]                                                      {'loss': 0.1423, 'grad_norm': 0.33415210247039795, 'learning_rate': 5.270322049389143e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1107.28, 'total_tokens': 205793689, 'epoch': 1.5}
+ 50%|█████     | 750/1500 [6:53:12<6:48:03, 32.64s/it] 50%|█████     | 751/1500 [6:53:45<6:48:15, 32.70s/it]                                                      {'loss': 0.1458, 'grad_norm': 0.3449745178222656, 'learning_rate': 5.2595190906595e-06, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1096.51, 'total_tokens': 206045724, 'epoch': 1.5}
+ 50%|█████     | 751/1500 [6:53:45<6:48:15, 32.70s/it] 50%|█████     | 752/1500 [6:54:17<6:48:03, 32.73s/it]                                                      {'loss': 0.1385, 'grad_norm': 0.3064744770526886, 'learning_rate': 5.248714917043501e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1090.95, 'total_tokens': 206342226, 'epoch': 1.5}
+ 50%|█████     | 752/1500 [6:54:17<6:48:03, 32.73s/it] 50%|█████     | 753/1500 [6:54:50<6:45:14, 32.55s/it]                                                      {'loss': 0.1404, 'grad_norm': 0.3222711682319641, 'learning_rate': 5.237909579118713e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1083.21, 'total_tokens': 206609682, 'epoch': 1.51}
+ 50%|█████     | 753/1500 [6:54:50<6:45:14, 32.55s/it] 50%|█████     | 754/1500 [6:55:23<6:48:08, 32.83s/it]                                                      {'loss': 0.1329, 'grad_norm': 0.3333777189254761, 'learning_rate': 5.227103127468144e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 939.22, 'total_tokens': 206903263, 'epoch': 1.51}
+ 50%|█████     | 754/1500 [6:55:23<6:48:08, 32.83s/it] 50%|█████     | 755/1500 [6:55:56<6:46:12, 32.72s/it]                                                      {'loss': 0.1399, 'grad_norm': 0.3150062561035156, 'learning_rate': 5.216295612680026e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1092.06, 'total_tokens': 207175377, 'epoch': 1.51}
+ 50%|█████     | 755/1500 [6:55:56<6:46:12, 32.72s/it] 50%|█████     | 756/1500 [6:56:30<6:50:20, 33.09s/it]                                                      {'loss': 0.1499, 'grad_norm': 0.32127001881599426, 'learning_rate': 5.205487085347559e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1170.81, 'total_tokens': 207472438, 'epoch': 1.51}
+ 50%|█████     | 756/1500 [6:56:30<6:50:20, 33.09s/it] 50%|█████     | 757/1500 [6:57:03<6:50:59, 33.19s/it]                                                      {'loss': 0.1375, 'grad_norm': 0.3348589837551117, 'learning_rate': 5.194677596068689e-06, 'memory/max_active (GiB)': 51.24, 'memory/max_allocated (GiB)': 51.24, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 691.98, 'total_tokens': 207726772, 'epoch': 1.51}
+ 50%|█████     | 757/1500 [6:57:03<6:50:59, 33.19s/it] 51%|█████     | 758/1500 [6:57:35<6:47:10, 32.92s/it]                                                      {'loss': 0.1467, 'grad_norm': 0.3321184515953064, 'learning_rate': 5.183867195445863e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1271.74, 'total_tokens': 208002458, 'epoch': 1.52}
+ 51%|█████     | 758/1500 [6:57:35<6:47:10, 32.92s/it] 51%|█████     | 759/1500 [6:58:08<6:47:28, 32.99s/it]                                                      {'loss': 0.1525, 'grad_norm': 0.3474573493003845, 'learning_rate': 5.173055934085792e-06, 'memory/max_active (GiB)': 51.37, 'memory/max_allocated (GiB)': 51.37, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 848.53, 'total_tokens': 208283100, 'epoch': 1.52}
+ 51%|█████     | 759/1500 [6:58:08<6:47:28, 32.99s/it] 51%|█████     | 760/1500 [6:58:42<6:50:04, 33.25s/it]                                                      {'loss': 0.1401, 'grad_norm': 0.3082384467124939, 'learning_rate': 5.162243862599221e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1319.24, 'total_tokens': 208591507, 'epoch': 1.52}
+ 51%|█████     | 760/1500 [6:58:42<6:50:04, 33.25s/it] 51%|█████     | 761/1500 [6:59:15<6:48:30, 33.17s/it]                                                      {'loss': 0.1413, 'grad_norm': 0.31555500626564026, 'learning_rate': 5.1514310316006835e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1038.5, 'total_tokens': 208871802, 'epoch': 1.52}
+ 51%|█████     | 761/1500 [6:59:15<6:48:30, 33.17s/it] 51%|█████     | 762/1500 [6:59:48<6:48:20, 33.20s/it]                                                      {'loss': 0.133, 'grad_norm': 0.2961810231208801, 'learning_rate': 5.140617491708271e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 859.83, 'total_tokens': 209157134, 'epoch': 1.52}
+ 51%|█████     | 762/1500 [6:59:48<6:48:20, 33.20s/it] 51%|█████     | 763/1500 [7:00:22<6:49:06, 33.31s/it]                                                      {'loss': 0.1401, 'grad_norm': 0.31742894649505615, 'learning_rate': 5.1298032935433915e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 996.67, 'total_tokens': 209446180, 'epoch': 1.53}
+ 51%|█████     | 763/1500 [7:00:22<6:49:06, 33.31s/it] 51%|█████     | 764/1500 [7:00:56<6:52:17, 33.61s/it]                                                      {'loss': 0.1334, 'grad_norm': 0.31103476881980896, 'learning_rate': 5.118988487730537e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1163.36, 'total_tokens': 209744268, 'epoch': 1.53}
+ 51%|█████     | 764/1500 [7:00:56<6:52:17, 33.61s/it] 51%|█████     | 765/1500 [7:01:29<6:47:06, 33.23s/it]                                                      {'loss': 0.1398, 'grad_norm': 0.31573230028152466, 'learning_rate': 5.1081731248970435e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1038.78, 'total_tokens': 210038056, 'epoch': 1.53}
+ 51%|█████     | 765/1500 [7:01:29<6:47:06, 33.23s/it] 51%|█████     | 766/1500 [7:02:02<6:47:12, 33.29s/it]                                                      {'loss': 0.1304, 'grad_norm': 0.30204546451568604, 'learning_rate': 5.097357255672851e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1019.08, 'total_tokens': 210303983, 'epoch': 1.53}
+ 51%|█████     | 766/1500 [7:02:02<6:47:12, 33.29s/it] 51%|█████     | 767/1500 [7:02:36<6:49:16, 33.50s/it]                                                      {'loss': 0.1413, 'grad_norm': 0.33412110805511475, 'learning_rate': 5.0865409306902755e-06, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 856.25, 'total_tokens': 210570591, 'epoch': 1.53}
+ 51%|█████     | 767/1500 [7:02:36<6:49:16, 33.50s/it] 51%|█████     | 768/1500 [7:03:09<6:45:38, 33.25s/it]                                                      {'loss': 0.1376, 'grad_norm': 0.31050175428390503, 'learning_rate': 5.0757242005837625e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1058.16, 'total_tokens': 210848066, 'epoch': 1.54}
+ 51%|█████     | 768/1500 [7:03:09<6:45:38, 33.25s/it] 51%|█████▏    | 769/1500 [7:03:42<6:45:45, 33.30s/it]                                                      {'loss': 0.1414, 'grad_norm': 0.3415951430797577, 'learning_rate': 5.064907115989655e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 998.63, 'total_tokens': 211106140, 'epoch': 1.54}
+ 51%|█████▏    | 769/1500 [7:03:42<6:45:45, 33.30s/it] 51%|█████▏    | 770/1500 [7:04:16<6:45:38, 33.34s/it]                                                      {'loss': 0.1341, 'grad_norm': 0.31419530510902405, 'learning_rate': 5.054089727545958e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1036.99, 'total_tokens': 211368884, 'epoch': 1.54}
+ 51%|█████▏    | 770/1500 [7:04:16<6:45:38, 33.34s/it] 51%|█████▏    | 771/1500 [7:04:48<6:41:13, 33.02s/it]                                                      {'loss': 0.1353, 'grad_norm': 0.3347281217575073, 'learning_rate': 5.043272085892093e-06, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1034.13, 'total_tokens': 211626383, 'epoch': 1.54}
+ 51%|█████▏    | 771/1500 [7:04:48<6:41:13, 33.02s/it] 51%|█████▏    | 772/1500 [7:05:21<6:41:21, 33.08s/it]                                                      {'loss': 0.1345, 'grad_norm': 0.3130718171596527, 'learning_rate': 5.032454241668676e-06, 'memory/max_active (GiB)': 51.47, 'memory/max_allocated (GiB)': 51.47, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 809.67, 'total_tokens': 211894177, 'epoch': 1.54}
+ 51%|█████▏    | 772/1500 [7:05:21<6:41:21, 33.08s/it] 52%|█████▏    | 773/1500 [7:05:55<6:42:59, 33.26s/it]                                                      {'loss': 0.1412, 'grad_norm': 0.30082231760025024, 'learning_rate': 5.021636245517261e-06, 'memory/max_active (GiB)': 51.47, 'memory/max_allocated (GiB)': 51.47, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 930.97, 'total_tokens': 212203533, 'epoch': 1.55}
+ 52%|█████▏    | 773/1500 [7:05:55<6:42:59, 33.26s/it] 52%|█████▏    | 774/1500 [7:06:29<6:44:38, 33.44s/it]                                                      {'loss': 0.1402, 'grad_norm': 0.31392574310302734, 'learning_rate': 5.010818148080121e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 966.6, 'total_tokens': 212481314, 'epoch': 1.55}
+ 52%|█████▏    | 774/1500 [7:06:29<6:44:38, 33.44s/it] 52%|█████▏    | 775/1500 [7:07:02<6:44:14, 33.45s/it]                                                      {'loss': 0.1467, 'grad_norm': 0.328818678855896, 'learning_rate': 5e-06, 'memory/max_active (GiB)': 51.24, 'memory/max_allocated (GiB)': 51.24, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1062.54, 'total_tokens': 212763818, 'epoch': 1.55}
+ 52%|█████▏    | 775/1500 [7:07:02<6:44:14, 33.45s/it] 52%|█████▏    | 776/1500 [7:07:36<6:43:56, 33.48s/it]                                                      {'loss': 0.1409, 'grad_norm': 0.3304685950279236, 'learning_rate': 4.989181851919879e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 820.29, 'total_tokens': 213032183, 'epoch': 1.55}
+ 52%|█████▏    | 776/1500 [7:07:36<6:43:56, 33.48s/it] 52%|█████▏    | 777/1500 [7:08:08<6:37:46, 33.01s/it]                                                      {'loss': 0.1419, 'grad_norm': 0.3356722891330719, 'learning_rate': 4.978363754482741e-06, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1159.06, 'total_tokens': 213307079, 'epoch': 1.55}
+ 52%|█████▏    | 777/1500 [7:08:08<6:37:46, 33.01s/it] 52%|█████▏    | 778/1500 [7:08:39<6:31:31, 32.54s/it]                                                      {'loss': 0.137, 'grad_norm': 0.3062618374824524, 'learning_rate': 4.967545758331325e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1083.14, 'total_tokens': 213589179, 'epoch': 1.56}
+ 52%|█████▏    | 778/1500 [7:08:39<6:31:31, 32.54s/it] 52%|█████▏    | 779/1500 [7:09:12<6:32:37, 32.67s/it]                                                      {'loss': 0.143, 'grad_norm': 0.33012640476226807, 'learning_rate': 4.9567279141079075e-06, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 768.78, 'total_tokens': 213856907, 'epoch': 1.56}
+ 52%|█████▏    | 779/1500 [7:09:12<6:32:37, 32.67s/it] 52%|█████▏    | 780/1500 [7:09:45<6:34:17, 32.86s/it]                                                      {'loss': 0.1425, 'grad_norm': 0.33239203691482544, 'learning_rate': 4.945910272454044e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1009.37, 'total_tokens': 214141808, 'epoch': 1.56}
+ 52%|█████▏    | 780/1500 [7:09:45<6:34:17, 32.86s/it] 52%|█████▏    | 781/1500 [7:10:18<6:31:33, 32.68s/it]                                                      {'loss': 0.1379, 'grad_norm': 0.3264632821083069, 'learning_rate': 4.935092884010347e-06, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1113.55, 'total_tokens': 214408636, 'epoch': 1.56}
+ 52%|█████▏    | 781/1500 [7:10:18<6:31:33, 32.68s/it] 52%|█████▏    | 782/1500 [7:10:51<6:35:13, 33.03s/it]                                                      {'loss': 0.1319, 'grad_norm': 0.35059839487075806, 'learning_rate': 4.92427579941624e-06, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 893.12, 'total_tokens': 214672479, 'epoch': 1.56}
+ 52%|█████▏    | 782/1500 [7:10:51<6:35:13, 33.03s/it] 52%|█████▏    | 783/1500 [7:11:25<6:35:31, 33.10s/it]                                                      {'loss': 0.1457, 'grad_norm': 0.31815478205680847, 'learning_rate': 4.913459069309727e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1166.23, 'total_tokens': 214951516, 'epoch': 1.57}
+ 52%|█████▏    | 783/1500 [7:11:25<6:35:31, 33.10s/it] 52%|█████▏    | 784/1500 [7:11:58<6:34:45, 33.08s/it]                                                      {'loss': 0.1441, 'grad_norm': 0.3108367323875427, 'learning_rate': 4.902642744327149e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 912.99, 'total_tokens': 215235393, 'epoch': 1.57}
+ 52%|█████▏    | 784/1500 [7:11:58<6:34:45, 33.08s/it] 52%|█████▏    | 785/1500 [7:12:32<6:36:58, 33.31s/it]                                                      {'loss': 0.1422, 'grad_norm': 0.3237823247909546, 'learning_rate': 4.891826875102958e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1104.74, 'total_tokens': 215499846, 'epoch': 1.57}
+ 52%|█████▏    | 785/1500 [7:12:32<6:36:58, 33.31s/it] 52%|█████▏    | 786/1500 [7:13:04<6:32:11, 32.96s/it]                                                      {'loss': 0.1415, 'grad_norm': 0.3289428949356079, 'learning_rate': 4.881011512269464e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1249.45, 'total_tokens': 215796941, 'epoch': 1.57}
+ 52%|█████▏    | 786/1500 [7:13:04<6:32:11, 32.96s/it] 52%|█████▏    | 787/1500 [7:13:36<6:30:35, 32.87s/it]                                                      {'loss': 0.1377, 'grad_norm': 0.32278284430503845, 'learning_rate': 4.870196706456609e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1095.86, 'total_tokens': 216073268, 'epoch': 1.57}
+ 52%|█████▏    | 787/1500 [7:13:36<6:30:35, 32.87s/it] 53%|█████▎    | 788/1500 [7:14:10<6:32:45, 33.10s/it]                                                      {'loss': 0.1506, 'grad_norm': 0.333955317735672, 'learning_rate': 4.859382508291731e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1056.89, 'total_tokens': 216364151, 'epoch': 1.58}
+ 53%|█████▎    | 788/1500 [7:14:10<6:32:45, 33.10s/it] 53%|█████▎    | 789/1500 [7:14:43<6:32:51, 33.15s/it]                                                      {'loss': 0.1399, 'grad_norm': 0.3758434057235718, 'learning_rate': 4.848568968399317e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1334.33, 'total_tokens': 216679635, 'epoch': 1.58}
+ 53%|█████▎    | 789/1500 [7:14:43<6:32:51, 33.15s/it] 53%|█████▎    | 790/1500 [7:15:16<6:31:49, 33.11s/it]                                                      {'loss': 0.1371, 'grad_norm': 0.31835970282554626, 'learning_rate': 4.8377561374007805e-06, 'memory/max_active (GiB)': 51.24, 'memory/max_allocated (GiB)': 51.24, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 831.44, 'total_tokens': 216947906, 'epoch': 1.58}
+ 53%|█████▎    | 790/1500 [7:15:16<6:31:49, 33.11s/it] 53%|█████▎    | 791/1500 [7:15:50<6:33:39, 33.31s/it]                                                      {'loss': 0.1363, 'grad_norm': 0.328666627407074, 'learning_rate': 4.82694406591421e-06, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1050.65, 'total_tokens': 217227597, 'epoch': 1.58}
+ 53%|█████▎    | 791/1500 [7:15:50<6:33:39, 33.31s/it] 53%|█████▎    | 792/1500 [7:16:24<6:36:22, 33.59s/it]                                                      {'loss': 0.1401, 'grad_norm': 0.3403328061103821, 'learning_rate': 4.816132804554139e-06, 'memory/max_active (GiB)': 51.56, 'memory/max_allocated (GiB)': 51.56, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 961.08, 'total_tokens': 217501950, 'epoch': 1.58}
+ 53%|█████▎    | 792/1500 [7:16:24<6:36:22, 33.59s/it] 53%|█████▎    | 793/1500 [7:16:57<6:34:07, 33.45s/it]                                                      {'loss': 0.1402, 'grad_norm': 0.32058581709861755, 'learning_rate': 4.805322403931312e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1125.61, 'total_tokens': 217777477, 'epoch': 1.59}
+ 53%|█████▎    | 793/1500 [7:16:57<6:34:07, 33.45s/it] 53%|█████▎    | 794/1500 [7:17:28<6:24:22, 32.67s/it]                                                      {'loss': 0.1387, 'grad_norm': 0.31092795729637146, 'learning_rate': 4.794512914652442e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1033.93, 'total_tokens': 218035217, 'epoch': 1.59}
+ 53%|█████▎    | 794/1500 [7:17:28<6:24:22, 32.67s/it] 53%|█████▎    | 795/1500 [7:18:01<6:25:24, 32.80s/it]                                                      {'loss': 0.1399, 'grad_norm': 0.31361082196235657, 'learning_rate': 4.7837043873199756e-06, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1027.24, 'total_tokens': 218323696, 'epoch': 1.59}
+ 53%|█████▎    | 795/1500 [7:18:01<6:25:24, 32.80s/it] 53%|█████▎    | 796/1500 [7:18:34<6:23:20, 32.67s/it]                                                      {'loss': 0.1343, 'grad_norm': 0.30282968282699585, 'learning_rate': 4.772896872531857e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 980.28, 'total_tokens': 218613481, 'epoch': 1.59}
+ 53%|█████▎    | 796/1500 [7:18:34<6:23:20, 32.67s/it] 53%|█████▎    | 797/1500 [7:19:08<6:27:28, 33.07s/it]                                                      {'loss': 0.1382, 'grad_norm': 0.3129463493824005, 'learning_rate': 4.762090420881289e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1232.31, 'total_tokens': 218895625, 'epoch': 1.59}
+ 53%|█████▎    | 797/1500 [7:19:08<6:27:28, 33.07s/it] 53%|█████▎    | 798/1500 [7:19:39<6:21:50, 32.64s/it]                                                      {'loss': 0.1424, 'grad_norm': 0.3202233612537384, 'learning_rate': 4.7512850829565e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 923.43, 'total_tokens': 219166210, 'epoch': 1.6}
+ 53%|█████▎    | 798/1500 [7:19:39<6:21:50, 32.64s/it] 53%|█████▎    | 799/1500 [7:20:10<6:13:30, 31.97s/it]                                                      {'loss': 0.1344, 'grad_norm': 0.3219301700592041, 'learning_rate': 4.740480909340502e-06, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 904.33, 'total_tokens': 219422810, 'epoch': 1.6}
+ 53%|█████▎    | 799/1500 [7:20:10<6:13:30, 31.97s/it] 53%|█████▎    | 800/1500 [7:20:42<6:14:57, 32.14s/it]                                                      {'loss': 0.1382, 'grad_norm': 0.3045913279056549, 'learning_rate': 4.729677950610858e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1097.77, 'total_tokens': 219704879, 'epoch': 1.6}
+ 53%|█████▎    | 800/1500 [7:20:42<6:14:57, 32.14s/it] 53%|█████▎    | 801/1500 [7:21:16<6:18:12, 32.46s/it]                                                      {'loss': 0.1303, 'grad_norm': 0.3002874255180359, 'learning_rate': 4.718876257339444e-06, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1052.18, 'total_tokens': 219990495, 'epoch': 1.6}
+ 53%|█████▎    | 801/1500 [7:21:16<6:18:12, 32.46s/it] 53%|█████▎    | 802/1500 [7:21:49<6:21:14, 32.77s/it]                                                      {'loss': 0.1403, 'grad_norm': 0.35009250044822693, 'learning_rate': 4.708075880092212e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1099.4, 'total_tokens': 220282626, 'epoch': 1.6}
+ 53%|█████▎    | 802/1500 [7:21:49<6:21:14, 32.77s/it] 54%|█████▎    | 803/1500 [7:22:22<6:20:47, 32.78s/it]                                                      {'loss': 0.148, 'grad_norm': 0.32631874084472656, 'learning_rate': 4.697276869428951e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 972.14, 'total_tokens': 220542168, 'epoch': 1.61}
+ 54%|█████▎    | 803/1500 [7:22:22<6:20:47, 32.78s/it] 54%|█████▎    | 804/1500 [7:22:56<6:24:34, 33.15s/it]                                                      {'loss': 0.1432, 'grad_norm': 0.3230917751789093, 'learning_rate': 4.686479275903057e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1093.99, 'total_tokens': 220806303, 'epoch': 1.61}
+ 54%|█████▎    | 804/1500 [7:22:56<6:24:34, 33.15s/it] 54%|█████▎    | 805/1500 [7:23:29<6:23:39, 33.12s/it]                                                      {'loss': 0.1422, 'grad_norm': 0.32142016291618347, 'learning_rate': 4.6756831500612846e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1101.64, 'total_tokens': 221086577, 'epoch': 1.61}
+ 54%|█████▎    | 805/1500 [7:23:29<6:23:39, 33.12s/it] 54%|█████▎    | 806/1500 [7:24:02<6:23:18, 33.14s/it]                                                      {'loss': 0.1346, 'grad_norm': 0.31191912293434143, 'learning_rate': 4.664888542443529e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1438.71, 'total_tokens': 221356369, 'epoch': 1.61}
+ 54%|█████▎    | 806/1500 [7:24:02<6:23:18, 33.14s/it] 54%|█████▍    | 807/1500 [7:24:33<6:16:16, 32.58s/it]                                                      {'loss': 0.1427, 'grad_norm': 0.33674296736717224, 'learning_rate': 4.654095503582568e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1025.29, 'total_tokens': 221612259, 'epoch': 1.61}
+ 54%|█████▍    | 807/1500 [7:24:33<6:16:16, 32.58s/it] 54%|█████▍    | 808/1500 [7:25:05<6:11:43, 32.23s/it]                                                      {'loss': 0.1336, 'grad_norm': 0.32557713985443115, 'learning_rate': 4.643304084003839e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1284.13, 'total_tokens': 221875278, 'epoch': 1.62}
+ 54%|█████▍    | 808/1500 [7:25:05<6:11:43, 32.23s/it] 54%|█████▍    | 809/1500 [7:25:38<6:13:56, 32.47s/it]                                                      {'loss': 0.1414, 'grad_norm': 0.32834017276763916, 'learning_rate': 4.632514334225201e-06, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 967.88, 'total_tokens': 222155045, 'epoch': 1.62}
+ 54%|█████▍    | 809/1500 [7:25:38<6:13:56, 32.47s/it] 54%|█████▍    | 810/1500 [7:26:10<6:12:34, 32.40s/it]                                                      {'loss': 0.1479, 'grad_norm': 0.31392019987106323, 'learning_rate': 4.621726304756691e-06, 'memory/max_active (GiB)': 51.7, 'memory/max_allocated (GiB)': 51.7, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1179.47, 'total_tokens': 222458700, 'epoch': 1.62}
+ 54%|█████▍    | 810/1500 [7:26:10<6:12:34, 32.40s/it] 54%|█████▍    | 811/1500 [7:26:44<6:17:07, 32.84s/it]                                                      {'loss': 0.1376, 'grad_norm': 0.31227654218673706, 'learning_rate': 4.6109400461003005e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1043.06, 'total_tokens': 222745597, 'epoch': 1.62}
+ 54%|█████▍    | 811/1500 [7:26:44<6:17:07, 32.84s/it] 54%|█████▍    | 812/1500 [7:27:17<6:17:24, 32.91s/it]                                                      {'loss': 0.1448, 'grad_norm': 0.34346193075180054, 'learning_rate': 4.600155608749725e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 812.76, 'total_tokens': 222982544, 'epoch': 1.62}
+ 54%|█████▍    | 812/1500 [7:27:17<6:17:24, 32.91s/it] 54%|█████▍    | 813/1500 [7:27:49<6:14:57, 32.75s/it]                                                      {'loss': 0.1379, 'grad_norm': 0.32042884826660156, 'learning_rate': 4.589373043190137e-06, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 920.41, 'total_tokens': 223247127, 'epoch': 1.63}
+ 54%|█████▍    | 813/1500 [7:27:49<6:14:57, 32.75s/it] 54%|█████▍    | 814/1500 [7:28:21<6:10:50, 32.44s/it]                                                      {'loss': 0.1373, 'grad_norm': 0.33781546354293823, 'learning_rate': 4.5785923998979444e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1116.34, 'total_tokens': 223508506, 'epoch': 1.63}
+ 54%|█████▍    | 814/1500 [7:28:21<6:10:50, 32.44s/it] 54%|█████▍    | 815/1500 [7:28:55<6:14:33, 32.81s/it]                                                      {'loss': 0.1426, 'grad_norm': 0.3157390356063843, 'learning_rate': 4.567813729340558e-06, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 976.79, 'total_tokens': 223796342, 'epoch': 1.63}
+ 54%|█████▍    | 815/1500 [7:28:55<6:14:33, 32.81s/it] 54%|█████▍    | 816/1500 [7:29:26<6:07:49, 32.26s/it]                                                      {'loss': 0.1316, 'grad_norm': 0.3265763819217682, 'learning_rate': 4.5570370819761495e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1272.08, 'total_tokens': 224074016, 'epoch': 1.63}
+ 54%|█████▍    | 816/1500 [7:29:26<6:07:49, 32.26s/it] 54%|█████▍    | 817/1500 [7:29:58<6:06:29, 32.20s/it]                                                      {'loss': 0.1435, 'grad_norm': 0.35009485483169556, 'learning_rate': 4.546262508253429e-06, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1253.29, 'total_tokens': 224315095, 'epoch': 1.63}
+ 54%|█████▍    | 817/1500 [7:29:58<6:06:29, 32.20s/it] 55%|█████▍    | 818/1500 [7:30:31<6:09:46, 32.53s/it]                                                      {'loss': 0.1333, 'grad_norm': 0.31785517930984497, 'learning_rate': 4.535490058611391e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1034.64, 'total_tokens': 224585981, 'epoch': 1.64}
+ 55%|█████▍    | 818/1500 [7:30:31<6:09:46, 32.53s/it] 55%|█████▍    | 819/1500 [7:31:04<6:10:15, 32.62s/it]                                                      {'loss': 0.1424, 'grad_norm': 0.331211656332016, 'learning_rate': 4.524719783479088e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 940.55, 'total_tokens': 224855683, 'epoch': 1.64}
+ 55%|█████▍    | 819/1500 [7:31:04<6:10:15, 32.62s/it] 55%|█████▍    | 820/1500 [7:31:37<6:10:49, 32.72s/it]                                                      {'loss': 0.139, 'grad_norm': 0.32107990980148315, 'learning_rate': 4.513951733275395e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1318.48, 'total_tokens': 225148874, 'epoch': 1.64}
+ 55%|█████▍    | 820/1500 [7:31:37<6:10:49, 32.72s/it] 55%|█████▍    | 821/1500 [7:32:10<6:11:46, 32.85s/it]                                                      {'loss': 0.138, 'grad_norm': 0.3070525825023651, 'learning_rate': 4.503185958408767e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1069.12, 'total_tokens': 225423310, 'epoch': 1.64}
+ 55%|█████▍    | 821/1500 [7:32:10<6:11:46, 32.85s/it] 55%|█████▍    | 822/1500 [7:32:44<6:14:37, 33.15s/it]                                                      {'loss': 0.138, 'grad_norm': 0.3058969974517822, 'learning_rate': 4.492422509277015e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 875.49, 'total_tokens': 225700082, 'epoch': 1.64}
+ 55%|█████▍    | 822/1500 [7:32:44<6:14:37, 33.15s/it] 55%|█████▍    | 823/1500 [7:33:15<6:07:03, 32.53s/it]                                                      {'loss': 0.1356, 'grad_norm': 0.30688413977622986, 'learning_rate': 4.481661436267058e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1177.43, 'total_tokens': 225966107, 'epoch': 1.65}
+ 55%|█████▍    | 823/1500 [7:33:15<6:07:03, 32.53s/it] 55%|█████▍    | 824/1500 [7:33:49<6:10:54, 32.92s/it]                                                      {'loss': 0.1387, 'grad_norm': 0.3203814923763275, 'learning_rate': 4.470902789754689e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1130.43, 'total_tokens': 226254486, 'epoch': 1.65}
+ 55%|█████▍    | 824/1500 [7:33:49<6:10:54, 32.92s/it] 55%|█████▌    | 825/1500 [7:34:22<6:10:35, 32.94s/it]                                                      {'loss': 0.1436, 'grad_norm': 0.3241056203842163, 'learning_rate': 4.460146620104347e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1107.65, 'total_tokens': 226522567, 'epoch': 1.65}
+ 55%|█████▌    | 825/1500 [7:34:22<6:10:35, 32.94s/it] 55%|█████▌    | 826/1500 [7:34:54<6:08:23, 32.79s/it]                                                      {'loss': 0.1379, 'grad_norm': 0.3154374957084656, 'learning_rate': 4.449392977668872e-06, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 925.04, 'total_tokens': 226775946, 'epoch': 1.65}
+ 55%|█████▌    | 826/1500 [7:34:54<6:08:23, 32.79s/it] 55%|█████▌    | 827/1500 [7:35:27<6:07:47, 32.79s/it]                                                      {'loss': 0.1253, 'grad_norm': 0.312554270029068, 'learning_rate': 4.438641912789277e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 989.64, 'total_tokens': 227042154, 'epoch': 1.65}
+ 55%|█████▌    | 827/1500 [7:35:27<6:07:47, 32.79s/it] 55%|█████▌    | 828/1500 [7:36:01<6:10:29, 33.08s/it]                                                      {'loss': 0.1286, 'grad_norm': 0.30855441093444824, 'learning_rate': 4.427893475794507e-06, 'memory/max_active (GiB)': 51.44, 'memory/max_allocated (GiB)': 51.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 879.13, 'total_tokens': 227313140, 'epoch': 1.66}
+ 55%|█████▌    | 828/1500 [7:36:01<6:10:29, 33.08s/it] 55%|█████▌    | 829/1500 [7:36:34<6:11:52, 33.25s/it]                                                      {'loss': 0.1429, 'grad_norm': 0.3301949203014374, 'learning_rate': 4.417147717001205e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1143.81, 'total_tokens': 227591575, 'epoch': 1.66}
+ 55%|█████▌    | 829/1500 [7:36:34<6:11:52, 33.25s/it] 55%|█████▌    | 830/1500 [7:37:07<6:08:59, 33.04s/it]                                                      {'loss': 0.1393, 'grad_norm': 0.31167006492614746, 'learning_rate': 4.4064046867134755e-06, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1118.5, 'total_tokens': 227873398, 'epoch': 1.66}
+ 55%|█████▌    | 830/1500 [7:37:07<6:08:59, 33.04s/it] 55%|█████▌    | 831/1500 [7:37:40<6:06:56, 32.91s/it]                                                      {'loss': 0.1384, 'grad_norm': 0.33596712350845337, 'learning_rate': 4.395664435222651e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 724.66, 'total_tokens': 228115584, 'epoch': 1.66}
+ 55%|█████▌    | 831/1500 [7:37:40<6:06:56, 32.91s/it] 55%|█████▌    | 832/1500 [7:38:13<6:08:47, 33.12s/it]                                                      {'loss': 0.1441, 'grad_norm': 0.3102112412452698, 'learning_rate': 4.384927012807055e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1168.43, 'total_tokens': 228411413, 'epoch': 1.66}
+ 55%|█████▌    | 832/1500 [7:38:13<6:08:47, 33.12s/it] 56%|█████▌    | 833/1500 [7:38:47<6:10:37, 33.34s/it]                                                      {'loss': 0.1445, 'grad_norm': 0.3090455234050751, 'learning_rate': 4.374192469731771e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1166.02, 'total_tokens': 228698538, 'epoch': 1.67}
+ 56%|█████▌    | 833/1500 [7:38:47<6:10:37, 33.34s/it] 56%|█████▌    | 834/1500 [7:39:19<6:05:57, 32.97s/it]                                                      {'loss': 0.1357, 'grad_norm': 0.3128221929073334, 'learning_rate': 4.3634608562483985e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1217.01, 'total_tokens': 228976808, 'epoch': 1.67}
+ 56%|█████▌    | 834/1500 [7:39:19<6:05:57, 32.97s/it] 56%|█████▌    | 835/1500 [7:39:53<6:09:47, 33.36s/it]                                                      {'loss': 0.1409, 'grad_norm': 0.3117528557777405, 'learning_rate': 4.352732222594823e-06, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 644.36, 'total_tokens': 229253109, 'epoch': 1.67}
+ 56%|█████▌    | 835/1500 [7:39:53<6:09:47, 33.36s/it] 56%|█████▌    | 836/1500 [7:40:26<6:08:10, 33.27s/it]                                                      {'loss': 0.1369, 'grad_norm': 0.3218941390514374, 'learning_rate': 4.342006618994986e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1044.22, 'total_tokens': 229551926, 'epoch': 1.67}
+ 56%|█████▌    | 836/1500 [7:40:26<6:08:10, 33.27s/it] 56%|█████▌    | 837/1500 [7:41:00<6:07:45, 33.28s/it]                                                      {'loss': 0.1418, 'grad_norm': 0.3192032277584076, 'learning_rate': 4.331284095658637e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 973.26, 'total_tokens': 229825259, 'epoch': 1.67}
+ 56%|█████▌    | 837/1500 [7:41:00<6:07:45, 33.28s/it] 56%|█████▌    | 838/1500 [7:41:33<6:07:06, 33.27s/it]                                                      {'loss': 0.1396, 'grad_norm': 0.29887112975120544, 'learning_rate': 4.320564702781111e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1112.42, 'total_tokens': 230119495, 'epoch': 1.68}
+ 56%|█████▌    | 838/1500 [7:41:33<6:07:06, 33.27s/it] 56%|█████▌    | 839/1500 [7:42:07<6:08:13, 33.42s/it]                                                      {'loss': 0.1399, 'grad_norm': 0.3086278736591339, 'learning_rate': 4.309848490543086e-06, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 859.72, 'total_tokens': 230400602, 'epoch': 1.68}
+ 56%|█████▌    | 839/1500 [7:42:07<6:08:13, 33.42s/it] 56%|█████▌    | 840/1500 [7:42:39<6:03:44, 33.07s/it]                                                      {'loss': 0.1376, 'grad_norm': 0.2897292375564575, 'learning_rate': 4.299135509110352e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1151.45, 'total_tokens': 230683746, 'epoch': 1.68}
+ 56%|█████▌    | 840/1500 [7:42:39<6:03:44, 33.07s/it] 56%|█████▌    | 841/1500 [7:43:10<5:57:29, 32.55s/it]                                                      {'loss': 0.1388, 'grad_norm': 0.341770201921463, 'learning_rate': 4.2884258086335755e-06, 'memory/max_active (GiB)': 52.52, 'memory/max_allocated (GiB)': 52.52, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 979.24, 'total_tokens': 230932557, 'epoch': 1.68}
+ 56%|█████▌    | 841/1500 [7:43:10<5:57:29, 32.55s/it] 56%|█████▌    | 842/1500 [7:43:42<5:52:55, 32.18s/it]                                                      {'loss': 0.1358, 'grad_norm': 0.32563087344169617, 'learning_rate': 4.277719439248058e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 870.42, 'total_tokens': 231189422, 'epoch': 1.68}
+ 56%|█████▌    | 842/1500 [7:43:42<5:52:55, 32.18s/it] 56%|█████▌    | 843/1500 [7:44:16<5:58:46, 32.77s/it]                                                      {'loss': 0.1382, 'grad_norm': 0.316766619682312, 'learning_rate': 4.267016451073515e-06, 'memory/max_active (GiB)': 51.44, 'memory/max_allocated (GiB)': 51.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 871.57, 'total_tokens': 231479481, 'epoch': 1.69}
+ 56%|█████▌    | 843/1500 [7:44:16<5:58:46, 32.77s/it] 56%|█████▋    | 844/1500 [7:44:49<6:00:48, 33.00s/it]                                                      {'loss': 0.1419, 'grad_norm': 0.3304392695426941, 'learning_rate': 4.25631689421383e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1179.7, 'total_tokens': 231762086, 'epoch': 1.69}
+ 56%|█████▋    | 844/1500 [7:44:49<6:00:48, 33.00s/it] 56%|█████▋    | 845/1500 [7:45:22<5:58:09, 32.81s/it]                                                      {'loss': 0.1458, 'grad_norm': 0.3036423921585083, 'learning_rate': 4.245620818756822e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1081.64, 'total_tokens': 232053350, 'epoch': 1.69}
+ 56%|█████▋    | 845/1500 [7:45:22<5:58:09, 32.81s/it] 56%|█████▋    | 846/1500 [7:45:54<5:55:20, 32.60s/it]                                                      {'loss': 0.1362, 'grad_norm': 0.3124108910560608, 'learning_rate': 4.234928274774014e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 891.61, 'total_tokens': 232317761, 'epoch': 1.69}
+ 56%|█████▋    | 846/1500 [7:45:54<5:55:20, 32.60s/it] 56%|█████▋    | 847/1500 [7:46:27<5:56:13, 32.73s/it]                                                      {'loss': 0.1399, 'grad_norm': 0.3091123104095459, 'learning_rate': 4.224239312320399e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1030.51, 'total_tokens': 232598277, 'epoch': 1.69}
+ 56%|█████▋    | 847/1500 [7:46:27<5:56:13, 32.73s/it] 57%|█████▋    | 848/1500 [7:46:59<5:54:20, 32.61s/it]                                                      {'loss': 0.1352, 'grad_norm': 0.3350875973701477, 'learning_rate': 4.213553981434197e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 659.99, 'total_tokens': 232858851, 'epoch': 1.7}
+ 57%|█████▋    | 848/1500 [7:46:59<5:54:20, 32.61s/it] 57%|█████▋    | 849/1500 [7:47:34<6:00:20, 33.21s/it]                                                      {'loss': 0.1419, 'grad_norm': 0.32620081305503845, 'learning_rate': 4.202872332136639e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 835.59, 'total_tokens': 233139414, 'epoch': 1.7}
+ 57%|█████▋    | 849/1500 [7:47:34<6:00:20, 33.21s/it] 57%|█████▋    | 850/1500 [7:48:08<6:01:32, 33.37s/it]                                                      {'loss': 0.1318, 'grad_norm': 0.31939902901649475, 'learning_rate': 4.192194414431712e-06, 'memory/max_active (GiB)': 52.84, 'memory/max_allocated (GiB)': 52.84, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1101.89, 'total_tokens': 233416707, 'epoch': 1.7}
+ 57%|█████▋    | 850/1500 [7:48:08<6:01:32, 33.37s/it] 57%|█████▋    | 851/1500 [7:48:40<5:58:09, 33.11s/it]                                                      {'loss': 0.138, 'grad_norm': 0.3292500674724579, 'learning_rate': 4.181520278305936e-06, 'memory/max_active (GiB)': 51.88, 'memory/max_allocated (GiB)': 51.88, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 904.32, 'total_tokens': 233683918, 'epoch': 1.7}
+ 57%|█████▋    | 851/1500 [7:48:40<5:58:09, 33.11s/it] 57%|█████▋    | 852/1500 [7:49:13<5:55:31, 32.92s/it]                                                      {'loss': 0.1414, 'grad_norm': 0.31047964096069336, 'learning_rate': 4.1708499737281305e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1184.16, 'total_tokens': 233957954, 'epoch': 1.7}
+ 57%|█████▋    | 852/1500 [7:49:13<5:55:31, 32.92s/it] 57%|█████▋    | 853/1500 [7:49:46<5:55:49, 33.00s/it]                                                      {'loss': 0.1263, 'grad_norm': 0.31478169560432434, 'learning_rate': 4.160183550649176e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 929.87, 'total_tokens': 234228395, 'epoch': 1.71}
+ 57%|█████▋    | 853/1500 [7:49:46<5:55:49, 33.00s/it] 57%|█████▋    | 854/1500 [7:50:19<5:56:15, 33.09s/it]                                                      {'loss': 0.1338, 'grad_norm': 0.3249843418598175, 'learning_rate': 4.149521059001786e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1190.31, 'total_tokens': 234495474, 'epoch': 1.71}
+ 57%|█████▋    | 854/1500 [7:50:19<5:56:15, 33.09s/it] 57%|█████▋    | 855/1500 [7:50:52<5:54:13, 32.95s/it]                                                      {'loss': 0.1334, 'grad_norm': 0.3394811749458313, 'learning_rate': 4.138862548700268e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1227.7, 'total_tokens': 234777914, 'epoch': 1.71}
+ 57%|█████▋    | 855/1500 [7:50:52<5:54:13, 32.95s/it] 57%|█████▋    | 856/1500 [7:51:25<5:54:14, 33.00s/it]                                                      {'loss': 0.1457, 'grad_norm': 0.36913400888442993, 'learning_rate': 4.128208069640288e-06, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1085.92, 'total_tokens': 235060944, 'epoch': 1.71}
+ 57%|█████▋    | 856/1500 [7:51:25<5:54:14, 33.00s/it] 57%|█████▋    | 857/1500 [7:51:59<5:56:31, 33.27s/it]                                                      {'loss': 0.1439, 'grad_norm': 0.30911576747894287, 'learning_rate': 4.117557671698648e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1039.27, 'total_tokens': 235351336, 'epoch': 1.71}
+ 57%|█████▋    | 857/1500 [7:51:59<5:56:31, 33.27s/it] 57%|█████▋    | 858/1500 [7:52:30<5:48:34, 32.58s/it]                                                      {'loss': 0.1395, 'grad_norm': 0.3127900958061218, 'learning_rate': 4.106911404733035e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 976.49, 'total_tokens': 235623308, 'epoch': 1.72}
+ 57%|█████▋    | 858/1500 [7:52:30<5:48:34, 32.58s/it] 57%|█████▋    | 859/1500 [7:53:02<5:47:22, 32.52s/it]                                                      {'loss': 0.1407, 'grad_norm': 0.3239698112010956, 'learning_rate': 4.09626931858181e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 997.66, 'total_tokens': 235899715, 'epoch': 1.72}
+ 57%|█████▋    | 859/1500 [7:53:02<5:47:22, 32.52s/it] 57%|█████▋    | 860/1500 [7:53:36<5:51:05, 32.92s/it]                                                      {'loss': 0.148, 'grad_norm': 0.31719130277633667, 'learning_rate': 4.085631463063753e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 937.4, 'total_tokens': 236187866, 'epoch': 1.72}
+ 57%|█████▋    | 860/1500 [7:53:36<5:51:05, 32.92s/it] 57%|█████▋    | 861/1500 [7:54:08<5:48:20, 32.71s/it]                                                      {'loss': 0.1367, 'grad_norm': 0.31113582849502563, 'learning_rate': 4.074997887977843e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1223.58, 'total_tokens': 236465886, 'epoch': 1.72}
+ 57%|█████▋    | 861/1500 [7:54:08<5:48:20, 32.71s/it] 57%|█████▋    | 862/1500 [7:54:40<5:45:45, 32.52s/it]                                                      {'loss': 0.1368, 'grad_norm': 0.34080344438552856, 'learning_rate': 4.064368643103019e-06, 'memory/max_active (GiB)': 51.45, 'memory/max_allocated (GiB)': 51.45, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 693.49, 'total_tokens': 236699396, 'epoch': 1.72}
+ 57%|█████▋    | 862/1500 [7:54:40<5:45:45, 32.52s/it] 58%|█████▊    | 863/1500 [7:55:15<5:51:01, 33.06s/it]                                                      {'loss': 0.1395, 'grad_norm': 0.3222837746143341, 'learning_rate': 4.053743778197951e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1151.28, 'total_tokens': 237016703, 'epoch': 1.73}
+ 58%|█████▊    | 863/1500 [7:55:15<5:51:01, 33.06s/it] 58%|█████▊    | 864/1500 [7:55:48<5:51:09, 33.13s/it]                                                      {'loss': 0.1434, 'grad_norm': 0.3224612772464752, 'learning_rate': 4.043123343000801e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1152.85, 'total_tokens': 237325177, 'epoch': 1.73}
+ 58%|█████▊    | 864/1500 [7:55:48<5:51:09, 33.13s/it] 58%|█████▊    | 865/1500 [7:56:20<5:47:32, 32.84s/it]                                                      {'loss': 0.1468, 'grad_norm': 0.35596323013305664, 'learning_rate': 4.032507387229002e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1018.17, 'total_tokens': 237589982, 'epoch': 1.73}
+ 58%|█████▊    | 865/1500 [7:56:20<5:47:32, 32.84s/it] 58%|█████▊    | 866/1500 [7:56:53<5:46:46, 32.82s/it]                                                      {'loss': 0.1437, 'grad_norm': 0.3253207504749298, 'learning_rate': 4.0218959605790115e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1091.8, 'total_tokens': 237857430, 'epoch': 1.73}
+ 58%|█████▊    | 866/1500 [7:56:53<5:46:46, 32.82s/it] 58%|█████▊    | 867/1500 [7:57:26<5:46:26, 32.84s/it]                                                      {'loss': 0.1327, 'grad_norm': 0.30128929018974304, 'learning_rate': 4.011289112726085e-06, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 935.17, 'total_tokens': 238139969, 'epoch': 1.73}
+ 58%|█████▊    | 867/1500 [7:57:26<5:46:26, 32.84s/it] 58%|█████▊    | 868/1500 [7:57:57<5:42:11, 32.49s/it]                                                      {'loss': 0.1409, 'grad_norm': 0.32814234495162964, 'learning_rate': 4.0006868933240454e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1068.74, 'total_tokens': 238420710, 'epoch': 1.74}
+ 58%|█████▊    | 868/1500 [7:57:57<5:42:11, 32.49s/it] 58%|█████▊    | 869/1500 [7:58:29<5:40:27, 32.37s/it]                                                      {'loss': 0.1305, 'grad_norm': 0.291556715965271, 'learning_rate': 3.9900893520050446e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1346.73, 'total_tokens': 238697911, 'epoch': 1.74}
+ 58%|█████▊    | 869/1500 [7:58:29<5:40:27, 32.37s/it] 58%|█████▊    | 870/1500 [7:59:02<5:41:17, 32.50s/it]                                                      {'loss': 0.1375, 'grad_norm': 0.3012811243534088, 'learning_rate': 3.9794965383793426e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1292.58, 'total_tokens': 238989402, 'epoch': 1.74}
+ 58%|█████▊    | 870/1500 [7:59:02<5:41:17, 32.50s/it] 58%|█████▊    | 871/1500 [7:59:36<5:45:03, 32.92s/it]                                                      {'loss': 0.1479, 'grad_norm': 0.31278911232948303, 'learning_rate': 3.96890850203506e-06, 'memory/max_active (GiB)': 51.01, 'memory/max_allocated (GiB)': 51.01, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 714.38, 'total_tokens': 239270089, 'epoch': 1.74}
+ 58%|█████▊    | 871/1500 [7:59:36<5:45:03, 32.92s/it] 58%|█████▊    | 872/1500 [8:00:08<5:41:44, 32.65s/it]                                                      {'loss': 0.1327, 'grad_norm': 0.3203669786453247, 'learning_rate': 3.958325292537958e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 875.96, 'total_tokens': 239514063, 'epoch': 1.74}
+ 58%|█████▊    | 872/1500 [8:00:08<5:41:44, 32.65s/it] 58%|█████▊    | 873/1500 [8:00:41<5:42:36, 32.79s/it]                                                      {'loss': 0.1475, 'grad_norm': 0.3078460097312927, 'learning_rate': 3.9477469594311975e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1196.08, 'total_tokens': 239791107, 'epoch': 1.75}
+ 58%|█████▊    | 873/1500 [8:00:41<5:42:36, 32.79s/it] 58%|█████▊    | 874/1500 [8:01:14<5:43:15, 32.90s/it]                                                      {'loss': 0.1367, 'grad_norm': 0.31155773997306824, 'learning_rate': 3.937173552235117e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 839.12, 'total_tokens': 240039694, 'epoch': 1.75}
+ 58%|█████▊    | 874/1500 [8:01:14<5:43:15, 32.90s/it] 58%|█████▊    | 875/1500 [8:01:46<5:40:04, 32.65s/it]                                                      {'loss': 0.1338, 'grad_norm': 0.3246997892856598, 'learning_rate': 3.926605120446993e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1000.26, 'total_tokens': 240285135, 'epoch': 1.75}
+ 58%|█████▊    | 875/1500 [8:01:46<5:40:04, 32.65s/it] 58%|█████▊    | 876/1500 [8:02:19<5:40:07, 32.70s/it]                                                      {'loss': 0.1407, 'grad_norm': 0.3205290734767914, 'learning_rate': 3.916041713540809e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 720.31, 'total_tokens': 240556235, 'epoch': 1.75}
+ 58%|█████▊    | 876/1500 [8:02:19<5:40:07, 32.70s/it] 58%|█████▊    | 877/1500 [8:02:54<5:44:22, 33.17s/it]                                                      {'loss': 0.1304, 'grad_norm': 0.3075237572193146, 'learning_rate': 3.905483380967027e-06, 'memory/max_active (GiB)': 51.24, 'memory/max_allocated (GiB)': 51.24, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 807.58, 'total_tokens': 240820230, 'epoch': 1.75}
+ 58%|█████▊    | 877/1500 [8:02:54<5:44:22, 33.17s/it] 59%|█████▊    | 878/1500 [8:03:27<5:43:37, 33.15s/it]                                                      {'loss': 0.1413, 'grad_norm': 0.33004170656204224, 'learning_rate': 3.8949301721523545e-06, 'memory/max_active (GiB)': 50.68, 'memory/max_allocated (GiB)': 50.68, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 825.71, 'total_tokens': 241076829, 'epoch': 1.76}
+ 59%|█████▊    | 878/1500 [8:03:27<5:43:37, 33.15s/it] 59%|█████▊    | 879/1500 [8:04:00<5:43:23, 33.18s/it]                                                      {'loss': 0.1397, 'grad_norm': 0.3154309391975403, 'learning_rate': 3.884382136499515e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1341.84, 'total_tokens': 241364941, 'epoch': 1.76}
+ 59%|█████▊    | 879/1500 [8:04:00<5:43:23, 33.18s/it] 59%|█████▊    | 880/1500 [8:04:32<5:40:47, 32.98s/it]                                                      {'loss': 0.1364, 'grad_norm': 0.3075716495513916, 'learning_rate': 3.873839323387009e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1332.92, 'total_tokens': 241641975, 'epoch': 1.76}
+ 59%|█████▊    | 880/1500 [8:04:32<5:40:47, 32.98s/it] 59%|█████▊    | 881/1500 [8:05:04<5:37:06, 32.68s/it]                                                      {'loss': 0.1467, 'grad_norm': 0.3320414125919342, 'learning_rate': 3.863301782168896e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1102.89, 'total_tokens': 241911663, 'epoch': 1.76}
+ 59%|█████▊    | 881/1500 [8:05:04<5:37:06, 32.68s/it] 59%|█████▉    | 882/1500 [8:05:38<5:39:48, 32.99s/it]                                                      {'loss': 0.1428, 'grad_norm': 0.3229605555534363, 'learning_rate': 3.852769562174552e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 823.8, 'total_tokens': 242171388, 'epoch': 1.76}
+ 59%|█████▉    | 882/1500 [8:05:38<5:39:48, 32.99s/it] 59%|█████▉    | 883/1500 [8:06:12<5:42:19, 33.29s/it]                                                      {'loss': 0.1338, 'grad_norm': 0.326839804649353, 'learning_rate': 3.842242712708444e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1017.36, 'total_tokens': 242426358, 'epoch': 1.77}
+ 59%|█████▉    | 883/1500 [8:06:12<5:42:19, 33.29s/it] 59%|█████▉    | 884/1500 [8:06:45<5:41:31, 33.27s/it]                                                      {'loss': 0.1361, 'grad_norm': 0.3004477024078369, 'learning_rate': 3.831721283049897e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1084.97, 'total_tokens': 242722458, 'epoch': 1.77}
+ 59%|█████▉    | 884/1500 [8:06:45<5:41:31, 33.27s/it] 59%|█████▉    | 885/1500 [8:07:16<5:34:22, 32.62s/it]                                                      {'loss': 0.1441, 'grad_norm': 0.33728325366973877, 'learning_rate': 3.821205322452863e-06, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 956.83, 'total_tokens': 242975387, 'epoch': 1.77}
+ 59%|█████▉    | 885/1500 [8:07:16<5:34:22, 32.62s/it] 59%|█████▉    | 886/1500 [8:07:50<5:35:40, 32.80s/it]                                                      {'loss': 0.1418, 'grad_norm': 0.30319228768348694, 'learning_rate': 3.8106948801456984e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1068.24, 'total_tokens': 243258586, 'epoch': 1.77}
+ 59%|█████▉    | 886/1500 [8:07:50<5:35:40, 32.80s/it] 59%|█████▉    | 887/1500 [8:08:23<5:37:42, 33.05s/it]                                                      {'loss': 0.1387, 'grad_norm': 0.3011792302131653, 'learning_rate': 3.800190005330918e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 976.14, 'total_tokens': 243541512, 'epoch': 1.77}
+ 59%|█████▉    | 887/1500 [8:08:23<5:37:42, 33.05s/it] 59%|█████▉    | 888/1500 [8:08:57<5:40:25, 33.37s/it]                                                      {'loss': 0.14, 'grad_norm': 0.3190799355506897, 'learning_rate': 3.7896907471849796e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 871.71, 'total_tokens': 243831010, 'epoch': 1.78}
+ 59%|█████▉    | 888/1500 [8:08:57<5:40:25, 33.37s/it] 59%|█████▉    | 889/1500 [8:09:28<5:32:11, 32.62s/it]                                                      {'loss': 0.1357, 'grad_norm': 0.3151680529117584, 'learning_rate': 3.779197154858044e-06, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1108.77, 'total_tokens': 244086471, 'epoch': 1.78}
+ 59%|█████▉    | 889/1500 [8:09:28<5:32:11, 32.62s/it] 59%|█████▉    | 890/1500 [8:10:02<5:33:56, 32.85s/it]                                                      {'loss': 0.1307, 'grad_norm': 0.3087517023086548, 'learning_rate': 3.7687092774737494e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 755.46, 'total_tokens': 244363513, 'epoch': 1.78}
+ 59%|█████▉    | 890/1500 [8:10:02<5:33:56, 32.85s/it] 59%|█████▉    | 891/1500 [8:10:34<5:32:52, 32.80s/it]                                                      {'loss': 0.1348, 'grad_norm': 0.3001054525375366, 'learning_rate': 3.7582271641289846e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 992.75, 'total_tokens': 244660499, 'epoch': 1.78}
+ 59%|█████▉    | 891/1500 [8:10:34<5:32:52, 32.80s/it] 59%|█████▉    | 892/1500 [8:11:06<5:29:36, 32.53s/it]                                                      {'loss': 0.129, 'grad_norm': 0.2985624670982361, 'learning_rate': 3.747750863893651e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 926.72, 'total_tokens': 244923586, 'epoch': 1.78}
+ 59%|█████▉    | 892/1500 [8:11:06<5:29:36, 32.53s/it] 60%|█████▉    | 893/1500 [8:11:40<5:32:03, 32.82s/it]                                                      {'loss': 0.1306, 'grad_norm': 0.30486008524894714, 'learning_rate': 3.7372804258104367e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1076.43, 'total_tokens': 245197159, 'epoch': 1.79}
+ 60%|█████▉    | 893/1500 [8:11:40<5:32:03, 32.82s/it] 60%|█████▉    | 894/1500 [8:12:13<5:34:24, 33.11s/it]                                                      {'loss': 0.1333, 'grad_norm': 0.29096919298171997, 'learning_rate': 3.7268158988945904e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 973.8, 'total_tokens': 245502273, 'epoch': 1.79}
+ 60%|█████▉    | 894/1500 [8:12:13<5:34:24, 33.11s/it] 60%|█████▉    | 895/1500 [8:12:47<5:35:59, 33.32s/it]                                                      {'loss': 0.1346, 'grad_norm': 0.3079030215740204, 'learning_rate': 3.7163573321336867e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 989.38, 'total_tokens': 245784732, 'epoch': 1.79}
+ 60%|█████▉    | 895/1500 [8:12:47<5:35:59, 33.32s/it] 60%|█████▉    | 896/1500 [8:13:20<5:34:19, 33.21s/it]                                                      {'loss': 0.1322, 'grad_norm': 0.3100340962409973, 'learning_rate': 3.705904774487396e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 813.49, 'total_tokens': 246045526, 'epoch': 1.79}
+ 60%|█████▉    | 896/1500 [8:13:20<5:34:19, 33.21s/it] 60%|█████▉    | 897/1500 [8:13:52<5:29:20, 32.77s/it]                                                      {'loss': 0.1378, 'grad_norm': 0.31762591004371643, 'learning_rate': 3.695458274887268e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 847.18, 'total_tokens': 246308083, 'epoch': 1.79}
+ 60%|█████▉    | 897/1500 [8:13:52<5:29:20, 32.77s/it] 60%|█████▉    | 898/1500 [8:14:26<5:31:33, 33.05s/it]                                                      {'loss': 0.1351, 'grad_norm': 0.3220650255680084, 'learning_rate': 3.685017882236483e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 892.97, 'total_tokens': 246574280, 'epoch': 1.8}
+ 60%|█████▉    | 898/1500 [8:14:26<5:31:33, 33.05s/it] 60%|█████▉    | 899/1500 [8:14:58<5:30:03, 32.95s/it]                                                      {'loss': 0.1417, 'grad_norm': 0.30641013383865356, 'learning_rate': 3.674583645409637e-06, 'memory/max_active (GiB)': 51.44, 'memory/max_allocated (GiB)': 51.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 828.0, 'total_tokens': 246859749, 'epoch': 1.8}
+ 60%|█████▉    | 899/1500 [8:14:58<5:30:03, 32.95s/it] 60%|██████    | 900/1500 [8:15:33<5:33:00, 33.30s/it]                                                      {'loss': 0.1374, 'grad_norm': 0.31699109077453613, 'learning_rate': 3.6641556132525084e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 863.93, 'total_tokens': 247126165, 'epoch': 1.8}
+ 60%|██████    | 900/1500 [8:15:33<5:33:00, 33.30s/it] 60%|██████    | 901/1500 [8:16:06<5:32:50, 33.34s/it]                                                      {'loss': 0.1414, 'grad_norm': 0.31321534514427185, 'learning_rate': 3.6537338345818273e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1028.05, 'total_tokens': 247409524, 'epoch': 1.8}
+ 60%|██████    | 901/1500 [8:16:06<5:32:50, 33.34s/it] 60%|██████    | 902/1500 [8:16:40<5:33:46, 33.49s/it]                                                      {'loss': 0.1352, 'grad_norm': 0.3296210765838623, 'learning_rate': 3.6433183581850558e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 971.46, 'total_tokens': 247701856, 'epoch': 1.8}
+ 60%|██████    | 902/1500 [8:16:40<5:33:46, 33.49s/it] 60%|██████    | 903/1500 [8:17:11<5:27:18, 32.90s/it]                                                      {'loss': 0.1392, 'grad_norm': 0.3277782201766968, 'learning_rate': 3.632909232820146e-06, 'memory/max_active (GiB)': 51.45, 'memory/max_allocated (GiB)': 51.45, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1151.92, 'total_tokens': 247970064, 'epoch': 1.81}
+ 60%|██████    | 903/1500 [8:17:11<5:27:18, 32.90s/it] 60%|██████    | 904/1500 [8:17:44<5:25:22, 32.76s/it]                                                      {'loss': 0.1268, 'grad_norm': 0.3115214407444, 'learning_rate': 3.6225065072153226e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 781.22, 'total_tokens': 248240261, 'epoch': 1.81}
+ 60%|██████    | 904/1500 [8:17:44<5:25:22, 32.76s/it] 60%|██████    | 905/1500 [8:18:17<5:27:38, 33.04s/it]                                                      {'loss': 0.1369, 'grad_norm': 0.3240378797054291, 'learning_rate': 3.6121102300688504e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1252.05, 'total_tokens': 248522711, 'epoch': 1.81}
+ 60%|██████    | 905/1500 [8:18:17<5:27:38, 33.04s/it] 60%|██████    | 906/1500 [8:18:50<5:26:22, 32.97s/it]                                                      {'loss': 0.1416, 'grad_norm': 0.33381494879722595, 'learning_rate': 3.6017204500488044e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1233.09, 'total_tokens': 248806299, 'epoch': 1.81}
+ 60%|██████    | 906/1500 [8:18:50<5:26:22, 32.97s/it] 60%|██████    | 907/1500 [8:19:21<5:20:24, 32.42s/it]                                                      {'loss': 0.1356, 'grad_norm': 0.3366932272911072, 'learning_rate': 3.5913372157928515e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1120.35, 'total_tokens': 249073215, 'epoch': 1.81}
+ 60%|██████    | 907/1500 [8:19:21<5:20:24, 32.42s/it] 61%|██████    | 908/1500 [8:19:55<5:22:14, 32.66s/it]                                                      {'loss': 0.1295, 'grad_norm': 0.3123065233230591, 'learning_rate': 3.5809605759080103e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 964.5, 'total_tokens': 249345104, 'epoch': 1.82}
+ 61%|██████    | 908/1500 [8:19:55<5:22:14, 32.66s/it] 61%|██████    | 909/1500 [8:20:27<5:20:42, 32.56s/it]                                                      {'loss': 0.1264, 'grad_norm': 0.3165418207645416, 'learning_rate': 3.5705905789704296e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1111.87, 'total_tokens': 249610604, 'epoch': 1.82}
+ 61%|██████    | 909/1500 [8:20:27<5:20:42, 32.56s/it] 61%|██████    | 910/1500 [8:21:00<5:21:58, 32.74s/it]                                                      {'loss': 0.1321, 'grad_norm': 0.3478664457798004, 'learning_rate': 3.560227273525162e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 776.17, 'total_tokens': 249860956, 'epoch': 1.82}
+ 61%|██████    | 910/1500 [8:21:00<5:21:58, 32.74s/it] 61%|██████    | 911/1500 [8:21:33<5:22:58, 32.90s/it]                                                      {'loss': 0.1321, 'grad_norm': 0.39931073784828186, 'learning_rate': 3.549870708085933e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1116.99, 'total_tokens': 250125021, 'epoch': 1.82}
+ 61%|██████    | 911/1500 [8:21:33<5:22:58, 32.90s/it] 61%|██████    | 912/1500 [8:22:06<5:21:53, 32.85s/it]                                                      {'loss': 0.1394, 'grad_norm': 0.3081914782524109, 'learning_rate': 3.53952093113492e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1011.98, 'total_tokens': 250402161, 'epoch': 1.82}
+ 61%|██████    | 912/1500 [8:22:06<5:21:53, 32.85s/it] 61%|██████    | 913/1500 [8:22:39<5:20:17, 32.74s/it]                                                      {'loss': 0.1289, 'grad_norm': 0.2937621474266052, 'learning_rate': 3.529177991122519e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 946.68, 'total_tokens': 250672690, 'epoch': 1.83}
+ 61%|██████    | 913/1500 [8:22:39<5:20:17, 32.74s/it] 61%|██████    | 914/1500 [8:23:09<5:11:39, 31.91s/it]                                                      {'loss': 0.142, 'grad_norm': 0.3297978639602661, 'learning_rate': 3.51884193646712e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 948.13, 'total_tokens': 250925404, 'epoch': 1.83}
+ 61%|██████    | 914/1500 [8:23:09<5:11:39, 31.91s/it] 61%|██████    | 915/1500 [8:23:42<5:16:02, 32.41s/it]                                                      {'loss': 0.1378, 'grad_norm': 0.31610482931137085, 'learning_rate': 3.508512815554881e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 857.9, 'total_tokens': 251196911, 'epoch': 1.83}
+ 61%|██████    | 915/1500 [8:23:42<5:16:02, 32.41s/it] 61%|██████    | 916/1500 [8:24:16<5:20:02, 32.88s/it]                                                      {'loss': 0.1358, 'grad_norm': 0.3004171550273895, 'learning_rate': 3.498190676739502e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1266.44, 'total_tokens': 251497266, 'epoch': 1.83}
+ 61%|██████    | 916/1500 [8:24:16<5:20:02, 32.88s/it] 61%|██████    | 917/1500 [8:24:50<5:23:26, 33.29s/it]                                                      {'loss': 0.1337, 'grad_norm': 0.302731454372406, 'learning_rate': 3.487875568341995e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 951.26, 'total_tokens': 251780777, 'epoch': 1.83}
+ 61%|██████    | 917/1500 [8:24:50<5:23:26, 33.29s/it] 61%|██████    | 918/1500 [8:25:24<5:22:56, 33.29s/it]                                                      {'loss': 0.1333, 'grad_norm': 0.31413137912750244, 'learning_rate': 3.477567538650466e-06, 'memory/max_active (GiB)': 52.65, 'memory/max_allocated (GiB)': 52.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 975.17, 'total_tokens': 252065102, 'epoch': 1.84}
+ 61%|██████    | 918/1500 [8:25:24<5:22:56, 33.29s/it] 61%|██████▏   | 919/1500 [8:25:57<5:22:53, 33.35s/it]                                                      {'loss': 0.1401, 'grad_norm': 0.308312326669693, 'learning_rate': 3.4672666359198757e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1256.74, 'total_tokens': 252343145, 'epoch': 1.84}
+ 61%|██████▏   | 919/1500 [8:25:57<5:22:53, 33.35s/it] 61%|██████▏   | 920/1500 [8:26:31<5:24:19, 33.55s/it]                                                      {'loss': 0.1397, 'grad_norm': 0.3399916887283325, 'learning_rate': 3.456972908371829e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1016.05, 'total_tokens': 252626205, 'epoch': 1.84}
+ 61%|██████▏   | 920/1500 [8:26:31<5:24:19, 33.55s/it] 61%|██████▏   | 921/1500 [8:27:04<5:22:48, 33.45s/it]                                                      {'loss': 0.1393, 'grad_norm': 0.3259871006011963, 'learning_rate': 3.446686404194337e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 916.98, 'total_tokens': 252878529, 'epoch': 1.84}
+ 61%|██████▏   | 921/1500 [8:27:04<5:22:48, 33.45s/it] 61%|██████▏   | 922/1500 [8:27:38<5:21:46, 33.40s/it]                                                      {'loss': 0.14, 'grad_norm': 0.42622941732406616, 'learning_rate': 3.436407171541596e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1135.34, 'total_tokens': 253181148, 'epoch': 1.84}
+ 61%|██████▏   | 922/1500 [8:27:38<5:21:46, 33.40s/it] 62%|██████▏   | 923/1500 [8:28:12<5:22:31, 33.54s/it]                                                      {'loss': 0.1381, 'grad_norm': 0.3199751675128937, 'learning_rate': 3.4261352585337636e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1120.77, 'total_tokens': 253439707, 'epoch': 1.85}
+ 62%|██████▏   | 923/1500 [8:28:12<5:22:31, 33.54s/it] 62%|██████▏   | 924/1500 [8:28:45<5:21:15, 33.46s/it]                                                      {'loss': 0.1321, 'grad_norm': 0.3041713833808899, 'learning_rate': 3.415870713256735e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1014.97, 'total_tokens': 253705308, 'epoch': 1.85}
+ 62%|██████▏   | 924/1500 [8:28:45<5:21:15, 33.46s/it] 62%|██████▏   | 925/1500 [8:29:18<5:20:29, 33.44s/it]                                                      {'loss': 0.138, 'grad_norm': 0.3193426728248596, 'learning_rate': 3.4056135837619077e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1101.35, 'total_tokens': 253985301, 'epoch': 1.85}
+ 62%|██████▏   | 925/1500 [8:29:18<5:20:29, 33.44s/it] 62%|██████▏   | 926/1500 [8:29:51<5:17:23, 33.18s/it]                                                      {'loss': 0.1375, 'grad_norm': 0.31823480129241943, 'learning_rate': 3.3953639180659694e-06, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 811.16, 'total_tokens': 254245200, 'epoch': 1.85}
+ 62%|██████▏   | 926/1500 [8:29:51<5:17:23, 33.18s/it] 62%|██████▏   | 927/1500 [8:30:22<5:11:28, 32.61s/it]                                                      {'loss': 0.1371, 'grad_norm': 0.34236428141593933, 'learning_rate': 3.3851217641506657e-06, 'memory/max_active (GiB)': 50.68, 'memory/max_allocated (GiB)': 50.68, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 897.2, 'total_tokens': 254503626, 'epoch': 1.85}
+ 62%|██████▏   | 927/1500 [8:30:22<5:11:28, 32.61s/it] 62%|██████▏   | 928/1500 [8:30:54<5:08:41, 32.38s/it]                                                      {'loss': 0.127, 'grad_norm': 0.2968187928199768, 'learning_rate': 3.3748871699625746e-06, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 988.84, 'total_tokens': 254783125, 'epoch': 1.86}
+ 62%|██████▏   | 928/1500 [8:30:54<5:08:41, 32.38s/it] 62%|██████▏   | 929/1500 [8:31:28<5:12:33, 32.84s/it]                                                      {'loss': 0.1291, 'grad_norm': 0.30071914196014404, 'learning_rate': 3.3646601834128924e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 832.99, 'total_tokens': 255064226, 'epoch': 1.86}
+ 62%|██████▏   | 929/1500 [8:31:28<5:12:33, 32.84s/it] 62%|██████▏   | 930/1500 [8:31:59<5:05:53, 32.20s/it]                                                      {'loss': 0.1417, 'grad_norm': 0.3226833641529083, 'learning_rate': 3.354440852377193e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1133.63, 'total_tokens': 255331114, 'epoch': 1.86}
+ 62%|██████▏   | 930/1500 [8:31:59<5:05:53, 32.20s/it] 62%|██████▏   | 931/1500 [8:32:33<5:11:00, 32.80s/it]                                                      {'loss': 0.1355, 'grad_norm': 0.29571130871772766, 'learning_rate': 3.344229224695219e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1017.65, 'total_tokens': 255617324, 'epoch': 1.86}
+ 62%|██████▏   | 931/1500 [8:32:33<5:11:00, 32.80s/it] 62%|██████▏   | 932/1500 [8:33:06<5:10:54, 32.84s/it]                                                      {'loss': 0.1472, 'grad_norm': 0.32393139600753784, 'learning_rate': 3.3340253481706465e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1191.27, 'total_tokens': 255916225, 'epoch': 1.86}
+ 62%|██████▏   | 932/1500 [8:33:06<5:10:54, 32.84s/it] 62%|██████▏   | 933/1500 [8:33:38<5:09:51, 32.79s/it]                                                      {'loss': 0.1278, 'grad_norm': 0.3027452230453491, 'learning_rate': 3.3238292705708675e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1156.55, 'total_tokens': 256184972, 'epoch': 1.87}
+ 62%|██████▏   | 933/1500 [8:33:38<5:09:51, 32.79s/it] 62%|██████▏   | 934/1500 [8:34:12<5:10:47, 32.95s/it]                                                      {'loss': 0.135, 'grad_norm': 0.3417951762676239, 'learning_rate': 3.3136410396267695e-06, 'memory/max_active (GiB)': 50.55, 'memory/max_allocated (GiB)': 50.55, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 792.36, 'total_tokens': 256453452, 'epoch': 1.87}
+ 62%|██████▏   | 934/1500 [8:34:12<5:10:47, 32.95s/it] 62%|██████▏   | 935/1500 [8:34:44<5:08:45, 32.79s/it]                                                      {'loss': 0.1428, 'grad_norm': 0.3200761079788208, 'learning_rate': 3.3034607030325016e-06, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 960.41, 'total_tokens': 256726896, 'epoch': 1.87}
+ 62%|██████▏   | 935/1500 [8:34:44<5:08:45, 32.79s/it] 62%|██████▏   | 936/1500 [8:35:18<5:10:59, 33.09s/it]                                                      {'loss': 0.139, 'grad_norm': 0.3145013153553009, 'learning_rate': 3.293288308445259e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1144.38, 'total_tokens': 257006515, 'epoch': 1.87}
+ 62%|██████▏   | 936/1500 [8:35:18<5:10:59, 33.09s/it] 62%|██████▏   | 937/1500 [8:35:51<5:10:25, 33.08s/it]                                                      {'loss': 0.1416, 'grad_norm': 0.30198946595191956, 'learning_rate': 3.2831239034850593e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 996.46, 'total_tokens': 257322540, 'epoch': 1.87}
+ 62%|██████▏   | 937/1500 [8:35:51<5:10:25, 33.08s/it] 63%|██████▎   | 938/1500 [8:36:25<5:11:46, 33.29s/it]                                                      {'loss': 0.1426, 'grad_norm': 0.35050714015960693, 'learning_rate': 3.272967535734513e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 943.08, 'total_tokens': 257604429, 'epoch': 1.88}
+ 63%|██████▎   | 938/1500 [8:36:25<5:11:46, 33.29s/it] 63%|██████▎   | 939/1500 [8:36:58<5:11:02, 33.27s/it]                                                      {'loss': 0.1348, 'grad_norm': 0.3113488554954529, 'learning_rate': 3.262819252738616e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1221.4, 'total_tokens': 257870481, 'epoch': 1.88}
+ 63%|██████▎   | 939/1500 [8:36:58<5:11:02, 33.27s/it] 63%|██████▎   | 940/1500 [8:37:32<5:11:48, 33.41s/it]                                                      {'loss': 0.133, 'grad_norm': 0.3094823658466339, 'learning_rate': 3.252679102004509e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 950.33, 'total_tokens': 258138791, 'epoch': 1.88}
+ 63%|██████▎   | 940/1500 [8:37:32<5:11:48, 33.41s/it] 63%|██████▎   | 941/1500 [8:38:05<5:11:10, 33.40s/it]                                                      {'loss': 0.1263, 'grad_norm': 0.2938685417175293, 'learning_rate': 3.2425471310012645e-06, 'memory/max_active (GiB)': 51.7, 'memory/max_allocated (GiB)': 51.7, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 866.24, 'total_tokens': 258417614, 'epoch': 1.88}
+ 63%|██████▎   | 941/1500 [8:38:05<5:11:10, 33.40s/it] 63%|██████▎   | 942/1500 [8:38:39<5:11:34, 33.50s/it]                                                      {'loss': 0.1324, 'grad_norm': 0.3301267623901367, 'learning_rate': 3.2324233871596644e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 788.28, 'total_tokens': 258679111, 'epoch': 1.88}
+ 63%|██████▎   | 942/1500 [8:38:39<5:11:34, 33.50s/it] 63%|██████▎   | 943/1500 [8:39:13<5:13:08, 33.73s/it]                                                      {'loss': 0.1406, 'grad_norm': 0.31108781695365906, 'learning_rate': 3.2223079178719775e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1019.7, 'total_tokens': 258968482, 'epoch': 1.89}
+ 63%|██████▎   | 943/1500 [8:39:13<5:13:08, 33.73s/it] 63%|██████▎   | 944/1500 [8:39:46<5:10:22, 33.49s/it]                                                      {'loss': 0.1382, 'grad_norm': 0.3316657543182373, 'learning_rate': 3.2122007704917322e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 834.66, 'total_tokens': 259238394, 'epoch': 1.89}
+ 63%|██████▎   | 944/1500 [8:39:46<5:10:22, 33.49s/it] 63%|██████▎   | 945/1500 [8:40:20<5:11:01, 33.62s/it]                                                      {'loss': 0.1332, 'grad_norm': 0.31300604343414307, 'learning_rate': 3.2021019923335093e-06, 'memory/max_active (GiB)': 51.47, 'memory/max_allocated (GiB)': 51.47, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 811.32, 'total_tokens': 259492540, 'epoch': 1.89}
+ 63%|██████▎   | 945/1500 [8:40:20<5:11:01, 33.62s/it] 63%|██████▎   | 946/1500 [8:40:54<5:10:30, 33.63s/it]                                                      {'loss': 0.133, 'grad_norm': 0.31360530853271484, 'learning_rate': 3.192011630672701e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1091.4, 'total_tokens': 259758626, 'epoch': 1.89}
+ 63%|██████▎   | 946/1500 [8:40:54<5:10:30, 33.63s/it] 63%|██████▎   | 947/1500 [8:41:26<5:08:02, 33.42s/it]                                                      {'loss': 0.1373, 'grad_norm': 0.3168521523475647, 'learning_rate': 3.1819297327453045e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1077.09, 'total_tokens': 260016283, 'epoch': 1.89}
+ 63%|██████▎   | 947/1500 [8:41:26<5:08:02, 33.42s/it] 63%|██████▎   | 948/1500 [8:41:59<5:03:42, 33.01s/it]                                                      {'loss': 0.1394, 'grad_norm': 0.31874167919158936, 'learning_rate': 3.171856345747694e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 920.99, 'total_tokens': 260290849, 'epoch': 1.9}
+ 63%|██████▎   | 948/1500 [8:41:59<5:03:42, 33.01s/it] 63%|██████▎   | 949/1500 [8:42:30<4:58:48, 32.54s/it]                                                      {'loss': 0.1312, 'grad_norm': 0.3074372112751007, 'learning_rate': 3.1617915168363994e-06, 'memory/max_active (GiB)': 51.69, 'memory/max_allocated (GiB)': 51.69, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 782.17, 'total_tokens': 260567918, 'epoch': 1.9}
+ 63%|██████▎   | 949/1500 [8:42:30<4:58:48, 32.54s/it] 63%|██████▎   | 950/1500 [8:43:02<4:56:09, 32.31s/it]                                                      {'loss': 0.1359, 'grad_norm': 0.29488253593444824, 'learning_rate': 3.151735293127894e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 936.19, 'total_tokens': 260861276, 'epoch': 1.9}
+ 63%|██████▎   | 950/1500 [8:43:02<4:56:09, 32.31s/it] 63%|██████▎   | 951/1500 [8:43:35<4:57:12, 32.48s/it]                                                      {'loss': 0.1403, 'grad_norm': 0.3138115406036377, 'learning_rate': 3.141687721698363e-06, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1102.45, 'total_tokens': 261155869, 'epoch': 1.9}
+ 63%|██████▎   | 951/1500 [8:43:35<4:57:12, 32.48s/it] 63%|██████▎   | 952/1500 [8:44:06<4:52:40, 32.05s/it]                                                      {'loss': 0.1395, 'grad_norm': 0.3113342821598053, 'learning_rate': 3.1316488495834874e-06, 'memory/max_active (GiB)': 50.98, 'memory/max_allocated (GiB)': 50.98, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 854.19, 'total_tokens': 261419036, 'epoch': 1.9}
+ 63%|██████▎   | 952/1500 [8:44:06<4:52:40, 32.05s/it] 64%|██████▎   | 953/1500 [8:44:38<4:53:06, 32.15s/it]                                                      {'loss': 0.1258, 'grad_norm': 0.3243793547153473, 'learning_rate': 3.121618723778225e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1260.09, 'total_tokens': 261667180, 'epoch': 1.91}
+ 64%|██████▎   | 953/1500 [8:44:38<4:53:06, 32.15s/it] 64%|██████▎   | 954/1500 [8:45:11<4:54:41, 32.38s/it]                                                      {'loss': 0.1358, 'grad_norm': 0.30208900570869446, 'learning_rate': 3.111597391236588e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1268.87, 'total_tokens': 261941520, 'epoch': 1.91}
+ 64%|██████▎   | 954/1500 [8:45:11<4:54:41, 32.38s/it] 64%|██████▎   | 955/1500 [8:45:44<4:55:27, 32.53s/it]                                                      {'loss': 0.1336, 'grad_norm': 0.31221461296081543, 'learning_rate': 3.101584898871431e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1265.18, 'total_tokens': 262211875, 'epoch': 1.91}
+ 64%|██████▎   | 955/1500 [8:45:44<4:55:27, 32.53s/it] 64%|██████▎   | 956/1500 [8:46:14<4:48:55, 31.87s/it]                                                      {'loss': 0.1322, 'grad_norm': 0.32260042428970337, 'learning_rate': 3.0915812935542166e-06, 'memory/max_active (GiB)': 51.63, 'memory/max_allocated (GiB)': 51.63, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 996.3, 'total_tokens': 262478157, 'epoch': 1.91}
+ 64%|██████▎   | 956/1500 [8:46:14<4:48:55, 31.87s/it] 64%|██████▍   | 957/1500 [8:46:48<4:54:45, 32.57s/it]                                                      {'loss': 0.1325, 'grad_norm': 0.3250839412212372, 'learning_rate': 3.081586622114809e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1131.55, 'total_tokens': 262760682, 'epoch': 1.91}
+ 64%|██████▍   | 957/1500 [8:46:48<4:54:45, 32.57s/it] 64%|██████▍   | 958/1500 [8:47:22<4:58:16, 33.02s/it]                                                      {'loss': 0.1375, 'grad_norm': 0.32187938690185547, 'learning_rate': 3.071600931341251e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 942.52, 'total_tokens': 263045506, 'epoch': 1.92}
+ 64%|██████▍   | 958/1500 [8:47:22<4:58:16, 33.02s/it] 64%|██████▍   | 959/1500 [8:47:55<4:57:28, 32.99s/it]                                                      {'loss': 0.1366, 'grad_norm': 0.3203924894332886, 'learning_rate': 3.0616242679795416e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1230.1, 'total_tokens': 263322570, 'epoch': 1.92}
+ 64%|██████▍   | 959/1500 [8:47:55<4:57:28, 32.99s/it] 64%|██████▍   | 960/1500 [8:48:29<4:59:14, 33.25s/it]                                                      {'loss': 0.1315, 'grad_norm': 0.31097862124443054, 'learning_rate': 3.05165667873342e-06, 'memory/max_active (GiB)': 51.69, 'memory/max_allocated (GiB)': 51.69, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 740.61, 'total_tokens': 263587216, 'epoch': 1.92}
+ 64%|██████▍   | 960/1500 [8:48:29<4:59:14, 33.25s/it] 64%|██████▍   | 961/1500 [8:49:03<4:59:53, 33.38s/it]                                                      {'loss': 0.1416, 'grad_norm': 0.3100242614746094, 'learning_rate': 3.041698210264149e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1183.98, 'total_tokens': 263870928, 'epoch': 1.92}
+ 64%|██████▍   | 961/1500 [8:49:03<4:59:53, 33.38s/it] 64%|██████▍   | 962/1500 [8:49:37<5:01:09, 33.59s/it]                                                      {'loss': 0.1374, 'grad_norm': 0.32716435194015503, 'learning_rate': 3.0317489091902936e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1079.3, 'total_tokens': 264152620, 'epoch': 1.92}
+ 64%|██████▍   | 962/1500 [8:49:37<5:01:09, 33.59s/it] 64%|██████▍   | 963/1500 [8:50:10<5:00:06, 33.53s/it]                                                      {'loss': 0.1342, 'grad_norm': 0.31676122546195984, 'learning_rate': 3.0218088220875024e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 874.86, 'total_tokens': 264434297, 'epoch': 1.93}
+ 64%|██████▍   | 963/1500 [8:50:10<5:00:06, 33.53s/it] 64%|██████▍   | 964/1500 [8:50:44<4:59:43, 33.55s/it]                                                      {'loss': 0.14, 'grad_norm': 0.3159068822860718, 'learning_rate': 3.011877995488291e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 952.66, 'total_tokens': 264706677, 'epoch': 1.93}
+ 64%|██████▍   | 964/1500 [8:50:44<4:59:43, 33.55s/it] 64%|██████▍   | 965/1500 [8:51:18<5:00:29, 33.70s/it]                                                      {'loss': 0.1315, 'grad_norm': 0.3071574866771698, 'learning_rate': 3.001956475881822e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1049.67, 'total_tokens': 264978731, 'epoch': 1.93}
+ 64%|██████▍   | 965/1500 [8:51:18<5:00:29, 33.70s/it] 64%|██████▍   | 966/1500 [8:51:51<4:57:46, 33.46s/it]                                                      {'loss': 0.1409, 'grad_norm': 0.30638816952705383, 'learning_rate': 2.992044309713695e-06, 'memory/max_active (GiB)': 50.55, 'memory/max_allocated (GiB)': 50.55, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 751.16, 'total_tokens': 265249321, 'epoch': 1.93}
+ 64%|██████▍   | 966/1500 [8:51:51<4:57:46, 33.46s/it] 64%|██████▍   | 967/1500 [8:52:25<4:58:39, 33.62s/it]                                                      {'loss': 0.1419, 'grad_norm': 0.2993290424346924, 'learning_rate': 2.9821415433857174e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1010.84, 'total_tokens': 265558567, 'epoch': 1.93}
+ 64%|██████▍   | 967/1500 [8:52:25<4:58:39, 33.62s/it] 65%|██████▍   | 968/1500 [8:52:57<4:54:16, 33.19s/it]                                                      {'loss': 0.1336, 'grad_norm': 0.31867170333862305, 'learning_rate': 2.9722482232556958e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1225.56, 'total_tokens': 265839396, 'epoch': 1.94}
+ 65%|██████▍   | 968/1500 [8:52:57<4:54:16, 33.19s/it] 65%|██████▍   | 969/1500 [8:53:31<4:56:09, 33.46s/it]                                                      {'loss': 0.1439, 'grad_norm': 0.3137408196926117, 'learning_rate': 2.962364395637216e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 798.23, 'total_tokens': 266117469, 'epoch': 1.94}
+ 65%|██████▍   | 969/1500 [8:53:31<4:56:09, 33.46s/it] 65%|██████▍   | 970/1500 [8:54:03<4:52:07, 33.07s/it]                                                      {'loss': 0.1436, 'grad_norm': 0.3291073143482208, 'learning_rate': 2.9524901067994238e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1344.7, 'total_tokens': 266377339, 'epoch': 1.94}
+ 65%|██████▍   | 970/1500 [8:54:03<4:52:07, 33.07s/it] 65%|██████▍   | 971/1500 [8:54:37<4:51:49, 33.10s/it]                                                      {'loss': 0.1425, 'grad_norm': 0.3176552355289459, 'learning_rate': 2.942625402966818e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 908.11, 'total_tokens': 266646422, 'epoch': 1.94}
+ 65%|██████▍   | 971/1500 [8:54:37<4:51:49, 33.10s/it] 65%|██████▍   | 972/1500 [8:55:08<4:47:42, 32.69s/it]                                                      {'loss': 0.1393, 'grad_norm': 0.33100560307502747, 'learning_rate': 2.9327703303190204e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1382.81, 'total_tokens': 266909773, 'epoch': 1.94}
+ 65%|██████▍   | 972/1500 [8:55:08<4:47:42, 32.69s/it] 65%|██████▍   | 973/1500 [8:55:42<4:49:26, 32.95s/it]                                                      {'loss': 0.1389, 'grad_norm': 0.3371471166610718, 'learning_rate': 2.9229249349905686e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1294.07, 'total_tokens': 267176986, 'epoch': 1.95}
+ 65%|██████▍   | 973/1500 [8:55:42<4:49:26, 32.95s/it] 65%|██████▍   | 974/1500 [8:56:16<4:51:36, 33.26s/it]                                                      {'loss': 0.1404, 'grad_norm': 0.33100906014442444, 'learning_rate': 2.9130892630706987e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1282.79, 'total_tokens': 267459441, 'epoch': 1.95}
+ 65%|██████▍   | 974/1500 [8:56:16<4:51:36, 33.26s/it] 65%|██████▌   | 975/1500 [8:56:49<4:49:45, 33.12s/it]                                                      {'loss': 0.1323, 'grad_norm': 0.3003237545490265, 'learning_rate': 2.903263360603126e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1259.18, 'total_tokens': 267751623, 'epoch': 1.95}
+ 65%|██████▌   | 975/1500 [8:56:49<4:49:45, 33.12s/it] 65%|██████▌   | 976/1500 [8:57:22<4:48:54, 33.08s/it]                                                      {'loss': 0.1365, 'grad_norm': 0.3229049742221832, 'learning_rate': 2.893447273585835e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1010.49, 'total_tokens': 268016349, 'epoch': 1.95}
+ 65%|██████▌   | 976/1500 [8:57:22<4:48:54, 33.08s/it] 65%|██████▌   | 977/1500 [8:57:53<4:45:09, 32.71s/it]                                                      {'loss': 0.1425, 'grad_norm': 0.3411429226398468, 'learning_rate': 2.8836410479708625e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1133.35, 'total_tokens': 268274430, 'epoch': 1.95}
+ 65%|██████▌   | 977/1500 [8:57:53<4:45:09, 32.71s/it] 65%|██████▌   | 978/1500 [8:58:27<4:46:09, 32.89s/it]                                                      {'loss': 0.1322, 'grad_norm': 0.312502920627594, 'learning_rate': 2.873844729664075e-06, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1054.54, 'total_tokens': 268528186, 'epoch': 1.96}
+ 65%|██████▌   | 978/1500 [8:58:27<4:46:09, 32.89s/it] 65%|██████▌   | 979/1500 [8:59:00<4:46:29, 32.99s/it]                                                      {'loss': 0.1366, 'grad_norm': 0.3163083493709564, 'learning_rate': 2.8640583645249643e-06, 'memory/max_active (GiB)': 51.24, 'memory/max_allocated (GiB)': 51.24, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 823.8, 'total_tokens': 268795990, 'epoch': 1.96}
+ 65%|██████▌   | 979/1500 [8:59:00<4:46:29, 32.99s/it] 65%|██████▌   | 980/1500 [8:59:34<4:48:06, 33.24s/it]                                                      {'loss': 0.1388, 'grad_norm': 0.2941177785396576, 'learning_rate': 2.854281998366431e-06, 'memory/max_active (GiB)': 51.76, 'memory/max_allocated (GiB)': 51.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 954.09, 'total_tokens': 269105315, 'epoch': 1.96}
+ 65%|██████▌   | 980/1500 [8:59:34<4:48:06, 33.24s/it] 65%|██████▌   | 981/1500 [9:00:07<4:46:44, 33.15s/it]                                                      {'loss': 0.1412, 'grad_norm': 0.3345628082752228, 'learning_rate': 2.84451567695456e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1147.37, 'total_tokens': 269370990, 'epoch': 1.96}
+ 65%|██████▌   | 981/1500 [9:00:07<4:46:44, 33.15s/it] 65%|██████▌   | 982/1500 [9:00:40<4:47:35, 33.31s/it]                                                      {'loss': 0.1346, 'grad_norm': 0.31127533316612244, 'learning_rate': 2.8347594460084195e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1272.07, 'total_tokens': 269653485, 'epoch': 1.96}
+ 65%|██████▌   | 982/1500 [9:00:40<4:47:35, 33.31s/it] 66%|██████▌   | 983/1500 [9:01:14<4:46:46, 33.28s/it]                                                      {'loss': 0.1304, 'grad_norm': 0.29144152998924255, 'learning_rate': 2.82501335119984e-06, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1023.64, 'total_tokens': 269926896, 'epoch': 1.97}
+ 66%|██████▌   | 983/1500 [9:01:14<4:46:46, 33.28s/it] 66%|██████▌   | 984/1500 [9:01:44<4:39:51, 32.54s/it]                                                      {'loss': 0.1309, 'grad_norm': 0.31165093183517456, 'learning_rate': 2.8152774381532033e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1045.32, 'total_tokens': 270187908, 'epoch': 1.97}
+ 66%|██████▌   | 984/1500 [9:01:44<4:39:51, 32.54s/it] 66%|██████▌   | 985/1500 [9:02:18<4:42:26, 32.90s/it]                                                      {'loss': 0.1349, 'grad_norm': 0.32246461510658264, 'learning_rate': 2.805551752445222e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 862.07, 'total_tokens': 270445123, 'epoch': 1.97}
+ 66%|██████▌   | 985/1500 [9:02:18<4:42:26, 32.90s/it] 66%|██████▌   | 986/1500 [9:02:52<4:43:27, 33.09s/it]                                                      {'loss': 0.1342, 'grad_norm': 0.3157019317150116, 'learning_rate': 2.795836339604736e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1261.56, 'total_tokens': 270711143, 'epoch': 1.97}
+ 66%|██████▌   | 986/1500 [9:02:52<4:43:27, 33.09s/it] 66%|██████▌   | 987/1500 [9:03:23<4:37:26, 32.45s/it]                                                      {'loss': 0.1302, 'grad_norm': 0.3319965600967407, 'learning_rate': 2.786131245112495e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 823.89, 'total_tokens': 270947698, 'epoch': 1.97}
+ 66%|██████▌   | 987/1500 [9:03:23<4:37:26, 32.45s/it] 66%|██████▌   | 988/1500 [9:03:54<4:35:08, 32.24s/it]                                                      {'loss': 0.1398, 'grad_norm': 0.32915106415748596, 'learning_rate': 2.7764365144009455e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 977.36, 'total_tokens': 271218819, 'epoch': 1.98}
+ 66%|██████▌   | 988/1500 [9:03:54<4:35:08, 32.24s/it] 66%|██████▌   | 989/1500 [9:04:28<4:38:36, 32.71s/it]                                                      {'loss': 0.1312, 'grad_norm': 0.3325138986110687, 'learning_rate': 2.766752192854012e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1055.37, 'total_tokens': 271466344, 'epoch': 1.98}
+ 66%|██████▌   | 989/1500 [9:04:28<4:38:36, 32.71s/it] 66%|██████▌   | 990/1500 [9:05:00<4:36:38, 32.55s/it]                                                      {'loss': 0.1346, 'grad_norm': 0.303387850522995, 'learning_rate': 2.7570783258069004e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 918.9, 'total_tokens': 271746398, 'epoch': 1.98}
+ 66%|██████▌   | 990/1500 [9:05:00<4:36:38, 32.55s/it] 66%|██████▌   | 991/1500 [9:05:34<4:39:50, 32.99s/it]                                                      {'loss': 0.1419, 'grad_norm': 0.3000176250934601, 'learning_rate': 2.7474149585458666e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1181.81, 'total_tokens': 272041693, 'epoch': 1.98}
+ 66%|██████▌   | 991/1500 [9:05:34<4:39:50, 32.99s/it] 66%|██████▌   | 992/1500 [9:06:07<4:38:12, 32.86s/it]                                                      {'loss': 0.1347, 'grad_norm': 0.3255332112312317, 'learning_rate': 2.7377621363080207e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 922.4, 'total_tokens': 272314412, 'epoch': 1.98}
+ 66%|██████▌   | 992/1500 [9:06:07<4:38:12, 32.86s/it] 66%|██████▌   | 993/1500 [9:06:40<4:38:55, 33.01s/it]                                                      {'loss': 0.1431, 'grad_norm': 0.335624098777771, 'learning_rate': 2.728119904281105e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1095.56, 'total_tokens': 272606184, 'epoch': 1.99}
+ 66%|██████▌   | 993/1500 [9:06:40<4:38:55, 33.01s/it] 66%|██████▋   | 994/1500 [9:07:12<4:33:46, 32.46s/it]                                                      {'loss': 0.1376, 'grad_norm': 0.31553590297698975, 'learning_rate': 2.7184883076032886e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1002.72, 'total_tokens': 272879815, 'epoch': 1.99}
+ 66%|██████▋   | 994/1500 [9:07:12<4:33:46, 32.46s/it] 66%|██████▋   | 995/1500 [9:07:44<4:34:23, 32.60s/it]                                                      {'loss': 0.1376, 'grad_norm': 0.3246786296367645, 'learning_rate': 2.708867391362948e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1208.9, 'total_tokens': 273163307, 'epoch': 1.99}
+ 66%|██████▋   | 995/1500 [9:07:44<4:34:23, 32.60s/it] 66%|██████▋   | 996/1500 [9:08:18<4:36:24, 32.90s/it]                                                      {'loss': 0.1302, 'grad_norm': 0.308009535074234, 'learning_rate': 2.6992572005984698e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1202.81, 'total_tokens': 273443788, 'epoch': 1.99}
+ 66%|██████▋   | 996/1500 [9:08:18<4:36:24, 32.90s/it] 66%|██████▋   | 997/1500 [9:08:50<4:34:39, 32.76s/it]                                                      {'loss': 0.1335, 'grad_norm': 0.32973816990852356, 'learning_rate': 2.689657780298019e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1243.43, 'total_tokens': 273701363, 'epoch': 1.99}
+ 66%|██████▋   | 997/1500 [9:08:50<4:34:39, 32.76s/it] 67%|██████▋   | 998/1500 [9:09:24<4:37:15, 33.14s/it]                                                      {'loss': 0.1389, 'grad_norm': 0.3024372160434723, 'learning_rate': 2.680069175399357e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1216.36, 'total_tokens': 274009829, 'epoch': 2.0}
+ 67%|██████▋   | 998/1500 [9:09:25<4:37:15, 33.14s/it] 67%|██████▋   | 999/1500 [9:09:59<4:38:59, 33.41s/it]                                                      {'loss': 0.1391, 'grad_norm': 0.323519229888916, 'learning_rate': 2.6704914307895996e-06, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 816.77, 'total_tokens': 274293716, 'epoch': 2.0}
+ 67%|██████▋   | 999/1500 [9:09:59<4:38:59, 33.41s/it] 67%|██████▋   | 1000/1500 [9:10:31<4:34:58, 33.00s/it]                                                       {'loss': 0.1385, 'grad_norm': 0.32810497283935547, 'learning_rate': 2.6609245913050345e-06, 'memory/max_active (GiB)': 51.98, 'memory/max_allocated (GiB)': 51.98, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1099.44, 'total_tokens': 274540950, 'epoch': 2.0}
+ 67%|██████▋   | 1000/1500 [9:10:31<4:34:58, 33.00s/it][2026-01-25 21:38:32,832] [INFO] [axolotl.core.trainers.base._save:676] [PID:443] Saving model checkpoint to /weka/oe-adapt-default/ethans/llm-weights/axolotl/Qwen3-8B-r0.945_16000_stage2_scaling_final_glm45a_e2e_3ipf_resolved_soft_t0_ipf_1/checkpoint-1000
+ 67%|██████▋   | 1001/1500 [9:12:16<7:35:51, 54.81s/it]                                                       {'loss': 0.1212, 'grad_norm': 0.31002137064933777, 'learning_rate': 2.651368701730889e-06, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1096.0, 'total_tokens': 274832561, 'epoch': 2.0}
+ 67%|██████▋   | 1001/1500 [9:12:16<7:35:51, 54.81s/it] 67%|██████▋   | 1002/1500 [9:12:50<6:41:57, 48.43s/it]                                                       {'loss': 0.1187, 'grad_norm': 0.3015435039997101, 'learning_rate': 2.641823806801138e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1010.81, 'total_tokens': 275094426, 'epoch': 2.0}
+ 67%|██████▋   | 1002/1500 [9:12:50<6:41:57, 48.43s/it] 67%|██████▋   | 1003/1500 [9:13:23<6:03:14, 43.85s/it]                                                       {'loss': 0.1263, 'grad_norm': 0.31897103786468506, 'learning_rate': 2.632289951198285e-06, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 975.46, 'total_tokens': 275353793, 'epoch': 2.01}
+ 67%|██████▋   | 1003/1500 [9:13:23<6:03:14, 43.85s/it] 67%|██████▋   | 1004/1500 [9:13:55<5:32:44, 40.25s/it]                                                       {'loss': 0.1213, 'grad_norm': 0.30767130851745605, 'learning_rate': 2.6227671795531563e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1103.41, 'total_tokens': 275607467, 'epoch': 2.01}
+ 67%|██████▋   | 1004/1500 [9:13:55<5:32:44, 40.25s/it] 67%|██████▋   | 1005/1500 [9:14:25<5:07:54, 37.32s/it]                                                       {'loss': 0.1226, 'grad_norm': 0.31761687994003296, 'learning_rate': 2.6132555364446856e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1162.29, 'total_tokens': 275871844, 'epoch': 2.01}
+ 67%|██████▋   | 1005/1500 [9:14:25<5:07:54, 37.32s/it] 67%|██████▋   | 1006/1500 [9:14:57<4:54:28, 35.77s/it]                                                       {'loss': 0.1163, 'grad_norm': 0.2965383231639862, 'learning_rate': 2.603755066399718e-06, 'memory/max_active (GiB)': 51.56, 'memory/max_allocated (GiB)': 51.56, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 968.01, 'total_tokens': 276150532, 'epoch': 2.01}
+ 67%|██████▋   | 1006/1500 [9:14:57<4:54:28, 35.77s/it] 67%|██████▋   | 1007/1500 [9:15:32<4:50:34, 35.36s/it]                                                       {'loss': 0.1237, 'grad_norm': 0.3004632592201233, 'learning_rate': 2.5942658138927866e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1027.95, 'total_tokens': 276432552, 'epoch': 2.01}
+ 67%|██████▋   | 1007/1500 [9:15:32<4:50:34, 35.36s/it] 67%|██████▋   | 1008/1500 [9:16:06<4:47:50, 35.10s/it]                                                       {'loss': 0.126, 'grad_norm': 0.3128688633441925, 'learning_rate': 2.5847878233459183e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1025.6, 'total_tokens': 276718024, 'epoch': 2.02}
+ 67%|██████▋   | 1008/1500 [9:16:06<4:47:50, 35.10s/it] 67%|██████▋   | 1009/1500 [9:16:41<4:44:49, 34.81s/it]                                                       {'loss': 0.1206, 'grad_norm': 0.3124154508113861, 'learning_rate': 2.5753211391284172e-06, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 946.43, 'total_tokens': 276973631, 'epoch': 2.02}
+ 67%|██████▋   | 1009/1500 [9:16:41<4:44:49, 34.81s/it] 67%|██████▋   | 1010/1500 [9:17:15<4:42:23, 34.58s/it]                                                       {'loss': 0.1211, 'grad_norm': 0.331030935049057, 'learning_rate': 2.5658658055566597e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 817.69, 'total_tokens': 277230488, 'epoch': 2.02}
+ 67%|██████▋   | 1010/1500 [9:17:15<4:42:23, 34.58s/it] 67%|██████▋   | 1011/1500 [9:17:47<4:37:25, 34.04s/it]                                                       {'loss': 0.1207, 'grad_norm': 0.3111715614795685, 'learning_rate': 2.5564218668938825e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1105.17, 'total_tokens': 277509289, 'epoch': 2.02}
+ 67%|██████▋   | 1011/1500 [9:17:47<4:37:25, 34.04s/it] 67%|██████▋   | 1012/1500 [9:18:21<4:35:06, 33.83s/it]                                                       {'loss': 0.1192, 'grad_norm': 0.29996031522750854, 'learning_rate': 2.546989367349984e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1058.38, 'total_tokens': 277793632, 'epoch': 2.02}
+ 67%|██████▋   | 1012/1500 [9:18:21<4:35:06, 33.83s/it] 68%|██████▊   | 1013/1500 [9:18:55<4:35:21, 33.92s/it]                                                       {'loss': 0.1111, 'grad_norm': 0.3050954043865204, 'learning_rate': 2.537568351081311e-06, 'memory/max_active (GiB)': 51.01, 'memory/max_allocated (GiB)': 51.01, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 825.54, 'total_tokens': 278071244, 'epoch': 2.03}
+ 68%|██████▊   | 1013/1500 [9:18:55<4:35:21, 33.92s/it] 68%|██████▊   | 1014/1500 [9:19:27<4:30:46, 33.43s/it]                                                       {'loss': 0.1104, 'grad_norm': 0.2954323887825012, 'learning_rate': 2.528158862190456e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 846.29, 'total_tokens': 278356750, 'epoch': 2.03}
+ 68%|██████▊   | 1014/1500 [9:19:27<4:30:46, 33.43s/it] 68%|██████▊   | 1015/1500 [9:20:01<4:30:36, 33.48s/it]                                                       {'loss': 0.1183, 'grad_norm': 0.3108537793159485, 'learning_rate': 2.518760944726042e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 926.21, 'total_tokens': 278635659, 'epoch': 2.03}
+ 68%|██████▊   | 1015/1500 [9:20:01<4:30:36, 33.48s/it] 68%|██████▊   | 1016/1500 [9:20:32<4:25:35, 32.93s/it]                                                       {'loss': 0.1275, 'grad_norm': 0.33957624435424805, 'learning_rate': 2.5093746426825296e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1084.06, 'total_tokens': 278892658, 'epoch': 2.03}
+ 68%|██████▊   | 1016/1500 [9:20:32<4:25:35, 32.93s/it] 68%|██████▊   | 1017/1500 [9:21:04<4:22:38, 32.63s/it]                                                       {'loss': 0.1204, 'grad_norm': 0.30817922949790955, 'learning_rate': 2.5000000000000015e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1380.61, 'total_tokens': 279163715, 'epoch': 2.03}
+ 68%|██████▊   | 1017/1500 [9:21:04<4:22:38, 32.63s/it] 68%|██████▊   | 1018/1500 [9:21:38<4:24:27, 32.92s/it]                                                       {'loss': 0.1126, 'grad_norm': 0.31312403082847595, 'learning_rate': 2.4906370605639563e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1139.73, 'total_tokens': 279469000, 'epoch': 2.04}
+ 68%|██████▊   | 1018/1500 [9:21:38<4:24:27, 32.92s/it] 68%|██████▊   | 1019/1500 [9:22:10<4:22:44, 32.77s/it]                                                       {'loss': 0.1172, 'grad_norm': 0.31051281094551086, 'learning_rate': 2.481285868205112e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 978.83, 'total_tokens': 279735861, 'epoch': 2.04}
+ 68%|██████▊   | 1019/1500 [9:22:10<4:22:44, 32.77s/it] 68%|██████▊   | 1020/1500 [9:22:44<4:24:26, 33.05s/it]                                                       {'loss': 0.119, 'grad_norm': 0.30025848746299744, 'learning_rate': 2.4719464666991903e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1044.91, 'total_tokens': 280019750, 'epoch': 2.04}
+ 68%|██████▊   | 1020/1500 [9:22:44<4:24:26, 33.05s/it] 68%|██████▊   | 1021/1500 [9:23:17<4:23:16, 32.98s/it]                                                       {'loss': 0.1276, 'grad_norm': 0.762276291847229, 'learning_rate': 2.4626188997667224e-06, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 849.95, 'total_tokens': 280295498, 'epoch': 2.04}
+ 68%|██████▊   | 1021/1500 [9:23:17<4:23:16, 32.98s/it] 68%|██████▊   | 1022/1500 [9:23:51<4:24:48, 33.24s/it]                                                       {'loss': 0.1206, 'grad_norm': 0.3411984443664551, 'learning_rate': 2.4533032110728294e-06, 'memory/max_active (GiB)': 50.13, 'memory/max_allocated (GiB)': 50.13, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 704.36, 'total_tokens': 280541415, 'epoch': 2.04}
+ 68%|██████▊   | 1022/1500 [9:23:51<4:24:48, 33.24s/it] 68%|██████▊   | 1023/1500 [9:24:25<4:26:25, 33.51s/it]                                                       {'loss': 0.1155, 'grad_norm': 0.29501834511756897, 'learning_rate': 2.4439994442270352e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1087.69, 'total_tokens': 280832574, 'epoch': 2.05}
+ 68%|██████▊   | 1023/1500 [9:24:25<4:26:25, 33.51s/it] 68%|██████▊   | 1024/1500 [9:24:59<4:26:28, 33.59s/it]                                                       {'loss': 0.1245, 'grad_norm': 0.31098294258117676, 'learning_rate': 2.4347076427830457e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 965.91, 'total_tokens': 281102849, 'epoch': 2.05}
+ 68%|██████▊   | 1024/1500 [9:24:59<4:26:28, 33.59s/it] 68%|██████▊   | 1025/1500 [9:25:30<4:21:39, 33.05s/it]                                                       {'loss': 0.125, 'grad_norm': 0.3128824830055237, 'learning_rate': 2.425427850238565e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1158.05, 'total_tokens': 281372513, 'epoch': 2.05}
+ 68%|██████▊   | 1025/1500 [9:25:30<4:21:39, 33.05s/it] 68%|██████▊   | 1026/1500 [9:26:03<4:19:47, 32.88s/it]                                                       {'loss': 0.1327, 'grad_norm': 0.3093859851360321, 'learning_rate': 2.416160110035066e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1226.34, 'total_tokens': 281666902, 'epoch': 2.05}
+ 68%|██████▊   | 1026/1500 [9:26:03<4:19:47, 32.88s/it] 68%|██████▊   | 1027/1500 [9:26:36<4:20:07, 33.00s/it]                                                       {'loss': 0.1127, 'grad_norm': 0.3101174235343933, 'learning_rate': 2.406904465557614e-06, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 937.6, 'total_tokens': 281925368, 'epoch': 2.05}
+ 68%|██████▊   | 1027/1500 [9:26:36<4:20:07, 33.00s/it] 69%|██████▊   | 1028/1500 [9:27:10<4:21:36, 33.26s/it]                                                       {'loss': 0.121, 'grad_norm': 0.30976027250289917, 'learning_rate': 2.3976609601346395e-06, 'memory/max_active (GiB)': 51.76, 'memory/max_allocated (GiB)': 51.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1114.69, 'total_tokens': 282197015, 'epoch': 2.06}
+ 69%|██████▊   | 1028/1500 [9:27:10<4:21:36, 33.26s/it] 69%|██████▊   | 1029/1500 [9:27:42<4:18:18, 32.90s/it]                                                       {'loss': 0.1202, 'grad_norm': 0.30902236700057983, 'learning_rate': 2.388429637037753e-06, 'memory/max_active (GiB)': 51.44, 'memory/max_allocated (GiB)': 51.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 992.07, 'total_tokens': 282467240, 'epoch': 2.06}
+ 69%|██████▊   | 1029/1500 [9:27:42<4:18:18, 32.90s/it] 69%|██████▊   | 1030/1500 [9:28:14<4:15:07, 32.57s/it]                                                       {'loss': 0.1244, 'grad_norm': 0.31797918677330017, 'learning_rate': 2.3792105394815347e-06, 'memory/max_active (GiB)': 51.88, 'memory/max_allocated (GiB)': 51.88, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 955.06, 'total_tokens': 282714749, 'epoch': 2.06}
+ 69%|█��████▊   | 1030/1500 [9:28:14<4:15:07, 32.57s/it] 69%|██████▊   | 1031/1500 [9:28:48<4:18:31, 33.07s/it]                                                       {'loss': 0.1222, 'grad_norm': 0.30640947818756104, 'learning_rate': 2.3700037106233352e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1078.82, 'total_tokens': 282992185, 'epoch': 2.06}
+ 69%|██████▊   | 1031/1500 [9:28:48<4:18:31, 33.07s/it] 69%|██████▉   | 1032/1500 [9:29:20<4:15:03, 32.70s/it]                                                       {'loss': 0.1215, 'grad_norm': 0.29816892743110657, 'learning_rate': 2.360809193563065e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1201.54, 'total_tokens': 283276409, 'epoch': 2.06}
+ 69%|██████▉   | 1032/1500 [9:29:20<4:15:03, 32.70s/it] 69%|██████▉   | 1033/1500 [9:29:54<4:16:37, 32.97s/it]                                                       {'loss': 0.1252, 'grad_norm': 0.3021293878555298, 'learning_rate': 2.3516270313430085e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1244.71, 'total_tokens': 283558169, 'epoch': 2.07}
+ 69%|██████▉   | 1033/1500 [9:29:54<4:16:37, 32.97s/it] 69%|██████▉   | 1034/1500 [9:30:26<4:13:54, 32.69s/it]                                                       {'loss': 0.1172, 'grad_norm': 0.2922761142253876, 'learning_rate': 2.3424572669476027e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1132.36, 'total_tokens': 283846351, 'epoch': 2.07}
+ 69%|██████▉   | 1034/1500 [9:30:26<4:13:54, 32.69s/it] 69%|██████▉   | 1035/1500 [9:30:59<4:14:31, 32.84s/it]                                                       {'loss': 0.1099, 'grad_norm': 0.30396392941474915, 'learning_rate': 2.3332999433032603e-06, 'memory/max_active (GiB)': 51.88, 'memory/max_allocated (GiB)': 51.88, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 760.72, 'total_tokens': 284104452, 'epoch': 2.07}
+ 69%|██████▉   | 1035/1500 [9:30:59<4:14:31, 32.84s/it] 69%|██████▉   | 1036/1500 [9:31:32<4:16:02, 33.11s/it]                                                       {'loss': 0.1229, 'grad_norm': 0.34334951639175415, 'learning_rate': 2.324155103278142e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1234.98, 'total_tokens': 284380997, 'epoch': 2.07}
+ 69%|██████▉   | 1036/1500 [9:31:32<4:16:02, 33.11s/it] 69%|██████▉   | 1037/1500 [9:32:05<4:14:56, 33.04s/it]                                                       {'loss': 0.1195, 'grad_norm': 0.29385247826576233, 'learning_rate': 2.3150227896819782e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1000.73, 'total_tokens': 284670088, 'epoch': 2.07}
+ 69%|██████▉   | 1037/1500 [9:32:05<4:14:56, 33.04s/it] 69%|██████▉   | 1038/1500 [9:32:38<4:13:05, 32.87s/it]                                                       {'loss': 0.1194, 'grad_norm': 0.307390958070755, 'learning_rate': 2.305903045265852e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 981.3, 'total_tokens': 284926420, 'epoch': 2.08}
+ 69%|██████▉   | 1038/1500 [9:32:38<4:13:05, 32.87s/it] 69%|██████▉   | 1039/1500 [9:33:10<4:10:44, 32.63s/it]                                                       {'loss': 0.1158, 'grad_norm': 0.30339935421943665, 'learning_rate': 2.296795912722014e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1006.68, 'total_tokens': 285199350, 'epoch': 2.08}
+ 69%|██████▉   | 1039/1500 [9:33:10<4:10:44, 32.63s/it] 69%|██████▉   | 1040/1500 [9:33:43<4:11:45, 32.84s/it]                                                       {'loss': 0.1158, 'grad_norm': 0.2997572124004364, 'learning_rate': 2.2877014346836653e-06, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 993.86, 'total_tokens': 285467142, 'epoch': 2.08}
+ 69%|██████▉   | 1040/1500 [9:33:43<4:11:45, 32.84s/it] 69%|██████▉   | 1041/1500 [9:34:16<4:12:04, 32.95s/it]                                                       {'loss': 0.1239, 'grad_norm': 0.3049701750278473, 'learning_rate': 2.278619653724781e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 863.08, 'total_tokens': 285744480, 'epoch': 2.08}
+ 69%|██████▉   | 1041/1500 [9:34:16<4:12:04, 32.95s/it] 69%|██████▉   | 1042/1500 [9:34:50<4:13:40, 33.23s/it]                                                       {'loss': 0.1168, 'grad_norm': 0.3101794123649597, 'learning_rate': 2.2695506123598825e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 885.54, 'total_tokens': 286017194, 'epoch': 2.08}
+ 69%|██████▉   | 1042/1500 [9:34:50<4:13:40, 33.23s/it] 70%|██████▉   | 1043/1500 [9:35:23<4:10:56, 32.95s/it]                                                       {'loss': 0.1268, 'grad_norm': 0.30500897765159607, 'learning_rate': 2.2604943530438657e-06, 'memory/max_active (GiB)': 51.56, 'memory/max_allocated (GiB)': 51.56, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1002.89, 'total_tokens': 286289111, 'epoch': 2.09}
+ 70%|██████▉   | 1043/1500 [9:35:23<4:10:56, 32.95s/it] 70%|██████▉   | 1044/1500 [9:35:55<4:09:56, 32.89s/it]                                                       {'loss': 0.1189, 'grad_norm': 0.2932174503803253, 'learning_rate': 2.2514509181717804e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 824.65, 'total_tokens': 286569663, 'epoch': 2.09}
+ 70%|██████▉   | 1044/1500 [9:35:55<4:09:56, 32.89s/it] 70%|██████▉   | 1045/1500 [9:36:29<4:09:58, 32.96s/it]                                                       {'loss': 0.1192, 'grad_norm': 0.3264096677303314, 'learning_rate': 2.2424203500786473e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1259.98, 'total_tokens': 286835511, 'epoch': 2.09}
+ 70%|██████▉   | 1045/1500 [9:36:29<4:09:58, 32.96s/it] 70%|██████▉   | 1046/1500 [9:37:02<4:10:23, 33.09s/it]                                                       {'loss': 0.1192, 'grad_norm': 0.3091047704219818, 'learning_rate': 2.233402691039252e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1033.15, 'total_tokens': 287108795, 'epoch': 2.09}
+ 70%|██████▉   | 1046/1500 [9:37:02<4:10:23, 33.09s/it] 70%|██████▉   | 1047/1500 [9:37:34<4:07:18, 32.76s/it]                                                       {'loss': 0.1278, 'grad_norm': 0.3167635500431061, 'learning_rate': 2.2243979832679515e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 958.7, 'total_tokens': 287383147, 'epoch': 2.09}
+ 70%|██████▉   | 1047/1500 [9:37:34<4:07:18, 32.76s/it] 70%|██████▉   | 1048/1500 [9:38:08<4:10:01, 33.19s/it]                                                       {'loss': 0.1169, 'grad_norm': 0.3004817068576813, 'learning_rate': 2.215406268918467e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1162.33, 'total_tokens': 287651376, 'epoch': 2.1}
+ 70%|██████▉   | 1048/1500 [9:38:08<4:10:01, 33.19s/it] 70%|██████▉   | 1049/1500 [9:38:41<4:09:52, 33.24s/it]                                                       {'loss': 0.1165, 'grad_norm': 0.28197821974754333, 'learning_rate': 2.206427590083703e-06, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1148.66, 'total_tokens': 287947454, 'epoch': 2.1}
+ 70%|██████▉   | 1049/1500 [9:38:41<4:09:52, 33.24s/it] 70%|███████   | 1050/1500 [9:39:16<4:11:30, 33.53s/it]                                                       {'loss': 0.1216, 'grad_norm': 0.2981366515159607, 'learning_rate': 2.1974619887955294e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 938.06, 'total_tokens': 288221874, 'epoch': 2.1}
+ 70%|███████   | 1050/1500 [9:39:16<4:11:30, 33.53s/it] 70%|███████   | 1051/1500 [9:39:50<4:11:52, 33.66s/it]                                                       {'loss': 0.1213, 'grad_norm': 0.35370537638664246, 'learning_rate': 2.1885095070246116e-06, 'memory/max_active (GiB)': 51.58, 'memory/max_allocated (GiB)': 51.58, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 742.09, 'total_tokens': 288501026, 'epoch': 2.1}
+ 70%|███████   | 1051/1500 [9:39:50<4:11:52, 33.66s/it] 70%|███████   | 1052/1500 [9:40:23<4:09:53, 33.47s/it]                                                       {'loss': 0.116, 'grad_norm': 0.2939223647117615, 'learning_rate': 2.1795701866801835e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1063.71, 'total_tokens': 288779746, 'epoch': 2.1}
+ 70%|███████   | 1052/1500 [9:40:23<4:09:53, 33.47s/it] 70%|███████   | 1053/1500 [9:40:56<4:08:40, 33.38s/it]                                                       {'loss': 0.115, 'grad_norm': 0.3060201108455658, 'learning_rate': 2.170644069609876e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 804.28, 'total_tokens': 289041481, 'epoch': 2.11}
+ 70%|███████   | 1053/1500 [9:40:56<4:08:40, 33.38s/it] 70%|███████   | 1054/1500 [9:41:29<4:07:19, 33.27s/it]                                                       {'loss': 0.1181, 'grad_norm': 0.31676945090293884, 'learning_rate': 2.1617311975995057e-06, 'memory/max_active (GiB)': 51.37, 'memory/max_allocated (GiB)': 51.37, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1107.31, 'total_tokens': 289308718, 'epoch': 2.11}
+ 70%|███████   | 1054/1500 [9:41:29<4:07:19, 33.27s/it] 70%|███████   | 1055/1500 [9:42:02<4:07:22, 33.35s/it]                                                       {'loss': 0.125, 'grad_norm': 0.3172844350337982, 'learning_rate': 2.15283161237289e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1071.82, 'total_tokens': 289583771, 'epoch': 2.11}
+ 70%|███████   | 1055/1500 [9:42:02<4:07:22, 33.35s/it] 70%|███████   | 1056/1500 [9:42:35<4:04:26, 33.03s/it]                                                       {'loss': 0.1165, 'grad_norm': 0.29927611351013184, 'learning_rate': 2.143945355591644e-06, 'memory/max_active (GiB)': 51.12, 'memory/max_allocated (GiB)': 51.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1220.94, 'total_tokens': 289865582, 'epoch': 2.11}
+ 70%|███████   | 1056/1500 [9:42:35<4:04:26, 33.03s/it] 70%|███████   | 1057/1500 [9:43:08<4:04:02, 33.05s/it]                                                       {'loss': 0.1279, 'grad_norm': 0.30837690830230713, 'learning_rate': 2.1350724688549906e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1118.56, 'total_tokens': 290146396, 'epoch': 2.11}
+ 70%|███████   | 1057/1500 [9:43:08<4:04:02, 33.05s/it] 71%|███████   | 1058/1500 [9:43:41<4:03:01, 32.99s/it]                                                       {'loss': 0.1115, 'grad_norm': 0.2845253646373749, 'learning_rate': 2.126212993699559e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1188.29, 'total_tokens': 290434141, 'epoch': 2.12}
+ 71%|███████   | 1058/1500 [9:43:41<4:03:01, 32.99s/it] 71%|███████   | 1059/1500 [9:44:14<4:03:22, 33.11s/it]                                                       {'loss': 0.113, 'grad_norm': 0.2938844561576843, 'learning_rate': 2.1173669715991996e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1039.44, 'total_tokens': 290717883, 'epoch': 2.12}
+ 71%|███████   | 1059/1500 [9:44:14<4:03:22, 33.11s/it] 71%|███████   | 1060/1500 [9:44:47<4:02:52, 33.12s/it]                                                       {'loss': 0.121, 'grad_norm': 0.2886577546596527, 'learning_rate': 2.108534443964785e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 971.14, 'total_tokens': 291022532, 'epoch': 2.12}
+ 71%|███████   | 1060/1500 [9:44:47<4:02:52, 33.12s/it] 71%|███████   | 1061/1500 [9:45:20<4:02:37, 33.16s/it]                                                       {'loss': 0.1219, 'grad_norm': 0.32236936688423157, 'learning_rate': 2.09971545214401e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 842.66, 'total_tokens': 291269664, 'epoch': 2.12}
+ 71%|███████   | 1061/1500 [9:45:20<4:02:37, 33.16s/it] 71%|███████   | 1062/1500 [9:45:53<4:01:05, 33.03s/it]                                                       {'loss': 0.1181, 'grad_norm': 0.3035522699356079, 'learning_rate': 2.090910037421211e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1083.09, 'total_tokens': 291549597, 'epoch': 2.12}
+ 71%|███████   | 1062/1500 [9:45:53<4:01:05, 33.03s/it] 71%|███████   | 1063/1500 [9:46:27<4:02:19, 33.27s/it]                                                       {'loss': 0.125, 'grad_norm': 0.3216087818145752, 'learning_rate': 2.0821182410171638e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 724.42, 'total_tokens': 291801858, 'epoch': 2.13}
+ 71%|███████   | 1063/1500 [9:46:27<4:02:19, 33.27s/it] 71%|███████   | 1064/1500 [9:47:00<4:01:32, 33.24s/it]                                                       {'loss': 0.1159, 'grad_norm': 0.29916495084762573, 'learning_rate': 2.073340104088894e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1061.81, 'total_tokens': 292067994, 'epoch': 2.13}
+ 71%|███████   | 1064/1500 [9:47:00<4:01:32, 33.24s/it] 71%|███████   | 1065/1500 [9:47:33<4:00:50, 33.22s/it]                                                       {'loss': 0.1201, 'grad_norm': 0.2912904918193817, 'learning_rate': 2.0645756677294788e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1106.17, 'total_tokens': 292349786, 'epoch': 2.13}
+ 71%|███████   | 1065/1500 [9:47:33<4:00:50, 33.22s/it] 71%|███████   | 1066/1500 [9:48:07<4:01:42, 33.42s/it]                                                       {'loss': 0.119, 'grad_norm': 0.353596955537796, 'learning_rate': 2.055824972967862e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 929.86, 'total_tokens': 292612901, 'epoch': 2.13}
+ 71%|███████   | 1066/1500 [9:48:07<4:01:42, 33.42s/it] 71%|███████   | 1067/1500 [9:48:41<4:01:20, 33.44s/it]                                                       {'loss': 0.1225, 'grad_norm': 0.3211340010166168, 'learning_rate': 2.0470880607686605e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 852.71, 'total_tokens': 292878736, 'epoch': 2.13}
+ 71%|███████   | 1067/1500 [9:48:41<4:01:20, 33.44s/it] 71%|███████   | 1068/1500 [9:49:15<4:02:13, 33.64s/it]                                                       {'loss': 0.1199, 'grad_norm': 0.3079850673675537, 'learning_rate': 2.0383649720319694e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1212.61, 'total_tokens': 293158503, 'epoch': 2.14}
+ 71%|███████   | 1068/1500 [9:49:15<4:02:13, 33.64s/it] 71%|███████▏  | 1069/1500 [9:49:47<3:57:47, 33.10s/it]                                                       {'loss': 0.1184, 'grad_norm': 0.2974431812763214, 'learning_rate': 2.029655747593169e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1380.38, 'total_tokens': 293430708, 'epoch': 2.14}
+ 71%|███████▏  | 1069/1500 [9:49:47<3:57:47, 33.10s/it] 71%|███████▏  | 1070/1500 [9:50:19<3:54:44, 32.76s/it]                                                       {'loss': 0.1276, 'grad_norm': 0.319833904504776, 'learning_rate': 2.020960428222743e-06, 'memory/max_active (GiB)': 51.56, 'memory/max_allocated (GiB)': 51.56, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1022.98, 'total_tokens': 293706873, 'epoch': 2.14}
+ 71%|███████▏  | 1070/1500 [9:50:19<3:54:44, 32.76s/it] 71%|███████▏  | 1071/1500 [9:50:52<3:55:29, 32.94s/it]                                                       {'loss': 0.1177, 'grad_norm': 0.2766556739807129, 'learning_rate': 2.012279054626074e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1070.01, 'total_tokens': 294030417, 'epoch': 2.14}
+ 71%|███████▏  | 1071/1500 [9:50:52<3:55:29, 32.94s/it] 71%|███████▏  | 1072/1500 [9:51:26<3:56:28, 33.15s/it]                                                       {'loss': 0.1182, 'grad_norm': 0.2963935136795044, 'learning_rate': 2.0036116674432653e-06, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 964.59, 'total_tokens': 294313958, 'epoch': 2.14}
+ 71%|███████▏  | 1072/1500 [9:51:26<3:56:28, 33.15s/it] 72%|███████▏  | 1073/1500 [9:51:58<3:55:01, 33.02s/it]                                                       {'loss': 0.1212, 'grad_norm': 0.30413657426834106, 'learning_rate': 1.9949583072489455e-06, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 852.39, 'total_tokens': 294580062, 'epoch': 2.15}
+ 72%|███████▏  | 1073/1500 [9:51:58<3:55:01, 33.02s/it] 72%|███████▏  | 1074/1500 [9:52:31<3:54:05, 32.97s/it]                                                       {'loss': 0.1137, 'grad_norm': 0.3186109960079193, 'learning_rate': 1.9863190145520784e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 786.35, 'total_tokens': 294832487, 'epoch': 2.15}
+ 72%|███████▏  | 1074/1500 [9:52:31<3:54:05, 32.97s/it] 72%|███████▏  | 1075/1500 [9:53:04<3:52:29, 32.82s/it]                                                       {'loss': 0.1245, 'grad_norm': 0.3092725872993469, 'learning_rate': 1.977693829795769e-06, 'memory/max_active (GiB)': 51.88, 'memory/max_allocated (GiB)': 51.88, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1180.51, 'total_tokens': 295125110, 'epoch': 2.15}
+ 72%|███████▏  | 1075/1500 [9:53:04<3:52:29, 32.82s/it] 72%|███████▏  | 1076/1500 [9:53:36<3:51:24, 32.75s/it]                                                       {'loss': 0.1205, 'grad_norm': 0.29852205514907837, 'learning_rate': 1.9690827933570867e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1367.68, 'total_tokens': 295412403, 'epoch': 2.15}
+ 72%|███████▏  | 1076/1500 [9:53:36<3:51:24, 32.75s/it] 72%|███████▏  | 1077/1500 [9:54:09<3:50:55, 32.76s/it]                                                       {'loss': 0.12, 'grad_norm': 0.2984106242656708, 'learning_rate': 1.9604859455468587e-06, 'memory/max_active (GiB)': 51.56, 'memory/max_allocated (GiB)': 51.56, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 987.16, 'total_tokens': 295685366, 'epoch': 2.15}
+ 72%|███████▏  | 1077/1500 [9:54:09<3:50:55, 32.76s/it] 72%|███████▏  | 1078/1500 [9:54:42<3:51:47, 32.96s/it]                                                       {'loss': 0.1236, 'grad_norm': 0.30650487542152405, 'learning_rate': 1.951903326609504e-06, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 905.05, 'total_tokens': 295977151, 'epoch': 2.16}
+ 72%|███████▏  | 1078/1500 [9:54:42<3:51:47, 32.96s/it] 72%|███████▏  | 1079/1500 [9:55:15<3:49:39, 32.73s/it]                                                       {'loss': 0.1165, 'grad_norm': 0.29691705107688904, 'learning_rate': 1.943334976722819e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 778.4, 'total_tokens': 296234823, 'epoch': 2.16}
+ 72%|███████▏  | 1079/1500 [9:55:15<3:49:39, 32.73s/it] 72%|███████▏  | 1080/1500 [9:55:47<3:49:22, 32.77s/it]                                                       {'loss': 0.1204, 'grad_norm': 0.30468204617500305, 'learning_rate': 1.934780935997811e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1028.8, 'total_tokens': 296509301, 'epoch': 2.16}
+ 72%|███████▏  | 1080/1500 [9:55:47<3:49:22, 32.77s/it] 72%|███████▏  | 1081/1500 [9:56:21<3:49:31, 32.87s/it]                                                       {'loss': 0.1166, 'grad_norm': 0.2931518852710724, 'learning_rate': 1.926241244478496e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1438.95, 'total_tokens': 296797777, 'epoch': 2.16}
+ 72%|███████▏  | 1081/1500 [9:56:21<3:49:31, 32.87s/it] 72%|███████▏  | 1082/1500 [9:56:54<3:49:38, 32.96s/it]                                                       {'loss': 0.1179, 'grad_norm': 0.3031594157218933, 'learning_rate': 1.917715942141722e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1114.97, 'total_tokens': 297094319, 'epoch': 2.16}
+ 72%|███████▏  | 1082/1500 [9:56:54<3:49:38, 32.96s/it] 72%|███████▏  | 1083/1500 [9:57:26<3:48:03, 32.82s/it]                                                       {'loss': 0.1157, 'grad_norm': 0.29071930050849915, 'learning_rate': 1.9092050688969736e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 983.16, 'total_tokens': 297379401, 'epoch': 2.17}
+ 72%|███████▏  | 1083/1500 [9:57:26<3:48:03, 32.82s/it] 72%|███████▏  | 1084/1500 [9:57:57<3:43:45, 32.27s/it]                                                       {'loss': 0.1217, 'grad_norm': 0.31471213698387146, 'learning_rate': 1.9007086645861923e-06, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 886.99, 'total_tokens': 297633665, 'epoch': 2.17}
+ 72%|███████▏  | 1084/1500 [9:57:57<3:43:45, 32.27s/it] 72%|███████▏  | 1085/1500 [9:58:31<3:45:52, 32.66s/it]                                                       {'loss': 0.1164, 'grad_norm': 0.29590165615081787, 'learning_rate': 1.8922267689835806e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 888.09, 'total_tokens': 297912094, 'epoch': 2.17}
+ 72%|███████▏  | 1085/1500 [9:58:31<3:45:52, 32.66s/it] 72%|███████▏  | 1086/1500 [9:59:03<3:44:24, 32.52s/it]                                                       {'loss': 0.1192, 'grad_norm': 0.4088096022605896, 'learning_rate': 1.8837594217954263e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 888.05, 'total_tokens': 298188129, 'epoch': 2.17}
+ 72%|███████▏  | 1086/1500 [9:59:03<3:44:24, 32.52s/it] 72%|███████▏  | 1087/1500 [9:59:37<3:46:27, 32.90s/it]                                                       {'loss': 0.1176, 'grad_norm': 0.29817861318588257, 'learning_rate': 1.8753066626599086e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 931.83, 'total_tokens': 298484438, 'epoch': 2.17}
+ 72%|███████▏  | 1087/1500 [9:59:37<3:46:27, 32.90s/it] 73%|███████▎  | 1088/1500 [10:00:08<3:43:13, 32.51s/it]                                                        {'loss': 0.1225, 'grad_norm': 0.30634772777557373, 'learning_rate': 1.866868531146917e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1493.34, 'total_tokens': 298748549, 'epoch': 2.18}
+ 73%|███████▎  | 1088/1500 [10:00:08<3:43:13, 32.51s/it] 73%|███████▎  | 1089/1500 [10:00:42<3:44:06, 32.72s/it]                                                        {'loss': 0.1221, 'grad_norm': 0.3029543459415436, 'learning_rate': 1.8584450667578656e-06, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 843.31, 'total_tokens': 299019845, 'epoch': 2.18}
+ 73%|███████▎  | 1089/1500 [10:00:42<3:44:06, 32.72s/it] 73%|███████▎  | 1090/1500 [10:01:14<3:42:19, 32.53s/it]                                                        {'loss': 0.1149, 'grad_norm': 0.31256869435310364, 'learning_rate': 1.8500363089255074e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1179.12, 'total_tokens': 299304427, 'epoch': 2.18}
+ 73%|███████▎  | 1090/1500 [10:01:14<3:42:19, 32.53s/it] 73%|███████▎  | 1091/1500 [10:01:48<3:45:02, 33.01s/it]                                                        {'loss': 0.1142, 'grad_norm': 0.29735276103019714, 'learning_rate': 1.841642297013746e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 851.33, 'total_tokens': 299573021, 'epoch': 2.18}
+ 73%|███████▎  | 1091/1500 [10:01:48<3:45:02, 33.01s/it] 73%|███████▎  | 1092/1500 [10:02:22<3:46:17, 33.28s/it]                                                        {'loss': 0.1061, 'grad_norm': 0.28371739387512207, 'learning_rate': 1.8332630703174586e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 991.54, 'total_tokens': 299857241, 'epoch': 2.18}
+ 73%|███████▎  | 1092/1500 [10:02:22<3:46:17, 33.28s/it] 73%|███████▎  | 1093/1500 [10:02:55<3:45:31, 33.25s/it]                                                        {'loss': 0.1328, 'grad_norm': 0.3238290846347809, 'learning_rate': 1.8248986680623077e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 871.94, 'total_tokens': 300104746, 'epoch': 2.19}
+ 73%|███████▎  | 1093/1500 [10:02:55<3:45:31, 33.25s/it] 73%|███████▎  | 1094/1500 [10:03:27<3:43:12, 32.99s/it]                                                        {'loss': 0.1222, 'grad_norm': 0.31073522567749023, 'learning_rate': 1.8165491294045596e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1260.91, 'total_tokens': 300372231, 'epoch': 2.19}
+ 73%|███████▎  | 1094/1500 [10:03:27<3:43:12, 32.99s/it] 73%|███████▎  | 1095/1500 [10:04:00<3:43:07, 33.06s/it]                                                        {'loss': 0.1132, 'grad_norm': 0.29246455430984497, 'learning_rate': 1.8082144934308942e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1104.69, 'total_tokens': 300656677, 'epoch': 2.19}
+ 73%|███████▎  | 1095/1500 [10:04:00<3:43:07, 33.06s/it] 73%|███████▎  | 1096/1500 [10:04:34<3:43:26, 33.18s/it]                                                        {'loss': 0.1166, 'grad_norm': 0.31383585929870605, 'learning_rate': 1.7998947991582327e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1349.42, 'total_tokens': 300921195, 'epoch': 2.19}
+ 73%|███████▎  | 1096/1500 [10:04:34<3:43:26, 33.18s/it] 73%|███████▎  | 1097/1500 [10:05:06<3:40:06, 32.77s/it]                                                        {'loss': 0.1213, 'grad_norm': 0.2992277145385742, 'learning_rate': 1.7915900855335506e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1038.11, 'total_tokens': 301195168, 'epoch': 2.19}
+ 73%|███████▎  | 1097/1500 [10:05:06<3:40:06, 32.77s/it] 73%|███████▎  | 1098/1500 [10:05:39<3:40:26, 32.90s/it]                                                        {'loss': 0.1087, 'grad_norm': 0.2886385917663574, 'learning_rate': 1.7833003914336883e-06, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 805.82, 'total_tokens': 301463912, 'epoch': 2.2}
+ 73%|███████▎  | 1098/1500 [10:05:39<3:40:26, 32.90s/it] 73%|███████▎  | 1099/1500 [10:06:12<3:39:48, 32.89s/it]                                                        {'loss': 0.126, 'grad_norm': 0.3211756944656372, 'learning_rate': 1.7750257556651806e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 743.59, 'total_tokens': 301710883, 'epoch': 2.2}
+ 73%|███████▎  | 1099/1500 [10:06:12<3:39:48, 32.89s/it] 73%|███████▎  | 1100/1500 [10:06:44<3:38:21, 32.75s/it]                                                        {'loss': 0.1137, 'grad_norm': 0.3169529438018799, 'learning_rate': 1.7667662169640688e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 988.99, 'total_tokens': 301955133, 'epoch': 2.2}
+ 73%|███████▎  | 1100/1500 [10:06:44<3:38:21, 32.75s/it] 73%|███████▎  | 1101/1500 [10:07:17<3:38:36, 32.87s/it]                                                        {'loss': 0.1204, 'grad_norm': 0.3009755611419678, 'learning_rate': 1.7585218139957205e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1238.04, 'total_tokens': 302238730, 'epoch': 2.2}
+ 73%|███████▎  | 1101/1500 [10:07:17<3:38:36, 32.87s/it] 73%|███████▎  | 1102/1500 [10:07:48<3:33:17, 32.15s/it]                                                        {'loss': 0.1248, 'grad_norm': 0.3726106882095337, 'learning_rate': 1.750292585354646e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1167.9, 'total_tokens': 302482643, 'epoch': 2.2}
+ 73%|███████▎  | 1102/1500 [10:07:48<3:33:17, 32.15s/it] 74%|███████▎  | 1103/1500 [10:08:21<3:35:18, 32.54s/it]                                                        {'loss': 0.1226, 'grad_norm': 0.31773778796195984, 'learning_rate': 1.7420785695643233e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1148.73, 'total_tokens': 302755110, 'epoch': 2.21}
+ 74%|███████▎  | 1103/1500 [10:08:21<3:35:18, 32.54s/it] 74%|███████▎  | 1104/1500 [10:08:54<3:35:50, 32.70s/it]                                                        {'loss': 0.1291, 'grad_norm': 0.293051153421402, 'learning_rate': 1.7338798050770111e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1092.39, 'total_tokens': 303061151, 'epoch': 2.21}
+ 74%|███████▎  | 1104/1500 [10:08:54<3:35:50, 32.70s/it] 74%|███████▎  | 1105/1500 [10:09:26<3:33:09, 32.38s/it]                                                        {'loss': 0.1156, 'grad_norm': 0.3043330907821655, 'learning_rate': 1.7256963302735752e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1290.34, 'total_tokens': 303316925, 'epoch': 2.21}
+ 74%|███████▎  | 1105/1500 [10:09:26<3:33:09, 32.38s/it] 74%|███████▎  | 1106/1500 [10:10:00<3:35:45, 32.86s/it]                                                        {'loss': 0.1154, 'grad_norm': 0.28103265166282654, 'learning_rate': 1.7175281834633039e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1460.81, 'total_tokens': 303619553, 'epoch': 2.21}
+ 74%|███████▎  | 1106/1500 [10:10:00<3:35:45, 32.86s/it] 74%|███████▍  | 1107/1500 [10:10:33<3:35:56, 32.97s/it]                                                        {'loss': 0.1166, 'grad_norm': 0.29333212971687317, 'learning_rate': 1.7093754028837345e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1042.26, 'total_tokens': 303892533, 'epoch': 2.21}
+ 74%|███████▍  | 1107/1500 [10:10:33<3:35:56, 32.97s/it] 74%|███████▍  | 1108/1500 [10:11:06<3:34:56, 32.90s/it]                                                        {'loss': 0.1196, 'grad_norm': 0.31774404644966125, 'learning_rate': 1.701238026700463e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1092.94, 'total_tokens': 304161712, 'epoch': 2.22}
+ 74%|███████▍  | 1108/1500 [10:11:06<3:34:56, 32.90s/it] 74%|███████▍  | 1109/1500 [10:11:39<3:34:39, 32.94s/it]                                                        {'loss': 0.112, 'grad_norm': 0.2845998704433441, 'learning_rate': 1.6931160930069789e-06, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1080.62, 'total_tokens': 304444907, 'epoch': 2.22}
+ 74%|███████▍  | 1109/1500 [10:11:39<3:34:39, 32.94s/it] 74%|███████▍  | 1110/1500 [10:12:12<3:34:07, 32.94s/it]                                                        {'loss': 0.1154, 'grad_norm': 0.28841114044189453, 'learning_rate': 1.685009639824479e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 974.95, 'total_tokens': 304736777, 'epoch': 2.22}
+ 74%|███████▍  | 1110/1500 [10:12:12<3:34:07, 32.94s/it] 74%|███████▍  | 1111/1500 [10:12:46<3:34:57, 33.16s/it]                                                        {'loss': 0.1216, 'grad_norm': 0.29243966937065125, 'learning_rate': 1.6769187051016933e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1144.81, 'total_tokens': 305032831, 'epoch': 2.22}
+ 74%|███████▍  | 1111/1500 [10:12:46<3:34:57, 33.16s/it] 74%|███████▍  | 1112/1500 [10:13:17<3:31:37, 32.73s/it]                                                        {'loss': 0.1192, 'grad_norm': 0.2991120219230652, 'learning_rate': 1.6688433267146991e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1015.28, 'total_tokens': 305299494, 'epoch': 2.22}
+ 74%|███████▍  | 1112/1500 [10:13:17<3:31:37, 32.73s/it] 74%|███████▍  | 1113/1500 [10:13:49<3:29:41, 32.51s/it]                                                        {'loss': 0.1157, 'grad_norm': 0.333739697933197, 'learning_rate': 1.6607835424667578e-06, 'memory/max_active (GiB)': 51.44, 'memory/max_allocated (GiB)': 51.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 944.93, 'total_tokens': 305547865, 'epoch': 2.23}
+ 74%|███████▍  | 1113/1500 [10:13:49<3:29:41, 32.51s/it] 74%|███████▍  | 1114/1500 [10:14:22<3:30:19, 32.69s/it]                                                        {'loss': 0.1236, 'grad_norm': 0.3166707754135132, 'learning_rate': 1.6527393900881205e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 846.13, 'total_tokens': 305810509, 'epoch': 2.23}
+ 74%|███████▍  | 1114/1500 [10:14:22<3:30:19, 32.69s/it] 74%|███████▍  | 1115/1500 [10:14:56<3:30:33, 32.81s/it]                                                        {'loss': 0.1117, 'grad_norm': 0.3076656460762024, 'learning_rate': 1.6447109072358737e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 965.08, 'total_tokens': 306056862, 'epoch': 2.23}
+ 74%|███████▍  | 1115/1500 [10:14:56<3:30:33, 32.81s/it] 74%|███████▍  | 1116/1500 [10:15:28<3:29:18, 32.70s/it]                                                        {'loss': 0.1263, 'grad_norm': 0.2908206582069397, 'learning_rate': 1.6366981314937374e-06, 'memory/max_active (GiB)': 52.48, 'memory/max_allocated (GiB)': 52.48, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1244.18, 'total_tokens': 306351547, 'epoch': 2.23}
+ 74%|███████▍  | 1116/1500 [10:15:28<3:29:18, 32.70s/it] 74%|███████▍  | 1117/1500 [10:16:01<3:29:17, 32.79s/it]                                                        {'loss': 0.1098, 'grad_norm': 0.29831787943840027, 'learning_rate': 1.6287011003719105e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1358.82, 'total_tokens': 306633659, 'epoch': 2.23}
+ 74%|███████▍  | 1117/1500 [10:16:01<3:29:17, 32.79s/it] 75%|███████▍  | 1118/1500 [10:16:33<3:27:38, 32.61s/it]                                                        {'loss': 0.1171, 'grad_norm': 0.30148404836654663, 'learning_rate': 1.6207198513068812e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 959.13, 'total_tokens': 306891413, 'epoch': 2.24}
+ 75%|███████▍  | 1118/1500 [10:16:33<3:27:38, 32.61s/it] 75%|███████▍  | 1119/1500 [10:17:07<3:30:11, 33.10s/it]                                                        {'loss': 0.1259, 'grad_norm': 0.3011736571788788, 'learning_rate': 1.6127544216612623e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1018.1, 'total_tokens': 307163396, 'epoch': 2.24}
+ 75%|███████▍  | 1119/1500 [10:17:07<3:30:11, 33.10s/it] 75%|███████▍  | 1120/1500 [10:17:42<3:31:44, 33.43s/it]                                                        {'loss': 0.111, 'grad_norm': 0.2690189778804779, 'learning_rate': 1.604804848723603e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1242.84, 'total_tokens': 307478562, 'epoch': 2.24}
+ 75%|███████▍  | 1120/1500 [10:17:42<3:31:44, 33.43s/it] 75%|███████▍  | 1121/1500 [10:18:15<3:31:26, 33.47s/it]                                                        {'loss': 0.1237, 'grad_norm': 0.28063204884529114, 'learning_rate': 1.596871169708235e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1296.63, 'total_tokens': 307780381, 'epoch': 2.24}
+ 75%|███████▍  | 1121/1500 [10:18:15<3:31:26, 33.47s/it] 75%|███████▍  | 1122/1500 [10:18:48<3:29:52, 33.31s/it]                                                        {'loss': 0.1246, 'grad_norm': 0.2981516420841217, 'learning_rate': 1.588953421755074e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1122.48, 'total_tokens': 308076109, 'epoch': 2.24}
+ 75%|███████▍  | 1122/1500 [10:18:48<3:29:52, 33.31s/it] 75%|███████▍  | 1123/1500 [10:19:22<3:30:02, 33.43s/it]                                                        {'loss': 0.1283, 'grad_norm': 0.31711840629577637, 'learning_rate': 1.5810516419294654e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1112.76, 'total_tokens': 308334322, 'epoch': 2.25}
+ 75%|███████▍  | 1123/1500 [10:19:22<3:30:02, 33.43s/it] 75%|███████▍  | 1124/1500 [10:19:53<3:25:54, 32.86s/it]                                                        {'loss': 0.1244, 'grad_norm': 0.296675443649292, 'learning_rate': 1.5731658672219967e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1199.92, 'total_tokens': 308614925, 'epoch': 2.25}
+ 75%|███████▍  | 1124/1500 [10:19:53<3:25:54, 32.86s/it] 75%|███████▌  | 1125/1500 [10:20:26<3:24:14, 32.68s/it]                                                        {'loss': 0.1257, 'grad_norm': 0.304435670375824, 'learning_rate': 1.5652961345483353e-06, 'memory/max_active (GiB)': 51.24, 'memory/max_allocated (GiB)': 51.24, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 802.31, 'total_tokens': 308890168, 'epoch': 2.25}
+ 75%|███████▌  | 1125/1500 [10:20:26<3:24:14, 32.68s/it] 75%|███████▌  | 1126/1500 [10:20:57<3:21:49, 32.38s/it]                                                        {'loss': 0.1085, 'grad_norm': 0.29442039132118225, 'learning_rate': 1.5574424807490501e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1080.99, 'total_tokens': 309161766, 'epoch': 2.25}
+ 75%|███████▌  | 1126/1500 [10:20:57<3:21:49, 32.38s/it] 75%|███████▌  | 1127/1500 [10:21:31<3:23:14, 32.69s/it]                                                        {'loss': 0.1235, 'grad_norm': 0.29376110434532166, 'learning_rate': 1.549604942589441e-06, 'memory/max_active (GiB)': 51.98, 'memory/max_allocated (GiB)': 51.98, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1223.04, 'total_tokens': 309464210, 'epoch': 2.25}
+ 75%|███████▌  | 1127/1500 [10:21:31<3:23:14, 32.69s/it] 75%|███████▌  | 1128/1500 [10:22:04<3:22:58, 32.74s/it]                                                        {'loss': 0.1312, 'grad_norm': 0.2973603904247284, 'learning_rate': 1.5417835567593615e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1273.49, 'total_tokens': 309750384, 'epoch': 2.26}
+ 75%|███████▌  | 1128/1500 [10:22:04<3:22:58, 32.74s/it] 75%|███████▌  | 1129/1500 [10:22:37<3:23:10, 32.86s/it]                                                        {'loss': 0.1126, 'grad_norm': 0.28265276551246643, 'learning_rate': 1.5339783598730568e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1385.04, 'total_tokens': 310020416, 'epoch': 2.26}
+ 75%|███████▌  | 1129/1500 [10:22:37<3:23:10, 32.86s/it] 75%|███████▌  | 1130/1500 [10:23:09<3:21:19, 32.65s/it]                                                        {'loss': 0.1168, 'grad_norm': 0.3108498752117157, 'learning_rate': 1.5261893884689794e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1190.13, 'total_tokens': 310272707, 'epoch': 2.26}
+ 75%|███████▌  | 1130/1500 [10:23:09<3:21:19, 32.65s/it] 75%|███████▌  | 1131/1500 [10:23:42<3:21:11, 32.71s/it]                                                        {'loss': 0.1155, 'grad_norm': 0.3028720021247864, 'learning_rate': 1.5184166790096367e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1098.23, 'total_tokens': 310549726, 'epoch': 2.26}
+ 75%|███████▌  | 1131/1500 [10:23:42<3:21:11, 32.71s/it] 75%|███████▌  | 1132/1500 [10:24:12<3:16:31, 32.04s/it]                                                        {'loss': 0.1239, 'grad_norm': 0.3177407681941986, 'learning_rate': 1.5106602678813975e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 896.49, 'total_tokens': 310802598, 'epoch': 2.26}
+ 75%|███████▌  | 1132/1500 [10:24:12<3:16:31, 32.04s/it] 76%|███████▌  | 1133/1500 [10:24:47<3:20:27, 32.77s/it]                                                        {'loss': 0.1186, 'grad_norm': 0.2879768908023834, 'learning_rate': 1.5029201913943425e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 966.59, 'total_tokens': 311075623, 'epoch': 2.27}
+ 76%|███████▌  | 1133/1500 [10:24:47<3:20:27, 32.77s/it] 76%|███████▌  | 1134/1500 [10:25:19<3:19:23, 32.69s/it]                                                        {'loss': 0.1191, 'grad_norm': 0.3147343695163727, 'learning_rate': 1.495196485782076e-06, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1073.58, 'total_tokens': 311334493, 'epoch': 2.27}
+ 76%|███████▌  | 1134/1500 [10:25:19<3:19:23, 32.69s/it] 76%|███████▌  | 1135/1500 [10:25:52<3:18:38, 32.65s/it]                                                        {'loss': 0.1248, 'grad_norm': 0.3061634302139282, 'learning_rate': 1.4874891872015735e-06, 'memory/max_active (GiB)': 50.55, 'memory/max_allocated (GiB)': 50.55, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 962.54, 'total_tokens': 311604944, 'epoch': 2.27}
+ 76%|███████▌  | 1135/1500 [10:25:52<3:18:38, 32.65s/it] 76%|███████▌  | 1136/1500 [10:26:23<3:15:39, 32.25s/it]                                                        {'loss': 0.1125, 'grad_norm': 0.29016995429992676, 'learning_rate': 1.479798331733e-06, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 950.98, 'total_tokens': 311883448, 'epoch': 2.27}
+ 76%|███████▌  | 1136/1500 [10:26:23<3:15:39, 32.25s/it] 76%|███████▌  | 1137/1500 [10:26:56<3:16:19, 32.45s/it]                                                        {'loss': 0.1093, 'grad_norm': 0.289312481880188, 'learning_rate': 1.4721239553795485e-06, 'memory/max_active (GiB)': 51.88, 'memory/max_allocated (GiB)': 51.88, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 996.3, 'total_tokens': 312156770, 'epoch': 2.27}
+ 76%|███████▌  | 1137/1500 [10:26:56<3:16:19, 32.45s/it] 76%|███████▌  | 1138/1500 [10:27:30<3:18:51, 32.96s/it]                                                        {'loss': 0.1147, 'grad_norm': 0.30244097113609314, 'learning_rate': 1.4644660940672628e-06, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1146.69, 'total_tokens': 312410837, 'epoch': 2.28}
+ 76%|███████▌  | 1138/1500 [10:27:30<3:18:51, 32.96s/it] 76%|███████▌  | 1139/1500 [10:28:02<3:16:16, 32.62s/it]                                                        {'loss': 0.1216, 'grad_norm': 0.30443042516708374, 'learning_rate': 1.4568247836448796e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1104.19, 'total_tokens': 312669193, 'epoch': 2.28}
+ 76%|███████▌  | 1139/1500 [10:28:02<3:16:16, 32.62s/it] 76%|███████▌  | 1140/1500 [10:28:34<3:14:19, 32.39s/it]                                                        {'loss': 0.1173, 'grad_norm': 0.29286989569664, 'learning_rate': 1.4492000598836569e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 951.01, 'total_tokens': 312952128, 'epoch': 2.28}
+ 76%|███████▌  | 1140/1500 [10:28:34<3:14:19, 32.39s/it] 76%|███████▌  | 1141/1500 [10:29:08<3:16:11, 32.79s/it]                                                        {'loss': 0.1119, 'grad_norm': 0.290606826543808, 'learning_rate': 1.4415919584771999e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 898.3, 'total_tokens': 313222179, 'epoch': 2.28}
+ 76%|███████▌  | 1141/1500 [10:29:08<3:16:11, 32.79s/it] 76%|███████▌  | 1142/1500 [10:29:40<3:15:44, 32.81s/it]                                                        {'loss': 0.1123, 'grad_norm': 0.2982310950756073, 'learning_rate': 1.4340005150413039e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 950.85, 'total_tokens': 313485621, 'epoch': 2.28}
+ 76%|███████▌  | 1142/1500 [10:29:40<3:15:44, 32.81s/it] 76%|███████▌  | 1143/1500 [10:30:14<3:17:06, 33.13s/it]                                                        {'loss': 0.117, 'grad_norm': 0.3062282204627991, 'learning_rate': 1.426425765113783e-06, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1098.11, 'total_tokens': 313771487, 'epoch': 2.29}
+ 76%|███████▌  | 1143/1500 [10:30:14<3:17:06, 33.13s/it] 76%|███████▋  | 1144/1500 [10:30:45<3:11:59, 32.36s/it]                                                        {'loss': 0.1071, 'grad_norm': 0.29602956771850586, 'learning_rate': 1.4188677441543052e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1213.46, 'total_tokens': 314045517, 'epoch': 2.29}
+ 76%|███████▋  | 1144/1500 [10:30:45<3:11:59, 32.36s/it] 76%|███████▋  | 1145/1500 [10:31:18<3:13:48, 32.76s/it]                                                        {'loss': 0.1276, 'grad_norm': 0.3107474446296692, 'learning_rate': 1.4113264875442201e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1127.19, 'total_tokens': 314330611, 'epoch': 2.29}
+ 76%|███████▋  | 1145/1500 [10:31:18<3:13:48, 32.76s/it] 76%|███████▋  | 1146/1500 [10:31:52<3:14:48, 33.02s/it]                                                        {'loss': 0.114, 'grad_norm': 0.292357861995697, 'learning_rate': 1.4038020305864043e-06, 'memory/max_active (GiB)': 51.01, 'memory/max_allocated (GiB)': 51.01, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 863.63, 'total_tokens': 314627131, 'epoch': 2.29}
+ 76%|███████▋  | 1146/1500 [10:31:52<3:14:48, 33.02s/it] 76%|███████▋  | 1147/1500 [10:32:25<3:14:49, 33.11s/it]                                                        {'loss': 0.1175, 'grad_norm': 0.30995556712150574, 'learning_rate': 1.3962944085050833e-06, 'memory/max_active (GiB)': 52.56, 'memory/max_allocated (GiB)': 52.56, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1056.25, 'total_tokens': 314884642, 'epoch': 2.29}
+ 76%|███████▋  | 1147/1500 [10:32:25<3:14:49, 33.11s/it] 77%|███████▋  | 1148/1500 [10:32:59<3:15:02, 33.24s/it]                                                        {'loss': 0.1252, 'grad_norm': 0.3053560256958008, 'learning_rate': 1.3888036564456842e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1127.03, 'total_tokens': 315177911, 'epoch': 2.3}
+ 77%|███████▋  | 1148/1500 [10:32:59<3:15:02, 33.24s/it] 77%|███████▋  | 1149/1500 [10:33:33<3:16:13, 33.54s/it]                                                        {'loss': 0.1194, 'grad_norm': 0.3049013614654541, 'learning_rate': 1.3813298094746491e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 860.8, 'total_tokens': 315464038, 'epoch': 2.3}
+ 77%|███████▋  | 1149/1500 [10:33:33<3:16:13, 33.54s/it] 77%|███████▋  | 1150/1500 [10:34:06<3:14:34, 33.36s/it]                                                        {'loss': 0.1212, 'grad_norm': 0.2831310033798218, 'learning_rate': 1.3738729025792908e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1109.99, 'total_tokens': 315757647, 'epoch': 2.3}
+ 77%|███████▋  | 1150/1500 [10:34:06<3:14:34, 33.36s/it] 77%|███████▋  | 1151/1500 [10:34:38<3:11:43, 32.96s/it]                                                        {'loss': 0.1213, 'grad_norm': 0.2853863835334778, 'learning_rate': 1.3664329706676133e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1058.68, 'total_tokens': 316043589, 'epoch': 2.3}
+ 77%|███████▋  | 1151/1500 [10:34:38<3:11:43, 32.96s/it] 77%|███████▋  | 1152/1500 [10:35:12<3:12:07, 33.12s/it]                                                        {'loss': 0.1161, 'grad_norm': 0.301879346370697, 'learning_rate': 1.3590100485681612e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1357.13, 'total_tokens': 316316369, 'epoch': 2.3}
+ 77%|███████▋  | 1152/1500 [10:35:12<3:12:07, 33.12s/it] 77%|███████▋  | 1153/1500 [10:35:43<3:08:46, 32.64s/it]                                                        {'loss': 0.1193, 'grad_norm': 0.29878470301628113, 'learning_rate': 1.35160417102985e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1214.83, 'total_tokens': 316597676, 'epoch': 2.31}
+ 77%|███████▋  | 1153/1500 [10:35:43<3:08:46, 32.64s/it] 77%|███████▋  | 1154/1500 [10:36:16<3:09:09, 32.80s/it]                                                        {'loss': 0.1193, 'grad_norm': 0.2967761158943176, 'learning_rate': 1.3442153727218043e-06, 'memory/max_active (GiB)': 51.01, 'memory/max_allocated (GiB)': 51.01, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 923.09, 'total_tokens': 316862737, 'epoch': 2.31}
+ 77%|███████▋  | 1154/1500 [10:36:16<3:09:09, 32.80s/it] 77%|███████▋  | 1155/1500 [10:36:48<3:05:52, 32.33s/it]                                                        {'loss': 0.1221, 'grad_norm': 0.30626463890075684, 'learning_rate': 1.3368436882331925e-06, 'memory/max_active (GiB)': 52.48, 'memory/max_allocated (GiB)': 52.48, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 939.64, 'total_tokens': 317131897, 'epoch': 2.31}
+ 77%|███████▋  | 1155/1500 [10:36:48<3:05:52, 32.33s/it] 77%|███████▋  | 1156/1500 [10:37:22<3:09:02, 32.97s/it]                                                        {'loss': 0.1194, 'grad_norm': 0.3207952678203583, 'learning_rate': 1.3294891520730746e-06, 'memory/max_active (GiB)': 50.55, 'memory/max_allocated (GiB)': 50.55, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 636.61, 'total_tokens': 317395579, 'epoch': 2.31}
+ 77%|███████▋  | 1156/1500 [10:37:22<3:09:02, 32.97s/it] 77%|███████▋  | 1157/1500 [10:37:54<3:06:05, 32.55s/it]                                                        {'loss': 0.1157, 'grad_norm': 0.2974332869052887, 'learning_rate': 1.3221517986702249e-06, 'memory/max_active (GiB)': 51.98, 'memory/max_allocated (GiB)': 51.98, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1001.75, 'total_tokens': 317656327, 'epoch': 2.31}
+ 77%|███████▋  | 1157/1500 [10:37:54<3:06:05, 32.55s/it] 77%|███████▋  | 1158/1500 [10:38:27<3:07:07, 32.83s/it]                                                        {'loss': 0.1153, 'grad_norm': 0.2990889549255371, 'learning_rate': 1.3148316623729918e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 977.15, 'total_tokens': 317932674, 'epoch': 2.32}
+ 77%|███████▋  | 1158/1500 [10:38:27<3:07:07, 32.83s/it] 77%|███████▋  | 1159/1500 [10:39:00<3:07:11, 32.94s/it]                                                        {'loss': 0.1233, 'grad_norm': 0.30820512771606445, 'learning_rate': 1.3075287774491147e-06, 'memory/max_active (GiB)': 50.68, 'memory/max_allocated (GiB)': 50.68, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 661.82, 'total_tokens': 318210306, 'epoch': 2.32}
+ 77%|███████▋  | 1159/1500 [10:39:00<3:07:11, 32.94s/it] 77%|███████▋  | 1160/1500 [10:39:35<3:08:51, 33.33s/it]                                                        {'loss': 0.1184, 'grad_norm': 0.305380642414093, 'learning_rate': 1.3002431780855817e-06, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 956.38, 'total_tokens': 318477141, 'epoch': 2.32}
+ 77%|███████▋  | 1160/1500 [10:39:35<3:08:51, 33.33s/it] 77%|███████▋  | 1161/1500 [10:40:08<3:08:58, 33.45s/it]                                                        {'loss': 0.1193, 'grad_norm': 0.30215102434158325, 'learning_rate': 1.292974898388456e-06, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1089.38, 'total_tokens': 318728787, 'epoch': 2.32}
+ 77%|███████▋  | 1161/1500 [10:40:08<3:08:58, 33.45s/it] 77%|███████▋  | 1162/1500 [10:40:42<3:08:35, 33.48s/it]                                                        {'loss': 0.1205, 'grad_norm': 0.30977964401245117, 'learning_rate': 1.2857239723827276e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 938.78, 'total_tokens': 318997894, 'epoch': 2.32}
+ 77%|███████▋  | 1162/1500 [10:40:42<3:08:35, 33.48s/it] 78%|███████▊  | 1163/1500 [10:41:15<3:07:14, 33.34s/it]                                                        {'loss': 0.1166, 'grad_norm': 0.2939296364784241, 'learning_rate': 1.2784904340121413e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1095.43, 'total_tokens': 319275412, 'epoch': 2.33}
+ 78%|███████▊  | 1163/1500 [10:41:15<3:07:14, 33.34s/it] 78%|███████▊  | 1164/1500 [10:41:49<3:07:41, 33.52s/it]                                                        {'loss': 0.1268, 'grad_norm': 0.31473687291145325, 'learning_rate': 1.2712743171390573e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1089.82, 'total_tokens': 319546363, 'epoch': 2.33}
+ 78%|███████▊  | 1164/1500 [10:41:49<3:07:41, 33.52s/it] 78%|███████▊  | 1165/1500 [10:42:21<3:05:37, 33.25s/it]                                                        {'loss': 0.13, 'grad_norm': 0.30430537462234497, 'learning_rate': 1.2640756555442684e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1003.97, 'total_tokens': 319828554, 'epoch': 2.33}
+ 78%|███████▊  | 1165/1500 [10:42:21<3:05:37, 33.25s/it] 78%|███████▊  | 1166/1500 [10:42:55<3:05:10, 33.27s/it]                                                        {'loss': 0.1161, 'grad_norm': 0.2999473512172699, 'learning_rate': 1.2568944829268614e-06, 'memory/max_active (GiB)': 51.45, 'memory/max_allocated (GiB)': 51.45, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 902.15, 'total_tokens': 320106832, 'epoch': 2.33}
+ 78%|███████▊  | 1166/1500 [10:42:55<3:05:10, 33.27s/it] 78%|███████▊  | 1167/1500 [10:43:26<3:00:29, 32.52s/it]                                                        {'loss': 0.113, 'grad_norm': 0.28596076369285583, 'learning_rate': 1.2497308329040475e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1181.09, 'total_tokens': 320374717, 'epoch': 2.33}
+ 78%|███████▊  | 1167/1500 [10:43:26<3:00:29, 32.52s/it] 78%|███████▊  | 1168/1500 [10:44:00<3:03:31, 33.17s/it]                                                        {'loss': 0.1298, 'grad_norm': 0.3024887442588806, 'learning_rate': 1.2425847390110125e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1109.39, 'total_tokens': 320669894, 'epoch': 2.34}
+ 78%|███████▊  | 1168/1500 [10:44:00<3:03:31, 33.17s/it] 78%|███████▊  | 1169/1500 [10:44:34<3:04:44, 33.49s/it]                                                        {'loss': 0.1186, 'grad_norm': 0.303545743227005, 'learning_rate': 1.235456234700756e-06, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 930.47, 'total_tokens': 320937280, 'epoch': 2.34}
+ 78%|███████▊  | 1169/1500 [10:44:34<3:04:44, 33.49s/it] 78%|███████▊  | 1170/1500 [10:45:09<3:05:41, 33.76s/it]                                                        {'loss': 0.1222, 'grad_norm': 0.2952561676502228, 'learning_rate': 1.228345353343936e-06, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 809.22, 'total_tokens': 321219545, 'epoch': 2.34}
+ 78%|███████▊  | 1170/1500 [10:45:09<3:05:41, 33.76s/it] 78%|███████▊  | 1171/1500 [10:45:41<3:02:31, 33.29s/it]                                                        {'loss': 0.1181, 'grad_norm': 0.41290083527565, 'learning_rate': 1.2212521282287093e-06, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1078.75, 'total_tokens': 321509987, 'epoch': 2.34}
+ 78%|███████▊  | 1171/1500 [10:45:41<3:02:31, 33.29s/it] 78%|███████▊  | 1172/1500 [10:46:14<3:02:08, 33.32s/it]                                                        {'loss': 0.1166, 'grad_norm': 0.3079353868961334, 'learning_rate': 1.2141765925605814e-06, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 702.53, 'total_tokens': 321773883, 'epoch': 2.34}
+ 78%|███████▊  | 1172/1500 [10:46:14<3:02:08, 33.32s/it] 78%|███████▊  | 1173/1500 [10:46:47<2:59:40, 32.97s/it]                                                        {'loss': 0.1265, 'grad_norm': 0.30312585830688477, 'learning_rate': 1.207118779462248e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 944.72, 'total_tokens': 322048344, 'epoch': 2.35}
+ 78%|███████▊  | 1173/1500 [10:46:47<2:59:40, 32.97s/it] 78%|███████▊  | 1174/1500 [10:47:18<2:57:25, 32.65s/it]                                                        {'loss': 0.1284, 'grad_norm': 0.3110935091972351, 'learning_rate': 1.2000787219734405e-06, 'memory/max_active (GiB)': 52.48, 'memory/max_allocated (GiB)': 52.48, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1412.64, 'total_tokens': 322329222, 'epoch': 2.35}
+ 78%|███████▊  | 1174/1500 [10:47:18<2:57:25, 32.65s/it] 78%|███████▊  | 1175/1500 [10:47:51<2:57:25, 32.75s/it]                                                        {'loss': 0.1104, 'grad_norm': 0.30540037155151367, 'learning_rate': 1.1930564530507677e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 949.08, 'total_tokens': 322587326, 'epoch': 2.35}
+ 78%|███████▊  | 1175/1500 [10:47:51<2:57:25, 32.75s/it] 78%|███████▊  | 1176/1500 [10:48:25<2:57:30, 32.87s/it]                                                        {'loss': 0.1251, 'grad_norm': 0.3027864396572113, 'learning_rate': 1.1860520055675701e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 975.04, 'total_tokens': 322872853, 'epoch': 2.35}
+ 78%|███████▊  | 1176/1500 [10:48:25<2:57:30, 32.87s/it] 78%|███████▊  | 1177/1500 [10:48:55<2:53:42, 32.27s/it]                                                        {'loss': 0.1152, 'grad_norm': 0.31482136249542236, 'learning_rate': 1.1790654123137552e-06, 'memory/max_active (GiB)': 50.87, 'memory/max_allocated (GiB)': 50.87, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 786.67, 'total_tokens': 323120276, 'epoch': 2.35}
+ 78%|███████▊  | 1177/1500 [10:48:55<2:53:42, 32.27s/it] 79%|███████▊  | 1178/1500 [10:49:28<2:54:22, 32.49s/it]                                                        {'loss': 0.1205, 'grad_norm': 0.29081401228904724, 'learning_rate': 1.172096705995653e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1024.74, 'total_tokens': 323403751, 'epoch': 2.36}
+ 79%|███████▊  | 1178/1500 [10:49:28<2:54:22, 32.49s/it] 79%|███████▊  | 1179/1500 [10:50:02<2:55:23, 32.78s/it]                                                        {'loss': 0.1168, 'grad_norm': 0.2939940392971039, 'learning_rate': 1.1651459192358588e-06, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 991.58, 'total_tokens': 323665259, 'epoch': 2.36}
+ 79%|███████▊  | 1179/1500 [10:50:02<2:55:23, 32.78s/it] 79%|███████▊  | 1180/1500 [10:50:35<2:54:43, 32.76s/it]                                                        {'loss': 0.1228, 'grad_norm': 0.32144972681999207, 'learning_rate': 1.1582130845730826e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1149.74, 'total_tokens': 323930886, 'epoch': 2.36}
+ 79%|███████▊  | 1180/1500 [10:50:35<2:54:43, 32.76s/it] 79%|███████▊  | 1181/1500 [10:51:06<2:52:42, 32.48s/it]                                                        {'loss': 0.1151, 'grad_norm': 0.29302778840065, 'learning_rate': 1.1512982344619904e-06, 'memory/max_active (GiB)': 51.37, 'memory/max_allocated (GiB)': 51.37, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 737.47, 'total_tokens': 324189973, 'epoch': 2.36}
+ 79%|███████▊  | 1181/1500 [10:51:06<2:52:42, 32.48s/it] 79%|███████▉  | 1182/1500 [10:51:39<2:51:51, 32.42s/it]                                                        {'loss': 0.1191, 'grad_norm': 0.30853623151779175, 'learning_rate': 1.144401401273062e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1226.63, 'total_tokens': 324454914, 'epoch': 2.36}
+ 79%|███████▉  | 1182/1500 [10:51:39<2:51:51, 32.42s/it] 79%|███████▉  | 1183/1500 [10:52:12<2:52:39, 32.68s/it]                                                        {'loss': 0.1116, 'grad_norm': 0.2899759113788605, 'learning_rate': 1.1375226172924342e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1059.37, 'total_tokens': 324712155, 'epoch': 2.37}
+ 79%|███████▉  | 1183/1500 [10:52:12<2:52:39, 32.68s/it] 79%|███████▉  | 1184/1500 [10:52:45<2:51:50, 32.63s/it]                                                        {'loss': 0.1176, 'grad_norm': 0.3016597628593445, 'learning_rate': 1.1306619147217457e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1164.1, 'total_tokens': 324981426, 'epoch': 2.37}
+ 79%|███████▉  | 1184/1500 [10:52:45<2:51:50, 32.63s/it] 79%|███████▉  | 1185/1500 [10:53:17<2:51:36, 32.69s/it]                                                        {'loss': 0.1183, 'grad_norm': 0.2813657522201538, 'learning_rate': 1.1238193256779955e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 992.37, 'total_tokens': 325274675, 'epoch': 2.37}
+ 79%|███████▉  | 1185/1500 [10:53:17<2:51:36, 32.69s/it] 79%|███████▉  | 1186/1500 [10:53:51<2:52:37, 32.98s/it]                                                        {'loss': 0.1105, 'grad_norm': 0.29549169540405273, 'learning_rate': 1.1169948821933862e-06, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 905.14, 'total_tokens': 325551221, 'epoch': 2.37}
+ 79%|███████▉  | 1186/1500 [10:53:51<2:52:37, 32.98s/it] 79%|███████▉  | 1187/1500 [10:54:24<2:52:18, 33.03s/it]                                                        {'loss': 0.1169, 'grad_norm': 0.3071247935295105, 'learning_rate': 1.1101886162151764e-06, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 889.66, 'total_tokens': 325818110, 'epoch': 2.37}
+ 79%|███████▉  | 1187/1500 [10:54:24<2:52:18, 33.03s/it] 79%|███████▉  | 1188/1500 [10:54:57<2:51:52, 33.05s/it]                                                        {'loss': 0.1214, 'grad_norm': 0.2972916066646576, 'learning_rate': 1.1034005596055275e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1001.34, 'total_tokens': 326101475, 'epoch': 2.38}
+ 79%|███████▉  | 1188/1500 [10:54:57<2:51:52, 33.05s/it] 79%|███████▉  | 1189/1500 [10:55:30<2:50:33, 32.91s/it]                                                        {'loss': 0.1247, 'grad_norm': 0.28509655594825745, 'learning_rate': 1.0966307441413598e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1465.7, 'total_tokens': 326398106, 'epoch': 2.38}
+ 79%|███████▉  | 1189/1500 [10:55:30<2:50:33, 32.91s/it] 79%|███████▉  | 1190/1500 [10:56:03<2:49:36, 32.83s/it]                                                        {'loss': 0.1154, 'grad_norm': 0.2956240475177765, 'learning_rate': 1.0898792015142013e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 989.0, 'total_tokens': 326669952, 'epoch': 2.38}
+ 79%|███████▉  | 1190/1500 [10:56:03<2:49:36, 32.83s/it] 79%|███████▉  | 1191/1500 [10:56:36<2:50:29, 33.11s/it]                                                        {'loss': 0.1193, 'grad_norm': 0.29532289505004883, 'learning_rate': 1.0831459633300407e-06, 'memory/max_active (GiB)': 51.12, 'memory/max_allocated (GiB)': 51.12, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 945.47, 'total_tokens': 326942761, 'epoch': 2.38}
+ 79%|███████▉  | 1191/1500 [10:56:36<2:50:29, 33.11s/it] 79%|███████▉  | 1192/1500 [10:57:09<2:50:03, 33.13s/it]                                                        {'loss': 0.1162, 'grad_norm': 0.3202042281627655, 'learning_rate': 1.0764310611091727e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1047.19, 'total_tokens': 327198465, 'epoch': 2.38}
+ 79%|███████▉  | 1192/1500 [10:57:09<2:50:03, 33.13s/it] 80%|███████▉  | 1193/1500 [10:57:41<2:47:25, 32.72s/it]                                                        {'loss': 0.1197, 'grad_norm': 0.291056752204895, 'learning_rate': 1.0697345262860638e-06, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1043.36, 'total_tokens': 327466713, 'epoch': 2.39}
+ 80%|███████▉  | 1193/1500 [10:57:41<2:47:25, 32.72s/it] 80%|███████▉  | 1194/1500 [10:58:15<2:48:18, 33.00s/it]                                                        {'loss': 0.1168, 'grad_norm': 0.284535676240921, 'learning_rate': 1.063056390209189e-06, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 857.28, 'total_tokens': 327754496, 'epoch': 2.39}
+ 80%|███████▉  | 1194/1500 [10:58:15<2:48:18, 33.00s/it] 80%|███████▉  | 1195/1500 [10:58:46<2:45:07, 32.48s/it]                                                        {'loss': 0.1212, 'grad_norm': 0.3032046854496002, 'learning_rate': 1.0563966841408995e-06, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1113.8, 'total_tokens': 328033382, 'epoch': 2.39}
+ 80%|███████▉  | 1195/1500 [10:58:46<2:45:07, 32.48s/it] 80%|███████▉  | 1196/1500 [10:59:20<2:45:54, 32.75s/it]                                                        {'loss': 0.1194, 'grad_norm': 0.3031184673309326, 'learning_rate': 1.049755439257268e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1214.41, 'total_tokens': 328311351, 'epoch': 2.39}
+ 80%|███████▉  | 1196/1500 [10:59:20<2:45:54, 32.75s/it] 80%|███████▉  | 1197/1500 [10:59:53<2:45:56, 32.86s/it]                                                        {'loss': 0.1126, 'grad_norm': 0.28957632184028625, 'learning_rate': 1.0431326866479457e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1009.12, 'total_tokens': 328607728, 'epoch': 2.39}
+ 80%|███████▉  | 1197/1500 [10:59:53<2:45:56, 32.86s/it] 80%|███████▉  | 1198/1500 [11:00:25<2:44:31, 32.69s/it]                                                        {'loss': 0.1134, 'grad_norm': 0.2815203070640564, 'learning_rate': 1.036528457316013e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 1075.74, 'total_tokens': 328904744, 'epoch': 2.4}
+ 80%|███████▉  | 1198/1500 [11:00:25<2:44:31, 32.69s/it] 80%|███████▉  | 1199/1500 [11:00:58<2:44:24, 32.77s/it]                                                        {'loss': 0.1208, 'grad_norm': 0.28988203406333923, 'learning_rate': 1.0299427821778412e-06, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 931.28, 'total_tokens': 329197103, 'epoch': 2.4}
+ 80%|███████▉  | 1199/1500 [11:00:58<2:44:24, 32.77s/it] 80%|████████  | 1200/1500 [11:01:30<2:42:42, 32.54s/it]                                                        {'loss': 0.1124, 'grad_norm': 0.2951858639717102, 'learning_rate': 1.0233756920629385e-06, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.23, 'tokens_per_second_per_gpu': 680.75, 'total_tokens': 329444992, 'epoch': 2.4}
+ 80%|████████  | 1200/1500 [11:01:30<2:42:42, 32.54s/it] 80%|████████  | 1201/1500 [11:02:01<2:40:39, 32.24s/it]                                                        {'loss': 0.1163, 'grad_norm': 0.3165532052516937, 'learning_rate': 1.01682721771382e-06, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1037.68, 'total_tokens': 329690018, 'epoch': 2.4}
+ 80%|████████  | 1201/1500 [11:02:01<2:40:39, 32.24s/it] 80%|████████  | 1202/1500 [11:02:34<2:40:21, 32.29s/it]                                                        {'loss': 0.1249, 'grad_norm': 0.3135930895805359, 'learning_rate': 1.0102973897858459e-06, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 939.33, 'total_tokens': 329946585, 'epoch': 2.4}
+ 80%|████████  | 1202/1500 [11:02:34<2:40:21, 32.29s/it] 80%|████████  | 1203/1500 [11:03:08<2:41:56, 32.71s/it]                                                        {'loss': 0.1249, 'grad_norm': 0.3177620470523834, 'learning_rate': 1.0037862388470921e-06, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 764.49, 'total_tokens': 330226363, 'epoch': 2.41}
+ 80%|████████  | 1203/1500 [11:03:08<2:41:56, 32.71s/it] 80%|████████  | 1204/1500 [11:03:41<2:42:02, 32.85s/it]                                                        {'loss': 0.1176, 'grad_norm': 0.41095277667045593, 'learning_rate': 9.972937953781985e-07, 'memory/max_active (GiB)': 50.68, 'memory/max_allocated (GiB)': 50.68, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 772.82, 'total_tokens': 330500902, 'epoch': 2.41}
+ 80%|████████  | 1204/1500 [11:03:41<2:42:02, 32.85s/it] 80%|████████  | 1205/1500 [11:04:12<2:39:30, 32.44s/it]                                                        {'loss': 0.1187, 'grad_norm': 0.29903528094291687, 'learning_rate': 9.908200897722332e-07, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1017.87, 'total_tokens': 330757753, 'epoch': 2.41}
+ 80%|████████  | 1205/1500 [11:04:12<2:39:30, 32.44s/it] 80%|████████  | 1206/1500 [11:04:46<2:40:50, 32.83s/it]                                                        {'loss': 0.1164, 'grad_norm': 0.27711400389671326, 'learning_rate': 9.843651523345438e-07, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1109.13, 'total_tokens': 331060698, 'epoch': 2.41}
+ 80%|████████  | 1206/1500 [11:04:46<2:40:50, 32.83s/it] 80%|████████  | 1207/1500 [11:05:18<2:38:29, 32.46s/it]                                                        {'loss': 0.1227, 'grad_norm': 0.2988048195838928, 'learning_rate': 9.779290132826224e-07, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1194.37, 'total_tokens': 331338207, 'epoch': 2.41}
+ 80%|████████  | 1207/1500 [11:05:18<2:38:29, 32.46s/it] 81%|████████  | 1208/1500 [11:05:50<2:38:11, 32.50s/it]                                                        {'loss': 0.1183, 'grad_norm': 0.2964378595352173, 'learning_rate': 9.715117027459548e-07, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1019.25, 'total_tokens': 331614691, 'epoch': 2.42}
+ 81%|████████  | 1208/1500 [11:05:50<2:38:11, 32.50s/it] 81%|████████  | 1209/1500 [11:06:23<2:38:27, 32.67s/it]                                                        {'loss': 0.1211, 'grad_norm': 0.3122411370277405, 'learning_rate': 9.6511325076589e-07, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 939.17, 'total_tokens': 331887025, 'epoch': 2.42}
+ 81%|████████  | 1209/1500 [11:06:23<2:38:27, 32.67s/it] 81%|████████  | 1210/1500 [11:06:56<2:38:20, 32.76s/it]                                                        {'loss': 0.1235, 'grad_norm': 0.2943136394023895, 'learning_rate': 9.587336872954906e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 900.54, 'total_tokens': 332166191, 'epoch': 2.42}
+ 81%|████████  | 1210/1500 [11:06:56<2:38:20, 32.76s/it] 81%|████████  | 1211/1500 [11:07:29<2:37:47, 32.76s/it]                                                        {'loss': 0.1199, 'grad_norm': 0.2967689633369446, 'learning_rate': 9.523730421993981e-07, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1240.89, 'total_tokens': 332444350, 'epoch': 2.42}
+ 81%|████████  | 1211/1500 [11:07:29<2:37:47, 32.76s/it] 81%|████████  | 1212/1500 [11:08:02<2:37:28, 32.81s/it]                                                        {'loss': 0.1235, 'grad_norm': 0.29532498121261597, 'learning_rate': 9.460313452536923e-07, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 995.62, 'total_tokens': 332730501, 'epoch': 2.42}
+ 81%|████████  | 1212/1500 [11:08:02<2:37:28, 32.81s/it] 81%|████████  | 1213/1500 [11:08:34<2:36:11, 32.65s/it]                                                        {'loss': 0.1238, 'grad_norm': 0.3311219811439514, 'learning_rate': 9.397086261457511e-07, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 952.51, 'total_tokens': 332983928, 'epoch': 2.43}
+ 81%|████████  | 1213/1500 [11:08:34<2:36:11, 32.65s/it] 81%|████████  | 1214/1500 [11:09:05<2:33:44, 32.26s/it]                                                        {'loss': 0.1142, 'grad_norm': 0.3083169162273407, 'learning_rate': 9.334049144741081e-07, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1251.49, 'total_tokens': 333256724, 'epoch': 2.43}
+ 81%|████████  | 1214/1500 [11:09:05<2:33:44, 32.26s/it] 81%|████████  | 1215/1500 [11:09:39<2:34:23, 32.51s/it]                                                        {'loss': 0.1159, 'grad_norm': 0.2945391833782196, 'learning_rate': 9.271202397483214e-07, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 997.62, 'total_tokens': 333540448, 'epoch': 2.43}
+ 81%|████████  | 1215/1500 [11:09:39<2:34:23, 32.51s/it] 81%|████████  | 1216/1500 [11:10:12<2:35:45, 32.91s/it]                                                        {'loss': 0.1077, 'grad_norm': 0.2882716655731201, 'learning_rate': 9.208546313888301e-07, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 931.81, 'total_tokens': 333824739, 'epoch': 2.43}
+ 81%|████████  | 1216/1500 [11:10:12<2:35:45, 32.91s/it] 81%|████████  | 1217/1500 [11:10:45<2:35:11, 32.90s/it]                                                        {'loss': 0.1215, 'grad_norm': 0.29337841272354126, 'learning_rate': 9.146081187268185e-07, 'memory/max_active (GiB)': 51.01, 'memory/max_allocated (GiB)': 51.01, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 985.91, 'total_tokens': 334107763, 'epoch': 2.43}
+ 81%|████████  | 1217/1500 [11:10:45<2:35:11, 32.90s/it] 81%|████████  | 1218/1500 [11:11:19<2:35:33, 33.10s/it]                                                        {'loss': 0.1154, 'grad_norm': 0.3025780916213989, 'learning_rate': 9.083807310040754e-07, 'memory/max_active (GiB)': 51.76, 'memory/max_allocated (GiB)': 51.76, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 751.98, 'total_tokens': 334382559, 'epoch': 2.44}
+ 81%|████████  | 1218/1500 [11:11:19<2:35:33, 33.10s/it] 81%|████████▏ | 1219/1500 [11:11:52<2:34:54, 33.08s/it]                                                        {'loss': 0.1213, 'grad_norm': 0.29278531670570374, 'learning_rate': 9.021724973728635e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1035.04, 'total_tokens': 334662712, 'epoch': 2.44}
+ 81%|████████▏ | 1219/1500 [11:11:52<2:34:54, 33.08s/it] 81%|████████▏ | 1220/1500 [11:12:26<2:35:23, 33.30s/it]                                                        {'loss': 0.1196, 'grad_norm': 0.3344399333000183, 'learning_rate': 8.95983446895779e-07, 'memory/max_active (GiB)': 51.56, 'memory/max_allocated (GiB)': 51.56, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 818.52, 'total_tokens': 334925594, 'epoch': 2.44}
+ 81%|████████▏ | 1220/1500 [11:12:26<2:35:23, 33.30s/it] 81%|████████▏ | 1221/1500 [11:12:57<2:32:43, 32.84s/it]                                                        {'loss': 0.1114, 'grad_norm': 0.30153289437294006, 'learning_rate': 8.898136085456127e-07, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 919.52, 'total_tokens': 335180210, 'epoch': 2.44}
+ 81%|████████▏ | 1221/1500 [11:12:57<2:32:43, 32.84s/it] 81%|████████▏ | 1222/1500 [11:13:30<2:31:46, 32.76s/it]                                                        {'loss': 0.1093, 'grad_norm': 0.2941462993621826, 'learning_rate': 8.836630112052219e-07, 'memory/max_active (GiB)': 51.01, 'memory/max_allocated (GiB)': 51.01, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 962.51, 'total_tokens': 335458070, 'epoch': 2.44}
+ 81%|████████▏ | 1222/1500 [11:13:30<2:31:46, 32.76s/it] 82%|████████▏ | 1223/1500 [11:14:04<2:32:19, 33.00s/it]                                                        {'loss': 0.1115, 'grad_norm': 0.27773377299308777, 'learning_rate': 8.775316836673891e-07, 'memory/max_active (GiB)': 51.24, 'memory/max_allocated (GiB)': 51.24, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 974.41, 'total_tokens': 335740285, 'epoch': 2.45}
+ 82%|████████▏ | 1223/1500 [11:14:04<2:32:19, 33.00s/it] 82%|████████▏ | 1224/1500 [11:14:38<2:34:02, 33.49s/it]                                                        {'loss': 0.1209, 'grad_norm': 0.38023826479911804, 'learning_rate': 8.71419654634691e-07, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 843.76, 'total_tokens': 336022214, 'epoch': 2.45}
+ 82%|████████▏ | 1224/1500 [11:14:38<2:34:02, 33.49s/it] 82%|████████▏ | 1225/1500 [11:15:11<2:32:06, 33.19s/it]                                                        {'loss': 0.1178, 'grad_norm': 0.30249732732772827, 'learning_rate': 8.65326952719357e-07, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 946.64, 'total_tokens': 336274475, 'epoch': 2.45}
+ 82%|████████▏ | 1225/1500 [11:15:11<2:32:06, 33.19s/it] 82%|████████▏ | 1226/1500 [11:15:44<2:31:14, 33.12s/it]                                                        {'loss': 0.1183, 'grad_norm': 0.2816523611545563, 'learning_rate': 8.592536064431467e-07, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1033.99, 'total_tokens': 336568529, 'epoch': 2.45}
+ 82%|████████▏ | 1226/1500 [11:15:44<2:31:14, 33.12s/it] 82%|████████▏ | 1227/1500 [11:16:18<2:32:36, 33.54s/it]                                                        {'loss': 0.1252, 'grad_norm': 0.31624963879585266, 'learning_rate': 8.531996442372048e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1381.55, 'total_tokens': 336856624, 'epoch': 2.45}
+ 82%|████████▏ | 1227/1500 [11:16:18<2:32:36, 33.54s/it] 82%|████████▏ | 1228/1500 [11:16:51<2:31:18, 33.38s/it]                                                        {'loss': 0.1179, 'grad_norm': 0.28931012749671936, 'learning_rate': 8.471650944419402e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 836.5, 'total_tokens': 337130691, 'epoch': 2.46}
+ 82%|████████▏ | 1228/1500 [11:16:51<2:31:18, 33.38s/it] 82%|████████▏ | 1229/1500 [11:17:24<2:30:14, 33.26s/it]                                                        {'loss': 0.1256, 'grad_norm': 0.31374213099479675, 'learning_rate': 8.411499853068783e-07, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1226.91, 'total_tokens': 337399886, 'epoch': 2.46}
+ 82%|████████▏ | 1229/1500 [11:17:24<2:30:14, 33.26s/it] 82%|████████▏ | 1230/1500 [11:17:55<2:26:32, 32.56s/it]                                                        {'loss': 0.1193, 'grad_norm': 0.3187246322631836, 'learning_rate': 8.351543449905442e-07, 'memory/max_active (GiB)': 51.47, 'memory/max_allocated (GiB)': 51.47, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1228.22, 'total_tokens': 337640109, 'epoch': 2.46}
+ 82%|████████▏ | 1230/1500 [11:17:55<2:26:32, 32.56s/it] 82%|████████▏ | 1231/1500 [11:18:28<2:26:44, 32.73s/it]                                                        {'loss': 0.1153, 'grad_norm': 0.28856295347213745, 'learning_rate': 8.291782015603179e-07, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1121.28, 'total_tokens': 337920679, 'epoch': 2.46}
+ 82%|████████▏ | 1231/1500 [11:18:28<2:26:44, 32.73s/it] 82%|████████▏ | 1232/1500 [11:19:01<2:26:46, 32.86s/it]                                                        {'loss': 0.1249, 'grad_norm': 0.3131336271762848, 'learning_rate': 8.232215829923124e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1497.2, 'total_tokens': 338221614, 'epoch': 2.46}
+ 82%|████████▏ | 1232/1500 [11:19:01<2:26:46, 32.86s/it] 82%|████████▏ | 1233/1500 [11:19:34<2:26:24, 32.90s/it]                                                        {'loss': 0.1232, 'grad_norm': 0.2862226963043213, 'learning_rate': 8.172845171712379e-07, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 826.92, 'total_tokens': 338503766, 'epoch': 2.47}
+ 82%|████████▏ | 1233/1500 [11:19:34<2:26:24, 32.90s/it] 82%|████████▏ | 1234/1500 [11:20:07<2:25:44, 32.87s/it]                                                        {'loss': 0.1142, 'grad_norm': 0.351441353559494, 'learning_rate': 8.113670318902727e-07, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1371.8, 'total_tokens': 338786793, 'epoch': 2.47}
+ 82%|████████▏ | 1234/1500 [11:20:07<2:25:44, 32.87s/it] 82%|████████▏ | 1235/1500 [11:20:40<2:25:18, 32.90s/it]                                                        {'loss': 0.1192, 'grad_norm': 0.30062946677207947, 'learning_rate': 8.054691548509314e-07, 'memory/max_active (GiB)': 52.65, 'memory/max_allocated (GiB)': 52.65, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 993.89, 'total_tokens': 339059241, 'epoch': 2.47}
+ 82%|████████▏ | 1235/1500 [11:20:40<2:25:18, 32.90s/it] 82%|████████▏ | 1236/1500 [11:21:12<2:23:22, 32.58s/it]                                                        {'loss': 0.1168, 'grad_norm': 0.3229852020740509, 'learning_rate': 7.995909136629387e-07, 'memory/max_active (GiB)': 51.44, 'memory/max_allocated (GiB)': 51.44, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1084.39, 'total_tokens': 339301834, 'epoch': 2.47}
+ 82%|████████▏ | 1236/1500 [11:21:12<2:23:22, 32.58s/it] 82%|████████▏ | 1237/1500 [11:21:44<2:22:09, 32.43s/it]                                                        {'loss': 0.1118, 'grad_norm': 0.3723198175430298, 'learning_rate': 7.937323358440935e-07, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 924.61, 'total_tokens': 339572767, 'epoch': 2.47}
+ 82%|████████▏ | 1237/1500 [11:21:44<2:22:09, 32.43s/it] 83%|████████▎ | 1238/1500 [11:22:17<2:22:47, 32.70s/it]                                                        {'loss': 0.1114, 'grad_norm': 0.29992708563804626, 'learning_rate': 7.878934488201528e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1092.76, 'total_tokens': 339851701, 'epoch': 2.48}
+ 83%|████████▎ | 1238/1500 [11:22:17<2:22:47, 32.70s/it] 83%|████████▎ | 1239/1500 [11:22:51<2:23:01, 32.88s/it]                                                        {'loss': 0.1196, 'grad_norm': 0.28514111042022705, 'learning_rate': 7.820742799246872e-07, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1269.38, 'total_tokens': 340163926, 'epoch': 2.48}
+ 83%|████████▎ | 1239/1500 [11:22:51<2:23:01, 32.88s/it] 83%|████████▎ | 1240/1500 [11:23:24<2:23:07, 33.03s/it]                                                        {'loss': 0.1177, 'grad_norm': 0.30391189455986023, 'learning_rate': 7.762748563989653e-07, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1238.95, 'total_tokens': 340449227, 'epoch': 2.48}
+ 83%|████████▎ | 1240/1500 [11:23:24<2:23:07, 33.03s/it] 83%|████████▎ | 1241/1500 [11:23:57<2:22:59, 33.13s/it]                                                        {'loss': 0.1189, 'grad_norm': 0.2869705259799957, 'learning_rate': 7.70495205391818e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1221.69, 'total_tokens': 340723854, 'epoch': 2.48}
+ 83%|████████▎ | 1241/1500 [11:23:57<2:22:59, 33.13s/it] 83%|████████▎ | 1242/1500 [11:24:31<2:22:53, 33.23s/it]                                                        {'loss': 0.1141, 'grad_norm': 0.3246999680995941, 'learning_rate': 7.647353539595204e-07, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 902.56, 'total_tokens': 341006973, 'epoch': 2.48}
+ 83%|████████▎ | 1242/1500 [11:24:31<2:22:53, 33.23s/it] 83%|████████▎ | 1243/1500 [11:25:05<2:23:04, 33.40s/it]                                                        {'loss': 0.1147, 'grad_norm': 0.2963296175003052, 'learning_rate': 7.589953290656532e-07, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 946.39, 'total_tokens': 341274465, 'epoch': 2.49}
+ 83%|████████▎ | 1243/1500 [11:25:05<2:23:04, 33.40s/it] 83%|████████▎ | 1244/1500 [11:25:38<2:22:07, 33.31s/it]                                                        {'loss': 0.114, 'grad_norm': 0.3093149960041046, 'learning_rate': 7.532751575809911e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 722.86, 'total_tokens': 341532613, 'epoch': 2.49}
+ 83%|████████▎ | 1244/1500 [11:25:38<2:22:07, 33.31s/it] 83%|████████▎ | 1245/1500 [11:26:12<2:22:11, 33.46s/it]                                                        {'loss': 0.1205, 'grad_norm': 0.2951711118221283, 'learning_rate': 7.475748662833615e-07, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1017.55, 'total_tokens': 341810855, 'epoch': 2.49}
+ 83%|████████▎ | 1245/1500 [11:26:12<2:22:11, 33.46s/it] 83%|████████▎ | 1246/1500 [11:26:43<2:18:51, 32.80s/it]                                                        {'loss': 0.1196, 'grad_norm': 0.3117811381816864, 'learning_rate': 7.41894481857533e-07, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 830.96, 'total_tokens': 342074341, 'epoch': 2.49}
+ 83%|████████▎ | 1246/1500 [11:26:43<2:18:51, 32.80s/it] 83%|████████▎ | 1247/1500 [11:27:15<2:17:57, 32.72s/it]                                                        {'loss': 0.1099, 'grad_norm': 0.2975330352783203, 'learning_rate': 7.362340308950783e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1131.03, 'total_tokens': 342324793, 'epoch': 2.49}
+ 83%|████████▎ | 1247/1500 [11:27:15<2:17:57, 32.72s/it] 83%|████████▎ | 1248/1500 [11:27:49<2:18:42, 33.02s/it]                                                        {'loss': 0.1194, 'grad_norm': 0.28504374623298645, 'learning_rate': 7.305935398942598e-07, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1166.43, 'total_tokens': 342624954, 'epoch': 2.5}
+ 83%|████████▎ | 1248/1500 [11:27:49<2:18:42, 33.02s/it] 83%|████████▎ | 1249/1500 [11:28:23<2:19:01, 33.23s/it]                                                        {'loss': 0.1273, 'grad_norm': 0.31611374020576477, 'learning_rate': 7.249730352599e-07, 'memory/max_active (GiB)': 50.78, 'memory/max_allocated (GiB)': 50.78, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 850.04, 'total_tokens': 342878838, 'epoch': 2.5}
+ 83%|████████▎ | 1249/1500 [11:28:23<2:19:01, 33.23s/it] 83%|████████▎ | 1250/1500 [11:28:56<2:17:56, 33.11s/it]                                                        {'loss': 0.1202, 'grad_norm': 0.27725398540496826, 'learning_rate': 7.193725433032605e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1170.23, 'total_tokens': 343174293, 'epoch': 2.5}
+ 83%|████████▎ | 1250/1500 [11:28:56<2:17:56, 33.11s/it] 83%|████████▎ | 1251/1500 [11:29:28<2:15:50, 32.73s/it]                                                        {'loss': 0.1209, 'grad_norm': 0.3250204622745514, 'learning_rate': 7.137920902419149e-07, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1023.11, 'total_tokens': 343446087, 'epoch': 2.5}
+ 83%|████████▎ | 1251/1500 [11:29:28<2:15:50, 32.73s/it] 83%|████████▎ | 1252/1500 [11:30:00<2:15:32, 32.79s/it]                                                        {'loss': 0.1217, 'grad_norm': 0.29631155729293823, 'learning_rate': 7.08231702199631e-07, 'memory/max_active (GiB)': 51.65, 'memory/max_allocated (GiB)': 51.65, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 860.3, 'total_tokens': 343713494, 'epoch': 2.5}
+ 83%|████████▎ | 1252/1500 [11:30:00<2:15:32, 32.79s/it] 84%|████████▎ | 1253/1500 [11:30:34<2:15:40, 32.96s/it]                                                        {'loss': 0.123, 'grad_norm': 0.3279064893722534, 'learning_rate': 7.026914052062433e-07, 'memory/max_active (GiB)': 52.87, 'memory/max_allocated (GiB)': 52.87, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1003.66, 'total_tokens': 343987266, 'epoch': 2.51}
+ 84%|████████▎ | 1253/1500 [11:30:34<2:15:40, 32.96s/it] 84%|████████▎ | 1254/1500 [11:31:07<2:15:28, 33.04s/it]                                                        {'loss': 0.1202, 'grad_norm': 0.29474183917045593, 'learning_rate': 6.97171225197541e-07, 'memory/max_active (GiB)': 51.7, 'memory/max_allocated (GiB)': 51.7, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 935.37, 'total_tokens': 344256704, 'epoch': 2.51}
+ 84%|████████▎ | 1254/1500 [11:31:07<2:15:28, 33.04s/it] 84%|████████▎ | 1255/1500 [11:31:41<2:15:28, 33.18s/it]                                                        {'loss': 0.1199, 'grad_norm': 0.2974395751953125, 'learning_rate': 6.916711880151305e-07, 'memory/max_active (GiB)': 52.84, 'memory/max_allocated (GiB)': 52.84, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1180.69, 'total_tokens': 344538549, 'epoch': 2.51}
+ 84%|████████▎ | 1255/1500 [11:31:41<2:15:28, 33.18s/it] 84%|████████▎ | 1256/1500 [11:32:14<2:15:52, 33.41s/it]                                                        {'loss': 0.1193, 'grad_norm': 0.2935293912887573, 'learning_rate': 6.861913194063313e-07, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1126.92, 'total_tokens': 344806996, 'epoch': 2.51}
+ 84%|████████▎ | 1256/1500 [11:32:14<2:15:52, 33.41s/it] 84%|████████▍ | 1257/1500 [11:32:46<2:13:21, 32.93s/it]                                                        {'loss': 0.1166, 'grad_norm': 0.2886170446872711, 'learning_rate': 6.807316450240425e-07, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1073.99, 'total_tokens': 345089218, 'epoch': 2.51}
+ 84%|████████▍ | 1257/1500 [11:32:46<2:13:21, 32.93s/it] 84%|████████▍ | 1258/1500 [11:33:19<2:12:32, 32.86s/it]                                                        {'loss': 0.1213, 'grad_norm': 0.28946346044540405, 'learning_rate': 6.752921904266302e-07, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1072.86, 'total_tokens': 345361912, 'epoch': 2.52}
+ 84%|████████▍ | 1258/1500 [11:33:19<2:12:32, 32.86s/it] 84%|████████▍ | 1259/1500 [11:33:51<2:11:02, 32.63s/it]                                                        {'loss': 0.1167, 'grad_norm': 0.2897813618183136, 'learning_rate': 6.698729810778065e-07, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1232.3, 'total_tokens': 345650293, 'epoch': 2.52}
+ 84%|████████▍ | 1259/1500 [11:33:51<2:11:02, 32.63s/it] 84%|████████▍ | 1260/1500 [11:34:24<2:11:10, 32.79s/it]                                                        {'loss': 0.1199, 'grad_norm': 0.2860495448112488, 'learning_rate': 6.644740423465096e-07, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1068.16, 'total_tokens': 345925599, 'epoch': 2.52}
+ 84%|████████▍ | 1260/1500 [11:34:24<2:11:10, 32.79s/it] 84%|████████▍ | 1261/1500 [11:34:57<2:10:51, 32.85s/it]                                                        {'loss': 0.1126, 'grad_norm': 0.30402857065200806, 'learning_rate': 6.590953995067812e-07, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 974.06, 'total_tokens': 346198261, 'epoch': 2.52}
+ 84%|████████▍ | 1261/1500 [11:34:57<2:10:51, 32.85s/it] 84%|████████▍ | 1262/1500 [11:35:30<2:10:17, 32.85s/it]                                                        {'loss': 0.1282, 'grad_norm': 0.30745500326156616, 'learning_rate': 6.537370777376556e-07, 'memory/max_active (GiB)': 51.76, 'memory/max_allocated (GiB)': 51.76, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 933.02, 'total_tokens': 346470596, 'epoch': 2.52}
+ 84%|████████▍ | 1262/1500 [11:35:30<2:10:17, 32.85s/it] 84%|████████▍ | 1263/1500 [11:36:02<2:09:07, 32.69s/it]                                                        {'loss': 0.1112, 'grad_norm': 0.2904631495475769, 'learning_rate': 6.483991021230379e-07, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1255.99, 'total_tokens': 346729054, 'epoch': 2.53}
+ 84%|████████▍ | 1263/1500 [11:36:02<2:09:07, 32.69s/it] 84%|████████▍ | 1264/1500 [11:36:35<2:08:37, 32.70s/it]                                                        {'loss': 0.115, 'grad_norm': 0.28978630900382996, 'learning_rate': 6.430814976515843e-07, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1477.43, 'total_tokens': 347001945, 'epoch': 2.53}
+ 84%|████████▍ | 1264/1500 [11:36:35<2:08:37, 32.70s/it] 84%|████████▍ | 1265/1500 [11:37:09<2:09:38, 33.10s/it]                                                        {'loss': 0.115, 'grad_norm': 0.2854946553707123, 'learning_rate': 6.377842892165892e-07, 'memory/max_active (GiB)': 50.61, 'memory/max_allocated (GiB)': 50.61, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 914.2, 'total_tokens': 347279580, 'epoch': 2.53}
+ 84%|████████▍ | 1265/1500 [11:37:09<2:09:38, 33.10s/it] 84%|████████▍ | 1266/1500 [11:37:41<2:08:01, 32.83s/it]                                                        {'loss': 0.122, 'grad_norm': 0.29574406147003174, 'learning_rate': 6.325075016158683e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1052.55, 'total_tokens': 347556080, 'epoch': 2.53}
+ 84%|████████▍ | 1266/1500 [11:37:41<2:08:01, 32.83s/it] 84%|████████▍ | 1267/1500 [11:38:14<2:07:19, 32.79s/it]                                                        {'loss': 0.1215, 'grad_norm': 0.4263293147087097, 'learning_rate': 6.2725115955164e-07, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1143.39, 'total_tokens': 347833370, 'epoch': 2.53}
+ 84%|████████▍ | 1267/1500 [11:38:14<2:07:19, 32.79s/it] 85%|████████▍ | 1268/1500 [11:38:47<2:07:06, 32.87s/it]                                                        {'loss': 0.1179, 'grad_norm': 0.33114489912986755, 'learning_rate': 6.220152876304092e-07, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 923.39, 'total_tokens': 348126440, 'epoch': 2.54}
+ 85%|████████▍ | 1268/1500 [11:38:47<2:07:06, 32.87s/it] 85%|████████▍ | 1269/1500 [11:39:20<2:07:01, 32.99s/it]                                                        {'loss': 0.1072, 'grad_norm': 0.28000277280807495, 'learning_rate': 6.167999103628569e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1293.83, 'total_tokens': 348407363, 'epoch': 2.54}
+ 85%|████████▍ | 1269/1500 [11:39:20<2:07:01, 32.99s/it] 85%|████████▍ | 1270/1500 [11:39:54<2:07:14, 33.19s/it]                                                        {'loss': 0.1139, 'grad_norm': 0.2877991199493408, 'learning_rate': 6.116050521637218e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1117.75, 'total_tokens': 348697430, 'epoch': 2.54}
+ 85%|████████▍ | 1270/1500 [11:39:54<2:07:14, 33.19s/it] 85%|████████▍ | 1271/1500 [11:40:25<2:03:44, 32.42s/it]                                                        {'loss': 0.1179, 'grad_norm': 0.30548954010009766, 'learning_rate': 6.064307373516864e-07, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1289.93, 'total_tokens': 348966252, 'epoch': 2.54}
+ 85%|████████▍ | 1271/1500 [11:40:25<2:03:44, 32.42s/it] 85%|████████▍ | 1272/1500 [11:40:56<2:02:01, 32.11s/it]                                                        {'loss': 0.111, 'grad_norm': 0.2979138493537903, 'learning_rate': 6.012769901492615e-07, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 892.0, 'total_tokens': 349218449, 'epoch': 2.54}
+ 85%|████████▍ | 1272/1500 [11:40:56<2:02:01, 32.11s/it] 85%|████████▍ | 1273/1500 [11:41:29<2:02:57, 32.50s/it]                                                        {'loss': 0.1176, 'grad_norm': 0.3091731369495392, 'learning_rate': 5.961438346826792e-07, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 893.94, 'total_tokens': 349493257, 'epoch': 2.55}
+ 85%|████████▍ | 1273/1500 [11:41:29<2:02:57, 32.50s/it] 85%|████████▍ | 1274/1500 [11:42:03<2:03:11, 32.70s/it]                                                        {'loss': 0.1117, 'grad_norm': 0.2840529680252075, 'learning_rate': 5.91031294981771e-07, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1019.32, 'total_tokens': 349773932, 'epoch': 2.55}
+ 85%|████████▍ | 1274/1500 [11:42:03<2:03:11, 32.70s/it] 85%|████████▌ | 1275/1500 [11:42:36<2:03:51, 33.03s/it]                                                        {'loss': 0.1132, 'grad_norm': 0.2842661738395691, 'learning_rate': 5.859393949798619e-07, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 902.43, 'total_tokens': 350050544, 'epoch': 2.55}
+ 85%|████████▌ | 1275/1500 [11:42:36<2:03:51, 33.03s/it] 85%|████████▌ | 1276/1500 [11:43:10<2:04:09, 33.26s/it]                                                        {'loss': 0.1176, 'grad_norm': 0.3030322194099426, 'learning_rate': 5.808681585136572e-07, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1053.62, 'total_tokens': 350323341, 'epoch': 2.55}
+ 85%|████████▌ | 1276/1500 [11:43:10<2:04:09, 33.26s/it] 85%|████████▌ | 1277/1500 [11:43:45<2:05:02, 33.64s/it]                                                        {'loss': 0.1091, 'grad_norm': 0.2788858115673065, 'learning_rate': 5.758176093231294e-07, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 866.43, 'total_tokens': 350603357, 'epoch': 2.55}
+ 85%|████████▌ | 1277/1500 [11:43:45<2:05:02, 33.64s/it] 85%|████████▌ | 1278/1500 [11:44:19<2:04:48, 33.73s/it]                                                        {'loss': 0.1221, 'grad_norm': 0.29915305972099304, 'learning_rate': 5.707877710514059e-07, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1105.55, 'total_tokens': 350881027, 'epoch': 2.56}
+ 85%|████████▌ | 1278/1500 [11:44:19<2:04:48, 33.73s/it] 85%|████████▌ | 1279/1500 [11:44:51<2:02:38, 33.30s/it]                                                        {'loss': 0.1208, 'grad_norm': 0.30144280195236206, 'learning_rate': 5.65778667244663e-07, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1006.55, 'total_tokens': 351168226, 'epoch': 2.56}
+ 85%|████████▌ | 1279/1500 [11:44:51<2:02:38, 33.30s/it] 85%|████████▌ | 1280/1500 [11:45:25<2:02:27, 33.40s/it]                                                        {'loss': 0.119, 'grad_norm': 0.295973002910614, 'learning_rate': 5.607903213520083e-07, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1141.49, 'total_tokens': 351444146, 'epoch': 2.56}
+ 85%|████████▌ | 1280/1500 [11:45:25<2:02:27, 33.40s/it] 85%|████████▌ | 1281/1500 [11:45:57<2:00:51, 33.11s/it]                                                        {'loss': 0.1176, 'grad_norm': 0.2956181466579437, 'learning_rate': 5.558227567253832e-07, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 894.68, 'total_tokens': 351699083, 'epoch': 2.56}
+ 85%|████████▌ | 1281/1500 [11:45:57<2:00:51, 33.11s/it] 85%|████████▌ | 1282/1500 [11:46:31<2:00:58, 33.30s/it]                                                        {'loss': 0.1208, 'grad_norm': 0.28709542751312256, 'learning_rate': 5.508759966194372e-07, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1041.73, 'total_tokens': 351984235, 'epoch': 2.56}
+ 85%|████████▌ | 1282/1500 [11:46:31<2:00:58, 33.30s/it] 86%|████████▌ | 1283/1500 [11:47:04<1:59:48, 33.13s/it]                                                        {'loss': 0.1253, 'grad_norm': 0.2904149293899536, 'learning_rate': 5.459500641914333e-07, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1333.15, 'total_tokens': 352268804, 'epoch': 2.57}
+ 86%|████████▌ | 1283/1500 [11:47:04<1:59:48, 33.13s/it] 86%|████████▌ | 1284/1500 [11:47:38<2:00:14, 33.40s/it]                                                        {'loss': 0.1249, 'grad_norm': 0.29185038805007935, 'learning_rate': 5.410449825011304e-07, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 826.11, 'total_tokens': 352544562, 'epoch': 2.57}
+ 86%|████████▌ | 1284/1500 [11:47:38<2:00:14, 33.40s/it] 86%|████████▌ | 1285/1500 [11:48:10<1:58:49, 33.16s/it]                                                        {'loss': 0.1147, 'grad_norm': 0.31692686676979065, 'learning_rate': 5.361607745106817e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1074.62, 'total_tokens': 352799530, 'epoch': 2.57}
+ 86%|████████▌ | 1285/1500 [11:48:10<1:58:49, 33.16s/it] 86%|████████▌ | 1286/1500 [11:48:44<1:58:28, 33.22s/it]                                                        {'loss': 0.1193, 'grad_norm': 0.29441672563552856, 'learning_rate': 5.31297463084523e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1074.93, 'total_tokens': 353087902, 'epoch': 2.57}
+ 86%|████████▌ | 1286/1500 [11:48:44<1:58:28, 33.22s/it] 86%|████████▌ | 1287/1500 [11:49:17<1:57:41, 33.15s/it]                                                        {'loss': 0.1237, 'grad_norm': 0.3106509745121002, 'learning_rate': 5.264550709892685e-07, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1051.48, 'total_tokens': 353357395, 'epoch': 2.57}
+ 86%|████████▌ | 1287/1500 [11:49:17<1:57:41, 33.15s/it] 86%|████████▌ | 1288/1500 [11:49:48<1:55:35, 32.72s/it]                                                        {'loss': 0.1171, 'grad_norm': 0.2866942584514618, 'learning_rate': 5.21633620893599e-07, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 873.82, 'total_tokens': 353625257, 'epoch': 2.58}
+ 86%|████████▌ | 1288/1500 [11:49:48<1:55:35, 32.72s/it] 86%|████████▌ | 1289/1500 [11:50:22<1:56:07, 33.02s/it]                                                        {'loss': 0.1163, 'grad_norm': 0.27817821502685547, 'learning_rate': 5.168331353681643e-07, 'memory/max_active (GiB)': 52.48, 'memory/max_allocated (GiB)': 52.48, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1307.22, 'total_tokens': 353929224, 'epoch': 2.58}
+ 86%|████████▌ | 1289/1500 [11:50:22<1:56:07, 33.02s/it] 86%|████████▌ | 1290/1500 [11:50:54<1:54:49, 32.81s/it]                                                        {'loss': 0.1199, 'grad_norm': 0.30149686336517334, 'learning_rate': 5.12053636885469e-07, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1068.28, 'total_tokens': 354216204, 'epoch': 2.58}
+ 86%|████████▌ | 1290/1500 [11:50:54<1:54:49, 32.81s/it] 86%|████████▌ | 1291/1500 [11:51:28<1:55:31, 33.17s/it]                                                        {'loss': 0.1251, 'grad_norm': 0.2958686649799347, 'learning_rate': 5.072951478197724e-07, 'memory/max_active (GiB)': 51.01, 'memory/max_allocated (GiB)': 51.01, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 931.4, 'total_tokens': 354505810, 'epoch': 2.58}
+ 86%|████████▌ | 1291/1500 [11:51:28<1:55:31, 33.17s/it] 86%|████████▌ | 1292/1500 [11:51:58<1:51:40, 32.22s/it]                                                        {'loss': 0.1217, 'grad_norm': 0.31202957034111023, 'learning_rate': 5.025576904469842e-07, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 803.88, 'total_tokens': 354743210, 'epoch': 2.58}
+ 86%|████████▌ | 1292/1500 [11:51:58<1:51:40, 32.22s/it] 86%|████████▌ | 1293/1500 [11:52:31<1:51:24, 32.29s/it]                                                        {'loss': 0.1202, 'grad_norm': 0.3444156050682068, 'learning_rate': 4.97841286944557e-07, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1260.38, 'total_tokens': 355020183, 'epoch': 2.59}
+ 86%|████████▌ | 1293/1500 [11:52:31<1:51:24, 32.29s/it] 86%|████████▋ | 1294/1500 [11:53:03<1:50:54, 32.30s/it]                                                        {'loss': 0.1159, 'grad_norm': 0.2995806634426117, 'learning_rate': 4.931459593913818e-07, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 996.36, 'total_tokens': 355296273, 'epoch': 2.59}
+ 86%|█████���██▋ | 1294/1500 [11:53:03<1:50:54, 32.30s/it] 86%|████████▋ | 1295/1500 [11:53:35<1:50:05, 32.22s/it]                                                        {'loss': 0.1179, 'grad_norm': 0.28786444664001465, 'learning_rate': 4.884717297676905e-07, 'memory/max_active (GiB)': 50.13, 'memory/max_allocated (GiB)': 50.13, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 861.82, 'total_tokens': 355592047, 'epoch': 2.59}
+ 86%|████████▋ | 1295/1500 [11:53:35<1:50:05, 32.22s/it] 86%|████████▋ | 1296/1500 [11:54:09<1:51:03, 32.66s/it]                                                        {'loss': 0.1231, 'grad_norm': 0.29260993003845215, 'learning_rate': 4.838186199549472e-07, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 855.15, 'total_tokens': 355891194, 'epoch': 2.59}
+ 86%|████████▋ | 1296/1500 [11:54:09<1:51:03, 32.66s/it] 86%|████████▋ | 1297/1500 [11:54:41<1:49:41, 32.42s/it]                                                        {'loss': 0.1128, 'grad_norm': 0.28271588683128357, 'learning_rate': 4.791866517357491e-07, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1380.83, 'total_tokens': 356176775, 'epoch': 2.59}
+ 86%|████████▋ | 1297/1500 [11:54:41<1:49:41, 32.42s/it] 87%|████████▋ | 1298/1500 [11:55:14<1:50:20, 32.77s/it]                                                        {'loss': 0.1154, 'grad_norm': 0.2887031137943268, 'learning_rate': 4.745758467937217e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1129.96, 'total_tokens': 356457728, 'epoch': 2.6}
+ 87%|████████▋ | 1298/1500 [11:55:14<1:50:20, 32.77s/it] 87%|████████▋ | 1299/1500 [11:55:48<1:50:22, 32.95s/it]                                                        {'loss': 0.1166, 'grad_norm': 0.3013383746147156, 'learning_rate': 4.6998622671341923e-07, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1063.37, 'total_tokens': 356737716, 'epoch': 2.6}
+ 87%|████████▋ | 1299/1500 [11:55:48<1:50:22, 32.95s/it] 87%|████████▋ | 1300/1500 [11:56:20<1:49:38, 32.89s/it]                                                        {'loss': 0.1195, 'grad_norm': 0.30128204822540283, 'learning_rate': 4.65417812980225e-07, 'memory/max_active (GiB)': 49.9, 'memory/max_allocated (GiB)': 49.9, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 762.36, 'total_tokens': 357005092, 'epoch': 2.6}
+ 87%|████████▋ | 1300/1500 [11:56:20<1:49:38, 32.89s/it] 87%|████████▋ | 1301/1500 [11:56:54<1:50:05, 33.19s/it]                                                        {'loss': 0.1124, 'grad_norm': 0.29675304889678955, 'learning_rate': 4.608706269802471e-07, 'memory/max_active (GiB)': 50.91, 'memory/max_allocated (GiB)': 50.91, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1223.77, 'total_tokens': 357282405, 'epoch': 2.6}
+ 87%|████████▋ | 1301/1500 [11:56:54<1:50:05, 33.19s/it] 87%|████████▋ | 1302/1500 [11:57:26<1:47:49, 32.68s/it]                                                        {'loss': 0.1119, 'grad_norm': 0.3156856298446655, 'learning_rate': 4.5634469000022053e-07, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 969.28, 'total_tokens': 357522708, 'epoch': 2.6}
+ 87%|████████▋ | 1302/1500 [11:57:26<1:47:49, 32.68s/it] 87%|████████▋ | 1303/1500 [11:57:59<1:48:09, 32.94s/it]                                                        {'loss': 0.1139, 'grad_norm': 0.28565922379493713, 'learning_rate': 4.5184002322740784e-07, 'memory/max_active (GiB)': 51.76, 'memory/max_allocated (GiB)': 51.76, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1037.84, 'total_tokens': 357800932, 'epoch': 2.61}
+ 87%|████████▋ | 1303/1500 [11:57:59<1:48:09, 32.94s/it] 87%|████████▋ | 1304/1500 [11:58:31<1:46:49, 32.70s/it]                                                        {'loss': 0.1136, 'grad_norm': 0.2997468411922455, 'learning_rate': 4.473566477495006e-07, 'memory/max_active (GiB)': 50.45, 'memory/max_allocated (GiB)': 50.45, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 827.45, 'total_tokens': 358056306, 'epoch': 2.61}
+ 87%|████████▋ | 1304/1500 [11:58:31<1:46:49, 32.70s/it] 87%|████████▋ | 1305/1500 [11:59:04<1:46:14, 32.69s/it]                                                        {'loss': 0.1158, 'grad_norm': 0.29561400413513184, 'learning_rate': 4.428945845545168e-07, 'memory/max_active (GiB)': 51.47, 'memory/max_allocated (GiB)': 51.47, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1111.54, 'total_tokens': 358340439, 'epoch': 2.61}
+ 87%|████████▋ | 1305/1500 [11:59:04<1:46:14, 32.69s/it] 87%|████████▋ | 1306/1500 [11:59:37<1:45:46, 32.71s/it]                                                        {'loss': 0.1144, 'grad_norm': 0.28729379177093506, 'learning_rate': 4.384538545307071e-07, 'memory/max_active (GiB)': 52.48, 'memory/max_allocated (GiB)': 52.48, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 792.77, 'total_tokens': 358615356, 'epoch': 2.61}
+ 87%|████████▋ | 1306/1500 [11:59:37<1:45:46, 32.71s/it] 87%|████████▋ | 1307/1500 [12:00:10<1:45:43, 32.87s/it]                                                        {'loss': 0.1075, 'grad_norm': 0.2859586477279663, 'learning_rate': 4.3403447846645355e-07, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1016.51, 'total_tokens': 358878633, 'epoch': 2.61}
+ 87%|████████▋ | 1307/1500 [12:00:10<1:45:43, 32.87s/it] 87%|████████▋ | 1308/1500 [12:00:42<1:43:57, 32.49s/it]                                                        {'loss': 0.126, 'grad_norm': 0.3163677453994751, 'learning_rate': 4.2963647705017707e-07, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 811.42, 'total_tokens': 359128860, 'epoch': 2.62}
+ 87%|████████▋ | 1308/1500 [12:00:42<1:43:57, 32.49s/it] 87%|████████▋ | 1309/1500 [12:01:15<1:43:56, 32.65s/it]                                                        {'loss': 0.116, 'grad_norm': 0.30814918875694275, 'learning_rate': 4.2525987087023433e-07, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 722.48, 'total_tokens': 359379227, 'epoch': 2.62}
+ 87%|████████▋ | 1309/1500 [12:01:15<1:43:56, 32.65s/it] 87%|████████▋ | 1310/1500 [12:01:48<1:43:42, 32.75s/it]                                                        {'loss': 0.1168, 'grad_norm': 0.3177163004875183, 'learning_rate': 4.2090468041482644e-07, 'memory/max_active (GiB)': 50.78, 'memory/max_allocated (GiB)': 50.78, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 830.44, 'total_tokens': 359639043, 'epoch': 2.62}
+ 87%|████████▋ | 1310/1500 [12:01:48<1:43:42, 32.75s/it] 87%|████████▋ | 1311/1500 [12:02:20<1:43:07, 32.74s/it]                                                        {'loss': 0.1268, 'grad_norm': 0.3336869180202484, 'learning_rate': 4.1657092607189865e-07, 'memory/max_active (GiB)': 51.98, 'memory/max_allocated (GiB)': 51.98, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 811.07, 'total_tokens': 359911282, 'epoch': 2.62}
+ 87%|████████▋ | 1311/1500 [12:02:20<1:43:07, 32.74s/it] 87%|████████▋ | 1312/1500 [12:02:54<1:43:11, 32.93s/it]                                                        {'loss': 0.1124, 'grad_norm': 0.2697729766368866, 'learning_rate': 4.1225862812905083e-07, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1190.13, 'total_tokens': 360199915, 'epoch': 2.62}
+ 87%|████████▋ | 1312/1500 [12:02:54<1:43:11, 32.93s/it] 88%|████████▊ | 1313/1500 [12:03:28<1:43:31, 33.21s/it]                                                        {'loss': 0.1136, 'grad_norm': 0.28176912665367126, 'learning_rate': 4.0796780677343606e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 934.92, 'total_tokens': 360488431, 'epoch': 2.63}
+ 88%|████████▊ | 1313/1500 [12:03:28<1:43:31, 33.21s/it] 88%|████████▊ | 1314/1500 [12:04:01<1:43:10, 33.28s/it]                                                        {'loss': 0.1253, 'grad_norm': 0.3134725093841553, 'learning_rate': 4.036984820916723e-07, 'memory/max_active (GiB)': 51.44, 'memory/max_allocated (GiB)': 51.44, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1015.83, 'total_tokens': 360769329, 'epoch': 2.63}
+ 88%|████████▊ | 1314/1500 [12:04:01<1:43:10, 33.28s/it] 88%|████████▊ | 1315/1500 [12:04:33<1:41:29, 32.91s/it]                                                        {'loss': 0.1118, 'grad_norm': 0.29770150780677795, 'learning_rate': 3.9945067406974067e-07, 'memory/max_active (GiB)': 51.44, 'memory/max_allocated (GiB)': 51.44, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 732.52, 'total_tokens': 361013347, 'epoch': 2.63}
+ 88%|████████▊ | 1315/1500 [12:04:33<1:41:29, 32.91s/it] 88%|████████▊ | 1316/1500 [12:05:07<1:42:10, 33.32s/it]                                                        {'loss': 0.1106, 'grad_norm': 0.29526397585868835, 'learning_rate': 3.952244025929014e-07, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 952.97, 'total_tokens': 361281282, 'epoch': 2.63}
+ 88%|████████▊ | 1316/1500 [12:05:07<1:42:10, 33.32s/it] 88%|████████▊ | 1317/1500 [12:05:41<1:41:27, 33.26s/it]                                                        {'loss': 0.1188, 'grad_norm': 0.3051934242248535, 'learning_rate': 3.910196874455896e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1234.33, 'total_tokens': 361546146, 'epoch': 2.63}
+ 88%|████████▊ | 1317/1500 [12:05:41<1:41:27, 33.26s/it] 88%|████████▊ | 1318/1500 [12:06:13<1:40:28, 33.12s/it]                                                        {'loss': 0.1168, 'grad_norm': 0.3002294600009918, 'learning_rate': 3.8683654831133624e-07, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 821.62, 'total_tokens': 361800994, 'epoch': 2.64}
+ 88%|████████▊ | 1318/1500 [12:06:13<1:40:28, 33.12s/it] 88%|████████▊ | 1319/1500 [12:06:45<1:38:36, 32.69s/it]                                                        {'loss': 0.1259, 'grad_norm': 0.3030260503292084, 'learning_rate': 3.826750047726624e-07, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 978.51, 'total_tokens': 362078328, 'epoch': 2.64}
+ 88%|████████▊ | 1319/1500 [12:06:45<1:38:36, 32.69s/it] 88%|████████▊ | 1320/1500 [12:07:19<1:39:11, 33.06s/it]                                                        {'loss': 0.1217, 'grad_norm': 0.2900632321834564, 'learning_rate': 3.7853507631099797e-07, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1120.12, 'total_tokens': 362370246, 'epoch': 2.64}
+ 88%|████████▊ | 1320/1500 [12:07:19<1:39:11, 33.06s/it] 88%|████████▊ | 1321/1500 [12:07:52<1:38:26, 33.00s/it]                                                        {'loss': 0.125, 'grad_norm': 0.3017389476299286, 'learning_rate': 3.744167823065814e-07, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 970.98, 'total_tokens': 362631945, 'epoch': 2.64}
+ 88%|████████▊ | 1321/1500 [12:07:52<1:38:26, 33.00s/it] 88%|████████▊ | 1322/1500 [12:08:24<1:37:17, 32.80s/it]                                                        {'loss': 0.1153, 'grad_norm': 0.29315662384033203, 'learning_rate': 3.7032014203837894e-07, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 975.28, 'total_tokens': 362901271, 'epoch': 2.64}
+ 88%|████████▊ | 1322/1500 [12:08:24<1:37:17, 32.80s/it] 88%|████████▊ | 1323/1500 [12:08:55<1:35:08, 32.25s/it]                                                        {'loss': 0.1149, 'grad_norm': 0.3039485812187195, 'learning_rate': 3.6624517468398514e-07, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1121.62, 'total_tokens': 363163503, 'epoch': 2.65}
+ 88%|████████▊ | 1323/1500 [12:08:55<1:35:08, 32.25s/it] 88%|████████▊ | 1324/1500 [12:09:28<1:35:22, 32.51s/it]                                                        {'loss': 0.1191, 'grad_norm': 0.312444806098938, 'learning_rate': 3.621918993195411e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 964.7, 'total_tokens': 363431150, 'epoch': 2.65}
+ 88%|████████▊ | 1324/1500 [12:09:28<1:35:22, 32.51s/it] 88%|████████▊ | 1325/1500 [12:10:02<1:35:31, 32.75s/it]                                                        {'loss': 0.1123, 'grad_norm': 0.2808041274547577, 'learning_rate': 3.581603349196372e-07, 'memory/max_active (GiB)': 51.01, 'memory/max_allocated (GiB)': 51.01, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 838.7, 'total_tokens': 363717857, 'epoch': 2.65}
+ 88%|████████▊ | 1325/1500 [12:10:02<1:35:31, 32.75s/it] 88%|████████▊ | 1326/1500 [12:10:36<1:36:27, 33.26s/it]                                                        {'loss': 0.1075, 'grad_norm': 0.2866098880767822, 'learning_rate': 3.5415050035723153e-07, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 804.9, 'total_tokens': 363998653, 'epoch': 2.65}
+ 88%|████████▊ | 1326/1500 [12:10:36<1:36:27, 33.26s/it] 88%|████████▊ | 1327/1500 [12:11:08<1:34:57, 32.93s/it]                                                        {'loss': 0.1165, 'grad_norm': 0.31209465861320496, 'learning_rate': 3.501624144035559e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 919.36, 'total_tokens': 364266170, 'epoch': 2.65}
+ 88%|████████▊ | 1327/1500 [12:11:08<1:34:57, 32.93s/it] 89%|████████▊ | 1328/1500 [12:11:42<1:35:09, 33.20s/it]                                                        {'loss': 0.1216, 'grad_norm': 0.2875537574291229, 'learning_rate': 3.4619609572803137e-07, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1187.48, 'total_tokens': 364556992, 'epoch': 2.66}
+ 89%|████████▊ | 1328/1500 [12:11:42<1:35:09, 33.20s/it] 89%|████████▊ | 1329/1500 [12:12:16<1:35:05, 33.36s/it]                                                        {'loss': 0.1238, 'grad_norm': 0.2947016954421997, 'learning_rate': 3.4225156289818096e-07, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 959.83, 'total_tokens': 364851166, 'epoch': 2.66}
+ 89%|████████▊ | 1329/1500 [12:12:16<1:35:05, 33.36s/it] 89%|████████▊ | 1330/1500 [12:12:50<1:35:19, 33.65s/it]                                                        {'loss': 0.1192, 'grad_norm': 0.2651754319667816, 'learning_rate': 3.38328834379541e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1338.72, 'total_tokens': 365179905, 'epoch': 2.66}
+ 89%|████████▊ | 1330/1500 [12:12:50<1:35:19, 33.65s/it] 89%|████████▊ | 1331/1500 [12:13:23<1:34:23, 33.51s/it]                                                        {'loss': 0.1146, 'grad_norm': 0.28609517216682434, 'learning_rate': 3.344279285355734e-07, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 793.25, 'total_tokens': 365442489, 'epoch': 2.66}
+ 89%|████████▊ | 1331/1500 [12:13:23<1:34:23, 33.51s/it] 89%|████████▉ | 1332/1500 [12:13:56<1:33:14, 33.30s/it]                                                        {'loss': 0.1189, 'grad_norm': 0.28944694995880127, 'learning_rate': 3.30548863627585e-07, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 970.67, 'total_tokens': 365712247, 'epoch': 2.66}
+ 89%|████████▉ | 1332/1500 [12:13:56<1:33:14, 33.30s/it] 89%|████████▉ | 1333/1500 [12:14:28<1:31:50, 33.00s/it]                                                        {'loss': 0.112, 'grad_norm': 0.2885897755622864, 'learning_rate': 3.26691657814634e-07, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1137.82, 'total_tokens': 365986133, 'epoch': 2.67}
+ 89%|████████▉ | 1333/1500 [12:14:28<1:31:50, 33.00s/it] 89%|████████▉ | 1334/1500 [12:15:01<1:31:09, 32.95s/it]                                                        {'loss': 0.1183, 'grad_norm': 0.28606143593788147, 'learning_rate': 3.228563291534564e-07, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1004.36, 'total_tokens': 366260145, 'epoch': 2.67}
+ 89%|████████▉ | 1334/1500 [12:15:01<1:31:09, 32.95s/it] 89%|████████▉ | 1335/1500 [12:15:32<1:28:59, 32.36s/it]                                                        {'loss': 0.1134, 'grad_norm': 0.3009183704853058, 'learning_rate': 3.190428955983682e-07, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1032.28, 'total_tokens': 366502054, 'epoch': 2.67}
+ 89%|████████▉ | 1335/1500 [12:15:32<1:28:59, 32.36s/it] 89%|████████▉ | 1336/1500 [12:16:04<1:27:57, 32.18s/it]                                                        {'loss': 0.1173, 'grad_norm': 0.3121519684791565, 'learning_rate': 3.1525137500119207e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1080.09, 'total_tokens': 366758005, 'epoch': 2.67}
+ 89%|████████▉ | 1336/1500 [12:16:04<1:27:57, 32.18s/it] 89%|████████▉ | 1337/1500 [12:16:36<1:27:26, 32.19s/it]                                                        {'loss': 0.1143, 'grad_norm': 0.30591413378715515, 'learning_rate': 3.1148178511116624e-07, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 889.21, 'total_tokens': 367029643, 'epoch': 2.67}
+ 89%|████████▉ | 1337/1500 [12:16:36<1:27:26, 32.19s/it] 89%|████████▉ | 1338/1500 [12:17:09<1:27:25, 32.38s/it]                                                        {'loss': 0.1156, 'grad_norm': 0.2902640402317047, 'learning_rate': 3.077341435748676e-07, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1118.44, 'total_tokens': 367297354, 'epoch': 2.68}
+ 89%|████████▉ | 1338/1500 [12:17:09<1:27:25, 32.38s/it] 89%|████████▉ | 1339/1500 [12:17:41<1:26:52, 32.38s/it]                                                        {'loss': 0.1243, 'grad_norm': 0.2970622479915619, 'learning_rate': 3.040084679361255e-07, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1215.81, 'total_tokens': 367569890, 'epoch': 2.68}
+ 89%|████████▉ | 1339/1500 [12:17:41<1:26:52, 32.38s/it] 89%|████████▉ | 1340/1500 [12:18:15<1:27:26, 32.79s/it]                                                        {'loss': 0.1143, 'grad_norm': 0.2721758484840393, 'learning_rate': 3.003047756359406e-07, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1045.44, 'total_tokens': 367874085, 'epoch': 2.68}
+ 89%|████████▉ | 1340/1500 [12:18:15<1:27:26, 32.79s/it] 89%|████████▉ | 1341/1500 [12:18:49<1:27:48, 33.13s/it]                                                        {'loss': 0.1188, 'grad_norm': 0.291482150554657, 'learning_rate': 2.966230840124007e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 926.9, 'total_tokens': 368172623, 'epoch': 2.68}
+ 89%|████████▉ | 1341/1500 [12:18:49<1:27:48, 33.13s/it] 89%|████████▉ | 1342/1500 [12:19:22<1:27:30, 33.23s/it]                                                        {'loss': 0.1127, 'grad_norm': 0.2818340063095093, 'learning_rate': 2.929634103006046e-07, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1264.28, 'total_tokens': 368454289, 'epoch': 2.68}
+ 89%|████████▉ | 1342/1500 [12:19:22<1:27:30, 33.23s/it] 90%|████████▉ | 1343/1500 [12:19:55<1:26:27, 33.04s/it]                                                        {'loss': 0.1218, 'grad_norm': 0.2969631254673004, 'learning_rate': 2.8932577163257815e-07, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1150.12, 'total_tokens': 368730300, 'epoch': 2.69}
+ 90%|████████▉ | 1343/1500 [12:19:55<1:26:27, 33.04s/it] 90%|████████▉ | 1344/1500 [12:20:29<1:26:20, 33.21s/it]                                                        {'loss': 0.1247, 'grad_norm': 0.2966419756412506, 'learning_rate': 2.8571018503719297e-07, 'memory/max_active (GiB)': 52.48, 'memory/max_allocated (GiB)': 52.48, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 776.54, 'total_tokens': 369028453, 'epoch': 2.69}
+ 90%|████████▉ | 1344/1500 [12:20:29<1:26:20, 33.21s/it] 90%|████████▉ | 1345/1500 [12:21:02<1:25:49, 33.22s/it]                                                        {'loss': 0.1222, 'grad_norm': 0.28771963715553284, 'learning_rate': 2.821166674400905e-07, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1299.63, 'total_tokens': 369319656, 'epoch': 2.69}
+ 90%|████████▉ | 1345/1500 [12:21:02<1:25:49, 33.22s/it] 90%|████████▉ | 1346/1500 [12:21:35<1:25:31, 33.32s/it]                                                        {'loss': 0.1214, 'grad_norm': 0.2947331368923187, 'learning_rate': 2.785452356635987e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1365.5, 'total_tokens': 369607082, 'epoch': 2.69}
+ 90%|████████▉ | 1346/1500 [12:21:35<1:25:31, 33.32s/it] 90%|████████▉ | 1347/1500 [12:22:09<1:25:28, 33.52s/it]                                                        {'loss': 0.1141, 'grad_norm': 0.2840863764286041, 'learning_rate': 2.7499590642665773e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 936.0, 'total_tokens': 369893773, 'epoch': 2.69}
+ 90%|████████▉ | 1347/1500 [12:22:09<1:25:28, 33.52s/it] 90%|████████▉ | 1348/1500 [12:22:43<1:24:51, 33.50s/it]                                                        {'loss': 0.1292, 'grad_norm': 0.3024027645587921, 'learning_rate': 2.7146869634473607e-07, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 935.66, 'total_tokens': 370182877, 'epoch': 2.7}
+ 90%|████████▉ | 1348/1500 [12:22:43<1:24:51, 33.50s/it] 90%|████████▉ | 1349/1500 [12:23:17<1:24:31, 33.59s/it]                                                        {'loss': 0.1215, 'grad_norm': 0.29640209674835205, 'learning_rate': 2.6796362192975766e-07, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1362.36, 'total_tokens': 370461643, 'epoch': 2.7}
+ 90%|████████▉ | 1349/1500 [12:23:17<1:24:31, 33.59s/it] 90%|█████████ | 1350/1500 [12:23:50<1:23:35, 33.44s/it]                                                        {'loss': 0.117, 'grad_norm': 0.2833046019077301, 'learning_rate': 2.6448069959002234e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1165.34, 'total_tokens': 370733370, 'epoch': 2.7}
+ 90%|█████████ | 1350/1500 [12:23:50<1:23:35, 33.44s/it] 90%|█████████ | 1351/1500 [12:24:24<1:23:16, 33.53s/it]                                                        {'loss': 0.114, 'grad_norm': 0.27766507863998413, 'learning_rate': 2.61019945630131e-07, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1213.37, 'total_tokens': 371041679, 'epoch': 2.7}
+ 90%|█████████ | 1351/1500 [12:24:24<1:23:16, 33.53s/it] 90%|█████████ | 1352/1500 [12:24:57<1:22:51, 33.59s/it]                                                        {'loss': 0.1205, 'grad_norm': 0.3071872293949127, 'learning_rate': 2.5758137625090383e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1034.67, 'total_tokens': 371300983, 'epoch': 2.7}
+ 90%|█████████ | 1352/1500 [12:24:57<1:22:51, 33.59s/it] 90%|█████████ | 1353/1500 [12:25:30<1:21:31, 33.28s/it]                                                        {'loss': 0.1114, 'grad_norm': 0.29323819279670715, 'learning_rate': 2.5416500754931294e-07, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1007.84, 'total_tokens': 371563075, 'epoch': 2.71}
+ 90%|█████████ | 1353/1500 [12:25:30<1:21:31, 33.28s/it] 90%|█████████ | 1354/1500 [12:26:02<1:19:56, 32.85s/it]                                                        {'loss': 0.1132, 'grad_norm': 0.2833457887172699, 'learning_rate': 2.507708555183985e-07, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1341.75, 'total_tokens': 371860156, 'epoch': 2.71}
+ 90%|█████████ | 1354/1500 [12:26:02<1:19:56, 32.85s/it] 90%|█████████ | 1355/1500 [12:26:36<1:20:19, 33.24s/it]                                                        {'loss': 0.1202, 'grad_norm': 0.30231770873069763, 'learning_rate': 2.4739893604720124e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 991.87, 'total_tokens': 372127263, 'epoch': 2.71}
+ 90%|█████████ | 1355/1500 [12:26:36<1:20:19, 33.24s/it] 90%|█████████ | 1356/1500 [12:27:09<1:19:52, 33.28s/it]                                                        {'loss': 0.1192, 'grad_norm': 0.30274567008018494, 'learning_rate': 2.440492649206816e-07, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1474.07, 'total_tokens': 372408971, 'epoch': 2.71}
+ 90%|█████████ | 1356/1500 [12:27:09<1:19:52, 33.28s/it] 90%|█████████ | 1357/1500 [12:27:42<1:19:01, 33.16s/it]                                                        {'loss': 0.118, 'grad_norm': 0.29575762152671814, 'learning_rate': 2.407218578196524e-07, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1054.97, 'total_tokens': 372684612, 'epoch': 2.71}
+ 90%|█████████ | 1357/1500 [12:27:42<1:19:01, 33.16s/it] 91%|█████████ | 1358/1500 [12:28:16<1:18:52, 33.32s/it]                                                        {'loss': 0.1171, 'grad_norm': 0.28999072313308716, 'learning_rate': 2.3741673032069757e-07, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1134.58, 'total_tokens': 372984684, 'epoch': 2.72}
+ 91%|█████████ | 1358/1500 [12:28:16<1:18:52, 33.32s/it] 91%|█████████ | 1359/1500 [12:28:48<1:17:12, 32.86s/it]                                                        {'loss': 0.1176, 'grad_norm': 0.30207768082618713, 'learning_rate': 2.3413389789610775e-07, 'memory/max_active (GiB)': 51.77, 'memory/max_allocated (GiB)': 51.77, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1076.29, 'total_tokens': 373245300, 'epoch': 2.72}
+ 91%|█████████ | 1359/1500 [12:28:48<1:17:12, 32.86s/it] 91%|█████████ | 1360/1500 [12:29:20<1:16:21, 32.73s/it]                                                        {'loss': 0.1172, 'grad_norm': 0.2808026075363159, 'learning_rate': 2.3087337591379877e-07, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1112.15, 'total_tokens': 373543132, 'epoch': 2.72}
+ 91%|█████████ | 1360/1500 [12:29:20<1:16:21, 32.73s/it] 91%|█████████ | 1361/1500 [12:29:52<1:15:29, 32.58s/it]                                                        {'loss': 0.1205, 'grad_norm': 0.3119392991065979, 'learning_rate': 2.2763517963725169e-07, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1084.86, 'total_tokens': 373824027, 'epoch': 2.72}
+ 91%|█████████ | 1361/1500 [12:29:52<1:15:29, 32.58s/it] 91%|█████████ | 1362/1500 [12:30:25<1:14:55, 32.57s/it]                                                        {'loss': 0.1186, 'grad_norm': 0.28036031126976013, 'learning_rate': 2.2441932422542723e-07, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1058.98, 'total_tokens': 374117932, 'epoch': 2.72}
+ 91%|█████████ | 1362/1500 [12:30:25<1:14:55, 32.57s/it] 91%|█████████ | 1363/1500 [12:30:58<1:15:08, 32.91s/it]                                                        {'loss': 0.1167, 'grad_norm': 0.2916868329048157, 'learning_rate': 2.2122582473270594e-07, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1046.24, 'total_tokens': 374397156, 'epoch': 2.73}
+ 91%|█████████ | 1363/1500 [12:30:58<1:15:08, 32.91s/it] 91%|█████████ | 1364/1500 [12:31:31<1:14:13, 32.75s/it]                                                        {'loss': 0.1212, 'grad_norm': 0.3227674961090088, 'learning_rate': 2.1805469610881203e-07, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 984.94, 'total_tokens': 374687365, 'epoch': 2.73}
+ 91%|█████████ | 1364/1500 [12:31:31<1:14:13, 32.75s/it] 91%|█████████ | 1365/1500 [12:32:04<1:13:39, 32.74s/it]                                                        {'loss': 0.1207, 'grad_norm': 0.2916278541088104, 'learning_rate': 2.1490595319874574e-07, 'memory/max_active (GiB)': 52.48, 'memory/max_allocated (GiB)': 52.48, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1137.02, 'total_tokens': 374955538, 'epoch': 2.73}
+ 91%|█████████ | 1365/1500 [12:32:04<1:13:39, 32.74s/it] 91%|█████████ | 1366/1500 [12:32:35<1:12:27, 32.44s/it]                                                        {'loss': 0.1241, 'grad_norm': 0.2939510643482208, 'learning_rate': 2.1177961074271282e-07, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 980.81, 'total_tokens': 375239535, 'epoch': 2.73}
+ 91%|█████████ | 1366/1500 [12:32:35<1:12:27, 32.44s/it] 91%|█████████ | 1367/1500 [12:33:08<1:12:08, 32.54s/it]                                                        {'loss': 0.1167, 'grad_norm': 0.30011796951293945, 'learning_rate': 2.0867568337605616e-07, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 870.34, 'total_tokens': 375522369, 'epoch': 2.73}
+ 91%|█████████ | 1367/1500 [12:33:08<1:12:08, 32.54s/it] 91%|█████████ | 1368/1500 [12:33:39<1:10:46, 32.17s/it]                                                        {'loss': 0.1247, 'grad_norm': 0.3084610104560852, 'learning_rate': 2.05594185629186e-07, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1357.91, 'total_tokens': 375779117, 'epoch': 2.74}
+ 91%|█████████ | 1368/1500 [12:33:39<1:10:46, 32.17s/it] 91%|█████████▏| 1369/1500 [12:34:13<1:11:09, 32.59s/it]                                                        {'loss': 0.1153, 'grad_norm': 0.30324628949165344, 'learning_rate': 2.0253513192751374e-07, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 751.24, 'total_tokens': 376053951, 'epoch': 2.74}
+ 91%|█████████▏| 1369/1500 [12:34:13<1:11:09, 32.59s/it] 91%|█████████▏| 1370/1500 [12:34:46<1:11:03, 32.80s/it]                                                        {'loss': 0.1142, 'grad_norm': 0.2991558611392975, 'learning_rate': 1.9949853659138262e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 973.09, 'total_tokens': 376294778, 'epoch': 2.74}
+ 91%|█████████▏| 1370/1500 [12:34:46<1:11:03, 32.80s/it] 91%|█████████▏| 1371/1500 [12:35:19<1:10:45, 32.91s/it]                                                        {'loss': 0.119, 'grad_norm': 0.31005343794822693, 'learning_rate': 1.9648441383600224e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 772.53, 'total_tokens': 376553719, 'epoch': 2.74}
+ 91%|█████████▏| 1371/1500 [12:35:19<1:10:45, 32.91s/it] 91%|█████████▏| 1372/1500 [12:35:52<1:10:16, 32.94s/it]                                                        {'loss': 0.1134, 'grad_norm': 0.2869105041027069, 'learning_rate': 1.9349277777138188e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1036.89, 'total_tokens': 376831148, 'epoch': 2.74}
+ 91%|█████████▏| 1372/1500 [12:35:52<1:10:16, 32.94s/it] 92%|█████████▏| 1373/1500 [12:36:23<1:08:22, 32.31s/it]                                                        {'loss': 0.1179, 'grad_norm': 0.3026008903980255, 'learning_rate': 1.905236424022633e-07, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1276.26, 'total_tokens': 377107313, 'epoch': 2.75}
+ 92%|█████████▏| 1373/1500 [12:36:23<1:08:22, 32.31s/it] 92%|█████████▏| 1374/1500 [12:36:56<1:08:12, 32.48s/it]                                                        {'loss': 0.1145, 'grad_norm': 0.3139360547065735, 'learning_rate': 1.875770216280548e-07, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 826.84, 'total_tokens': 377354930, 'epoch': 2.75}
+ 92%|█████████▏| 1374/1500 [12:36:56<1:08:12, 32.48s/it] 92%|█████████▏| 1375/1500 [12:37:30<1:08:14, 32.76s/it]                                                        {'loss': 0.1215, 'grad_norm': 0.30356401205062866, 'learning_rate': 1.8465292924276844e-07, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1101.73, 'total_tokens': 377613135, 'epoch': 2.75}
+ 92%|█████████▏| 1375/1500 [12:37:30<1:08:14, 32.76s/it] 92%|█████████▏| 1376/1500 [12:38:04<1:08:37, 33.20s/it]                                                        {'loss': 0.1189, 'grad_norm': 0.2851865291595459, 'learning_rate': 1.8175137893495398e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 890.45, 'total_tokens': 377892921, 'epoch': 2.75}
+ 92%|█████████▏| 1376/1500 [12:38:04<1:08:37, 33.20s/it] 92%|█████████▏| 1377/1500 [12:38:38<1:08:47, 33.55s/it]                                                        {'loss': 0.1169, 'grad_norm': 0.31105026602745056, 'learning_rate': 1.7887238428763553e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 821.52, 'total_tokens': 378165178, 'epoch': 2.75}
+ 92%|█████████▏| 1377/1500 [12:38:38<1:08:47, 33.55s/it] 92%|█████████▏| 1378/1500 [12:39:11<1:07:37, 33.26s/it]                                                        {'loss': 0.1168, 'grad_norm': 0.29746171832084656, 'learning_rate': 1.7601595877824507e-07, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 915.04, 'total_tokens': 378437310, 'epoch': 2.76}
+ 92%|█████████▏| 1378/1500 [12:39:11<1:07:37, 33.26s/it] 92%|█████████▏| 1379/1500 [12:39:45<1:07:39, 33.55s/it]                                                        {'loss': 0.1191, 'grad_norm': 0.2849001884460449, 'learning_rate': 1.731821157785646e-07, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1176.27, 'total_tokens': 378741013, 'epoch': 2.76}
+ 92%|█████████▏| 1379/1500 [12:39:45<1:07:39, 33.55s/it] 92%|█████████▏| 1380/1500 [12:40:16<1:05:36, 32.80s/it]                                                        {'loss': 0.1087, 'grad_norm': 0.28970983624458313, 'learning_rate': 1.7037086855465902e-07, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 946.16, 'total_tokens': 378984946, 'epoch': 2.76}
+ 92%|█████████▏| 1380/1500 [12:40:16<1:05:36, 32.80s/it] 92%|█████████▏| 1381/1500 [12:40:48<1:04:31, 32.53s/it]                                                        {'loss': 0.1195, 'grad_norm': 0.2974728047847748, 'learning_rate': 1.6758223026681507e-07, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 952.76, 'total_tokens': 379248365, 'epoch': 2.76}
+ 92%|█████████▏| 1381/1500 [12:40:48<1:04:31, 32.53s/it] 92%|█████████▏| 1382/1500 [12:41:21<1:04:32, 32.82s/it]                                                        {'loss': 0.1291, 'grad_norm': 0.29735514521598816, 'learning_rate': 1.6481621396948256e-07, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 870.88, 'total_tokens': 379524375, 'epoch': 2.76}
+ 92%|█████████▏| 1382/1500 [12:41:21<1:04:32, 32.82s/it] 92%|█████████▏| 1383/1500 [12:41:53<1:03:14, 32.43s/it]                                                        {'loss': 0.1191, 'grad_norm': 0.3087506890296936, 'learning_rate': 1.620728326112092e-07, 'memory/max_active (GiB)': 50.68, 'memory/max_allocated (GiB)': 50.68, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 807.29, 'total_tokens': 379778526, 'epoch': 2.77}
+ 92%|█████████▏| 1383/1500 [12:41:53<1:03:14, 32.43s/it] 92%|█████████▏| 1384/1500 [12:42:26<1:03:16, 32.73s/it]                                                        {'loss': 0.1197, 'grad_norm': 0.2866535782814026, 'learning_rate': 1.593520990345826e-07, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1071.78, 'total_tokens': 380052459, 'epoch': 2.77}
+ 92%|█████████▏| 1384/1500 [12:42:26<1:03:16, 32.73s/it] 92%|█████████▏| 1385/1500 [12:42:58<1:02:15, 32.48s/it]                                                        {'loss': 0.1142, 'grad_norm': 0.29723358154296875, 'learning_rate': 1.5665402597616842e-07, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1393.26, 'total_tokens': 380312895, 'epoch': 2.77}
+ 92%|█████████▏| 1385/1500 [12:42:58<1:02:15, 32.48s/it] 92%|█████████▏| 1386/1500 [12:43:30<1:01:25, 32.33s/it]                                                        {'loss': 0.1141, 'grad_norm': 0.28604090213775635, 'learning_rate': 1.539786260664533e-07, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1134.73, 'total_tokens': 380585278, 'epoch': 2.77}
+ 92%|█████████▏| 1386/1500 [12:43:30<1:01:25, 32.33s/it] 92%|█████████▏| 1387/1500 [12:44:04<1:01:37, 32.73s/it]                                                        {'loss': 0.1081, 'grad_norm': 0.2675897479057312, 'learning_rate': 1.5132591182978107e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 991.46, 'total_tokens': 380875613, 'epoch': 2.77}
+ 92%|█████████▏| 1387/1500 [12:44:04<1:01:37, 32.73s/it] 93%|█████████▎| 1388/1500 [12:44:37<1:01:10, 32.77s/it]                                                        {'loss': 0.1115, 'grad_norm': 0.29246291518211365, 'learning_rate': 1.48695895684301e-07, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1142.02, 'total_tokens': 381140691, 'epoch': 2.78}
+ 93%|█████████▎| 1388/1500 [12:44:37<1:01:10, 32.77s/it] 93%|█████████▎| 1389/1500 [12:45:11<1:01:32, 33.27s/it]                                                        {'loss': 0.1189, 'grad_norm': 0.3184444010257721, 'learning_rate': 1.4608858994190344e-07, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1458.12, 'total_tokens': 381444542, 'epoch': 2.78}
+ 93%|█████████▎| 1389/1500 [12:45:11<1:01:32, 33.27s/it] 93%|█████████▎| 1390/1500 [12:45:42<59:38, 32.54s/it]                                                        {'loss': 0.1208, 'grad_norm': 0.31224527955055237, 'learning_rate': 1.4350400680816555e-07, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 972.82, 'total_tokens': 381704106, 'epoch': 2.78}
+ 93%|█████████▎| 1390/1500 [12:45:42<59:38, 32.54s/it] 93%|█████████▎| 1391/1500 [12:46:15<59:07, 32.55s/it]                                                      {'loss': 0.1208, 'grad_norm': 0.30428147315979004, 'learning_rate': 1.4094215838229176e-07, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1027.17, 'total_tokens': 381969371, 'epoch': 2.78}
+ 93%|█████████▎| 1391/1500 [12:46:15<59:07, 32.55s/it] 93%|█████████▎| 1392/1500 [12:46:49<59:24, 33.00s/it]                                                      {'loss': 0.1229, 'grad_norm': 0.28251609206199646, 'learning_rate': 1.3840305665705988e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 873.59, 'total_tokens': 382266441, 'epoch': 2.78}
+ 93%|█████████▎| 1392/1500 [12:46:49<59:24, 33.00s/it] 93%|█████████▎| 1393/1500 [12:47:20<58:07, 32.60s/it]                                                      {'loss': 0.1191, 'grad_norm': 0.32004302740097046, 'learning_rate': 1.358867135187636e-07, 'memory/max_active (GiB)': 50.98, 'memory/max_allocated (GiB)': 50.98, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 885.17, 'total_tokens': 382521608, 'epoch': 2.79}
+ 93%|█████████▎| 1393/1500 [12:47:20<58:07, 32.60s/it] 93%|█████████▎| 1394/1500 [12:47:54<58:22, 33.05s/it]                                                      {'loss': 0.1134, 'grad_norm': 0.28237348794937134, 'learning_rate': 1.3339314074715616e-07, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1266.77, 'total_tokens': 382801918, 'epoch': 2.79}
+ 93%|█████████▎| 1394/1500 [12:47:54<58:22, 33.05s/it] 93%|█████████▎| 1395/1500 [12:48:26<57:15, 32.72s/it]                                                      {'loss': 0.1191, 'grad_norm': 0.3044304847717285, 'learning_rate': 1.309223500153961e-07, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 834.16, 'total_tokens': 383079855, 'epoch': 2.79}
+ 93%|█████████▎| 1395/1500 [12:48:26<57:15, 32.72s/it] 93%|█████████▎| 1396/1500 [12:48:58<56:14, 32.45s/it]                                                      {'loss': 0.1209, 'grad_norm': 0.30118098855018616, 'learning_rate': 1.28474352889994e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1119.89, 'total_tokens': 383351885, 'epoch': 2.79}
+ 93%|█████████▎| 1396/1500 [12:48:58<56:14, 32.45s/it] 93%|█████████▎| 1397/1500 [12:49:32<56:38, 33.00s/it]                                                      {'loss': 0.1168, 'grad_norm': 0.29967135190963745, 'learning_rate': 1.2604916083075236e-07, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 999.2, 'total_tokens': 383633731, 'epoch': 2.79}
+ 93%|█████████▎| 1397/1500 [12:49:32<56:38, 33.00s/it] 93%|█████████▎| 1398/1500 [12:50:02<54:17, 31.94s/it]                                                      {'loss': 0.1142, 'grad_norm': 0.2961941361427307, 'learning_rate': 1.2364678519072247e-07, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1200.09, 'total_tokens': 383885530, 'epoch': 2.8}
+ 93%|█████████▎| 1398/1500 [12:50:02<54:17, 31.94s/it] 93%|█████████▎| 1399/1500 [12:50:35<54:23, 32.31s/it]                                                      {'loss': 0.1206, 'grad_norm': 0.29889726638793945, 'learning_rate': 1.2126723721614053e-07, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1020.43, 'total_tokens': 384152509, 'epoch': 2.8}
+ 93%|█████████▎| 1399/1500 [12:50:35<54:23, 32.31s/it] 93%|█████████▎| 1400/1500 [12:51:08<53:58, 32.39s/it]                                                      {'loss': 0.1215, 'grad_norm': 0.2836602032184601, 'learning_rate': 1.1891052804638204e-07, 'memory/max_active (GiB)': 51.3, 'memory/max_allocated (GiB)': 51.3, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 915.81, 'total_tokens': 384426706, 'epoch': 2.8}
+ 93%|█████████▎| 1400/1500 [12:51:08<53:58, 32.39s/it] 93%|█████████▎| 1401/1500 [12:51:40<53:22, 32.35s/it]                                                      {'loss': 0.1155, 'grad_norm': 0.2964267432689667, 'learning_rate': 1.1657666871390471e-07, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1050.95, 'total_tokens': 384684905, 'epoch': 2.8}
+ 93%|█████████▎| 1401/1500 [12:51:40<53:22, 32.35s/it] 93%|█████████▎| 1402/1500 [12:52:13<53:09, 32.55s/it]                                                      {'loss': 0.1194, 'grad_norm': 0.29420819878578186, 'learning_rate': 1.1426567014420297e-07, 'memory/max_active (GiB)': 51.76, 'memory/max_allocated (GiB)': 51.76, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1129.67, 'total_tokens': 384973521, 'epoch': 2.8}
+ 93%|█████████▎| 1402/1500 [12:52:13<53:09, 32.55s/it] 94%|█████████▎| 1403/1500 [12:52:46<52:57, 32.76s/it]                                                      {'loss': 0.123, 'grad_norm': 0.28778332471847534, 'learning_rate': 1.119775431557485e-07, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1101.19, 'total_tokens': 385262872, 'epoch': 2.81}
+ 94%|█████████▎| 1403/1500 [12:52:46<52:57, 32.76s/it] 94%|█████████▎| 1404/1500 [12:53:19<52:36, 32.88s/it]                                                      {'loss': 0.1157, 'grad_norm': 0.2916966676712036, 'learning_rate': 1.0971229845995024e-07, 'memory/max_active (GiB)': 51.3, 'memory/max_allocated (GiB)': 51.3, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1024.5, 'total_tokens': 385545761, 'epoch': 2.81}
+ 94%|█████████▎| 1404/1500 [12:53:19<52:36, 32.88s/it] 94%|█████████▎| 1405/1500 [12:53:52<52:07, 32.92s/it]                                                      {'loss': 0.1106, 'grad_norm': 0.260680615901947, 'learning_rate': 1.0746994666109234e-07, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1197.03, 'total_tokens': 385842532, 'epoch': 2.81}
+ 94%|█████████▎| 1405/1500 [12:53:52<52:07, 32.92s/it] 94%|█████████▎| 1406/1500 [12:54:26<51:59, 33.19s/it]                                                      {'loss': 0.1216, 'grad_norm': 0.3105221092700958, 'learning_rate': 1.0525049825629463e-07, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 653.94, 'total_tokens': 386102741, 'epoch': 2.81}
+ 94%|█████████▎| 1406/1500 [12:54:26<51:59, 33.19s/it] 94%|█████████▍| 1407/1500 [12:54:59<51:12, 33.03s/it]                                                      {'loss': 0.119, 'grad_norm': 0.29690882563591003, 'learning_rate': 1.0305396363545717e-07, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1375.75, 'total_tokens': 386383413, 'epoch': 2.81}
+ 94%|█████████▍| 1407/1500 [12:54:59<51:12, 33.03s/it] 94%|█████████▍| 1408/1500 [12:55:29<49:25, 32.24s/it]                                                      {'loss': 0.1153, 'grad_norm': 0.294253408908844, 'learning_rate': 1.0088035308121414e-07, 'memory/max_active (GiB)': 52.57, 'memory/max_allocated (GiB)': 52.57, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1170.67, 'total_tokens': 386639893, 'epoch': 2.82}
+ 94%|█████████▍| 1408/1500 [12:55:29<49:25, 32.24s/it] 94%|█████████▍| 1409/1500 [12:56:00<48:27, 31.95s/it]                                                      {'loss': 0.1161, 'grad_norm': 0.29232117533683777, 'learning_rate': 9.872967676888611e-08, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 926.92, 'total_tokens': 386898295, 'epoch': 2.82}
+ 94%|█████████▍| 1409/1500 [12:56:00<48:27, 31.95s/it] 94%|█████████▍| 1410/1500 [12:56:34<48:41, 32.46s/it]                                                      {'loss': 0.1288, 'grad_norm': 0.32035475969314575, 'learning_rate': 9.660194476643181e-08, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1093.03, 'total_tokens': 387170258, 'epoch': 2.82}
+ 94%|█████████▍| 1410/1500 [12:56:34<48:41, 32.46s/it] 94%|█████████▍| 1411/1500 [12:57:07<48:13, 32.51s/it]                                                      {'loss': 0.1196, 'grad_norm': 0.28035885095596313, 'learning_rate': 9.449716703439805e-08, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1353.43, 'total_tokens': 387459189, 'epoch': 2.82}
+ 94%|█████████▍| 1411/1500 [12:57:07<48:13, 32.51s/it] 94%|█████████▍| 1412/1500 [12:57:39<47:27, 32.36s/it]                                                      {'loss': 0.1186, 'grad_norm': 0.29341259598731995, 'learning_rate': 9.241535342587982e-08, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1210.37, 'total_tokens': 387738215, 'epoch': 2.82}
+ 94%|█████████▍| 1412/1500 [12:57:39<47:27, 32.36s/it] 94%|█████████▍| 1413/1500 [12:58:11<46:47, 32.27s/it]                                                      {'loss': 0.1218, 'grad_norm': 0.2992350161075592, 'learning_rate': 9.035651368646647e-08, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1011.74, 'total_tokens': 387997281, 'epoch': 2.83}
+ 94%|█████████▍| 1413/1500 [12:58:11<46:47, 32.27s/it] 94%|█████████▍| 1414/1500 [12:58:43<46:07, 32.18s/it]                                                      {'loss': 0.1284, 'grad_norm': 0.33613818883895874, 'learning_rate': 8.832065745420338e-08, 'memory/max_active (GiB)': 51.3, 'memory/max_allocated (GiB)': 51.3, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 854.62, 'total_tokens': 388243853, 'epoch': 2.83}
+ 94%|█████████▍| 1414/1500 [12:58:43<46:07, 32.18s/it] 94%|█████████▍| 1415/1500 [12:59:16<45:51, 32.37s/it]                                                      {'loss': 0.1231, 'grad_norm': 0.3199555575847626, 'learning_rate': 8.630779425954028e-08, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 954.12, 'total_tokens': 388496962, 'epoch': 2.83}
+ 94%|█████████▍| 1415/1500 [12:59:16<45:51, 32.37s/it] 94%|█████████▍| 1416/1500 [12:59:48<45:13, 32.31s/it]                                                      {'loss': 0.1212, 'grad_norm': 0.2933356463909149, 'learning_rate': 8.431793352529138e-08, 'memory/max_active (GiB)': 52.99, 'memory/max_allocated (GiB)': 52.99, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1050.08, 'total_tokens': 388770156, 'epoch': 2.83}
+ 94%|█████████▍| 1416/1500 [12:59:48<45:13, 32.31s/it] 94%|█████████▍| 1417/1500 [13:00:21<44:56, 32.49s/it]                                                      {'loss': 0.1178, 'grad_norm': 0.2887100577354431, 'learning_rate': 8.235108456658814e-08, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 924.15, 'total_tokens': 389044606, 'epoch': 2.83}
+ 94%|█████████▍| 1417/1500 [13:00:21<44:56, 32.49s/it] 95%|█████████▍| 1418/1500 [13:00:52<43:47, 32.04s/it]                                                      {'loss': 0.1111, 'grad_norm': 0.2967391312122345, 'learning_rate': 8.04072565908387e-08, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1011.72, 'total_tokens': 389295317, 'epoch': 2.84}
+ 95%|█████████▍| 1418/1500 [13:00:52<43:47, 32.04s/it] 95%|█████████▍| 1419/1500 [13:01:24<43:27, 32.20s/it]                                                      {'loss': 0.1214, 'grad_norm': 0.3045584559440613, 'learning_rate': 7.84864586976819e-08, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1000.93, 'total_tokens': 389579844, 'epoch': 2.84}
+ 95%|█████████▍| 1419/1500 [13:01:24<43:27, 32.20s/it] 95%|█████████▍| 1420/1500 [13:01:58<43:28, 32.60s/it]                                                      {'loss': 0.1193, 'grad_norm': 0.3152739405632019, 'learning_rate': 7.658869987894612e-08, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1303.61, 'total_tokens': 389847269, 'epoch': 2.84}
+ 95%|█████████▍| 1420/1500 [13:01:58<43:28, 32.60s/it] 95%|█████████▍| 1421/1500 [13:02:29<42:27, 32.25s/it]                                                      {'loss': 0.1224, 'grad_norm': 0.3108312487602234, 'learning_rate': 7.471398901860772e-08, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 992.76, 'total_tokens': 390104197, 'epoch': 2.84}
+ 95%|█████████▍| 1421/1500 [13:02:29<42:27, 32.25s/it] 95%|█████████▍| 1422/1500 [13:03:02<41:56, 32.26s/it]                                                      {'loss': 0.1198, 'grad_norm': 0.36469942331314087, 'learning_rate': 7.286233489274652e-08, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1024.13, 'total_tokens': 390379330, 'epoch': 2.84}
+ 95%|█████████▍| 1422/1500 [13:03:02<41:56, 32.26s/it] 95%|█████████▍| 1423/1500 [13:03:34<41:35, 32.40s/it]                                                      {'loss': 0.1164, 'grad_norm': 0.2839180529117584, 'learning_rate': 7.103374616951042e-08, 'memory/max_active (GiB)': 52.48, 'memory/max_allocated (GiB)': 52.48, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1175.95, 'total_tokens': 390669047, 'epoch': 2.85}
+ 95%|█████████▍| 1423/1500 [13:03:34<41:35, 32.40s/it] 95%|█████████▍| 1424/1500 [13:04:07<41:18, 32.61s/it]                                                      {'loss': 0.1311, 'grad_norm': 0.305601567029953, 'learning_rate': 6.922823140906754e-08, 'memory/max_active (GiB)': 51.3, 'memory/max_allocated (GiB)': 51.3, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1096.91, 'total_tokens': 390943693, 'epoch': 2.85}
+ 95%|█████████▍| 1424/1500 [13:04:07<41:18, 32.61s/it] 95%|█████████▌| 1425/1500 [13:04:41<41:19, 33.06s/it]                                                      {'loss': 0.1191, 'grad_norm': 0.29715457558631897, 'learning_rate': 6.744579906357185e-08, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1180.88, 'total_tokens': 391205358, 'epoch': 2.85}
+ 95%|█████████▌| 1425/1500 [13:04:41<41:19, 33.06s/it] 95%|█████████▌| 1426/1500 [13:05:15<40:56, 33.20s/it]                                                      {'loss': 0.1145, 'grad_norm': 0.2745673954486847, 'learning_rate': 6.56864574771221e-08, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 948.41, 'total_tokens': 391500640, 'epoch': 2.85}
+ 95%|█████████▌| 1426/1500 [13:05:15<40:56, 33.20s/it] 95%|█████████▌| 1427/1500 [13:05:49<40:41, 33.45s/it]                                                      {'loss': 0.1187, 'grad_norm': 0.27462413907051086, 'learning_rate': 6.395021488572128e-08, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 874.18, 'total_tokens': 391830315, 'epoch': 2.85}
+ 95%|█████████▌| 1427/1500 [13:05:49<40:41, 33.45s/it] 95%|█████████▌| 1428/1500 [13:06:23<40:13, 33.52s/it]                                                      {'loss': 0.1199, 'grad_norm': 0.2984795570373535, 'learning_rate': 6.223707941723889e-08, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 949.82, 'total_tokens': 392104293, 'epoch': 2.86}
+ 95%|█████████▌| 1428/1500 [13:06:23<40:13, 33.52s/it] 95%|█████████▌| 1429/1500 [13:06:56<39:25, 33.32s/it]                                                      {'loss': 0.1151, 'grad_norm': 0.30706965923309326, 'learning_rate': 6.054705909137426e-08, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 923.52, 'total_tokens': 392363528, 'epoch': 2.86}
+ 95%|█████████▌| 1429/1500 [13:06:56<39:25, 33.32s/it] 95%|█████████▌| 1430/1500 [13:07:28<38:35, 33.08s/it]                                                      {'loss': 0.1152, 'grad_norm': 0.2958723306655884, 'learning_rate': 5.88801618196172e-08, 'memory/max_active (GiB)': 52.48, 'memory/max_allocated (GiB)': 52.48, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1010.89, 'total_tokens': 392636121, 'epoch': 2.86}
+ 95%|█████████▌| 1430/1500 [13:07:28<38:35, 33.08s/it] 95%|█████████▌| 1431/1500 [13:08:00<37:48, 32.87s/it]                                                      {'loss': 0.1229, 'grad_norm': 0.28950852155685425, 'learning_rate': 5.723639540521131e-08, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1187.81, 'total_tokens': 392913536, 'epoch': 2.86}
+ 95%|█████████▌| 1431/1500 [13:08:00<37:48, 32.87s/it] 95%|█████████▌| 1432/1500 [13:08:33<37:11, 32.81s/it]                                                      {'loss': 0.118, 'grad_norm': 0.29006829857826233, 'learning_rate': 5.561576754311737e-08, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 844.92, 'total_tokens': 393190842, 'epoch': 2.86}
+ 95%|█████████▌| 1432/1500 [13:08:33<37:11, 32.81s/it] 96%|█████████▌| 1433/1500 [13:09:07<36:51, 33.01s/it]                                                      {'loss': 0.1215, 'grad_norm': 0.30347731709480286, 'learning_rate': 5.401828581997948e-08, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1120.06, 'total_tokens': 393487879, 'epoch': 2.87}
+ 96%|█████████▌| 1433/1500 [13:09:07<36:51, 33.01s/it] 96%|█████████▌| 1434/1500 [13:09:39<36:12, 32.92s/it]                                                      {'loss': 0.1205, 'grad_norm': 0.30574747920036316, 'learning_rate': 5.244395771408561e-08, 'memory/max_active (GiB)': 50.87, 'memory/max_allocated (GiB)': 50.87, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 762.85, 'total_tokens': 393749091, 'epoch': 2.87}
+ 96%|█████████▌| 1434/1500 [13:09:39<36:12, 32.92s/it] 96%|█████████▌| 1435/1500 [13:10:11<35:25, 32.69s/it]                                                      {'loss': 0.1171, 'grad_norm': 0.29952767491340637, 'learning_rate': 5.089279059533658e-08, 'memory/max_active (GiB)': 52.44, 'memory/max_allocated (GiB)': 52.44, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 887.24, 'total_tokens': 394015198, 'epoch': 2.87}
+ 96%|█████████▌| 1435/1500 [13:10:11<35:25, 32.69s/it] 96%|█████████▌| 1436/1500 [13:10:46<35:19, 33.12s/it]                                                      {'loss': 0.1199, 'grad_norm': 0.2873155176639557, 'learning_rate': 4.9364791725207694e-08, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1414.86, 'total_tokens': 394305754, 'epoch': 2.87}
+ 96%|█████████▌| 1436/1500 [13:10:46<35:19, 33.12s/it] 96%|█████████▌| 1437/1500 [13:11:18<34:41, 33.04s/it]                                                      {'loss': 0.1173, 'grad_norm': 0.2747816741466522, 'learning_rate': 4.7859968256719344e-08, 'memory/max_active (GiB)': 52.8, 'memory/max_allocated (GiB)': 52.8, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1360.87, 'total_tokens': 394601186, 'epoch': 2.87}
+ 96%|█████████▌| 1437/1500 [13:11:18<34:41, 33.04s/it] 96%|█████████▌| 1438/1500 [13:11:50<33:47, 32.69s/it]                                                      {'loss': 0.1224, 'grad_norm': 0.3054858148097992, 'learning_rate': 4.6378327234398165e-08, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1278.54, 'total_tokens': 394871853, 'epoch': 2.88}
+ 96%|█████████▌| 1438/1500 [13:11:50<33:47, 32.69s/it] 96%|█████████▌| 1439/1500 [13:12:24<33:26, 32.89s/it]                                                      {'loss': 0.1226, 'grad_norm': 0.3120533227920532, 'learning_rate': 4.491987559424926e-08, 'memory/max_active (GiB)': 51.01, 'memory/max_allocated (GiB)': 51.01, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 933.54, 'total_tokens': 395143146, 'epoch': 2.88}
+ 96%|█████████▌| 1439/1500 [13:12:24<33:26, 32.89s/it] 96%|█████████▌| 1440/1500 [13:12:56<32:45, 32.76s/it]                                                      {'loss': 0.1192, 'grad_norm': 0.2911975085735321, 'learning_rate': 4.3484620163719015e-08, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1158.05, 'total_tokens': 395403017, 'epoch': 2.88}
+ 96%|█████████▌| 1440/1500 [13:12:56<32:45, 32.76s/it] 96%|█████████▌| 1441/1500 [13:13:30<32:27, 33.00s/it]                                                      {'loss': 0.1224, 'grad_norm': 0.29662516713142395, 'learning_rate': 4.207256766166845e-08, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 972.9, 'total_tokens': 395673519, 'epoch': 2.88}
+ 96%|█████████▌| 1441/1500 [13:13:30<32:27, 33.00s/it] 96%|█████████▌| 1442/1500 [13:14:01<31:30, 32.60s/it]                                                      {'loss': 0.1202, 'grad_norm': 0.3108697533607483, 'learning_rate': 4.068372469833548e-08, 'memory/max_active (GiB)': 51.76, 'memory/max_allocated (GiB)': 51.76, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1087.59, 'total_tokens': 395929723, 'epoch': 2.88}
+ 96%|█████████▌| 1442/1500 [13:14:01<31:30, 32.60s/it] 96%|█████████▌| 1443/1500 [13:14:35<31:09, 32.80s/it]                                                      {'loss': 0.1147, 'grad_norm': 0.2881840169429779, 'learning_rate': 3.931809777530937e-08, 'memory/max_active (GiB)': 51.98, 'memory/max_allocated (GiB)': 51.98, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 999.16, 'total_tokens': 396202086, 'epoch': 2.89}
+ 96%|█████████▌| 1443/1500 [13:14:35<31:09, 32.80s/it] 96%|█████████▋| 1444/1500 [13:15:07<30:27, 32.63s/it]                                                      {'loss': 0.1209, 'grad_norm': 0.30313050746917725, 'learning_rate': 3.797569328549688e-08, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1054.15, 'total_tokens': 396464765, 'epoch': 2.89}
+ 96%|█████████▋| 1444/1500 [13:15:07<30:27, 32.63s/it] 96%|█████████▋| 1445/1500 [13:15:40<30:05, 32.83s/it]                                                      {'loss': 0.1231, 'grad_norm': 0.28172966837882996, 'learning_rate': 3.665651751309451e-08, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 951.31, 'total_tokens': 396766229, 'epoch': 2.89}
+ 96%|█████████▋| 1445/1500 [13:15:40<30:05, 32.83s/it] 96%|█████████▋| 1446/1500 [13:16:13<29:35, 32.89s/it]                                                      {'loss': 0.1165, 'grad_norm': 0.30211660265922546, 'learning_rate': 3.536057663355852e-08, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 874.01, 'total_tokens': 397047001, 'epoch': 2.89}
+ 96%|█████████▋| 1446/1500 [13:16:13<29:35, 32.89s/it] 96%|█████████▋| 1447/1500 [13:16:46<28:56, 32.76s/it]                                                      {'loss': 0.1148, 'grad_norm': 0.28597190976142883, 'learning_rate': 3.408787671357494e-08, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1046.82, 'total_tokens': 397320673, 'epoch': 2.89}
+ 96%|█████████▋| 1447/1500 [13:16:46<28:56, 32.76s/it] 97%|█████████▋| 1448/1500 [13:17:18<28:24, 32.78s/it]                                                      {'loss': 0.1179, 'grad_norm': 0.30567020177841187, 'learning_rate': 3.2838423711031853e-08, 'memory/max_active (GiB)': 51.7, 'memory/max_allocated (GiB)': 51.7, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 976.53, 'total_tokens': 397570821, 'epoch': 2.9}
+ 97%|█████████▋| 1448/1500 [13:17:18<28:24, 32.78s/it] 97%|█████████▋| 1449/1500 [13:17:51<27:53, 32.82s/it]                                                      {'loss': 0.116, 'grad_norm': 0.27971622347831726, 'learning_rate': 3.16122234749916e-08, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1162.61, 'total_tokens': 397850775, 'epoch': 2.9}
+ 97%|█████████▋| 1449/1500 [13:17:51<27:53, 32.82s/it] 97%|█████████▋| 1450/1500 [13:18:24<27:23, 32.87s/it]                                                      {'loss': 0.1181, 'grad_norm': 0.2832656502723694, 'learning_rate': 3.040928174566415e-08, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1172.65, 'total_tokens': 398138553, 'epoch': 2.9}
+ 97%|█████████▋| 1450/1500 [13:18:24<27:23, 32.87s/it] 97%|█████████▋| 1451/1500 [13:18:58<27:03, 33.14s/it]                                                      {'loss': 0.1243, 'grad_norm': 0.30662545561790466, 'learning_rate': 2.9229604154378253e-08, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 849.51, 'total_tokens': 398386159, 'epoch': 2.9}
+ 97%|█████████▋| 1451/1500 [13:18:58<27:03, 33.14s/it] 97%|███��█████▋| 1452/1500 [13:19:32<26:43, 33.41s/it]                                                      {'loss': 0.1186, 'grad_norm': 0.2991447448730469, 'learning_rate': 2.8073196223558086e-08, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1092.57, 'total_tokens': 398659777, 'epoch': 2.9}
+ 97%|█████████▋| 1452/1500 [13:19:32<26:43, 33.41s/it] 97%|█████████▋| 1453/1500 [13:20:06<26:10, 33.42s/it]                                                      {'loss': 0.1201, 'grad_norm': 0.2759627401828766, 'learning_rate': 2.6940063366693303e-08, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1188.27, 'total_tokens': 398959719, 'epoch': 2.91}
+ 97%|█████████▋| 1453/1500 [13:20:06<26:10, 33.42s/it] 97%|█████████▋| 1454/1500 [13:20:39<25:42, 33.52s/it]                                                      {'loss': 0.1288, 'grad_norm': 0.3018936812877655, 'learning_rate': 2.5830210888317943e-08, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1209.2, 'total_tokens': 399260452, 'epoch': 2.91}
+ 97%|█████████▋| 1454/1500 [13:20:39<25:42, 33.52s/it] 97%|█████████▋| 1455/1500 [13:21:11<24:49, 33.09s/it]                                                      {'loss': 0.1203, 'grad_norm': 0.30165791511535645, 'learning_rate': 2.4743643983982103e-08, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1234.22, 'total_tokens': 399528511, 'epoch': 2.91}
+ 97%|█████████▋| 1455/1500 [13:21:11<24:49, 33.09s/it] 97%|█████████▋| 1456/1500 [13:21:43<23:55, 32.62s/it]                                                      {'loss': 0.1158, 'grad_norm': 0.3092027008533478, 'learning_rate': 2.368036774023086e-08, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1155.51, 'total_tokens': 399777307, 'epoch': 2.91}
+ 97%|█████████▋| 1456/1500 [13:21:43<23:55, 32.62s/it] 97%|█████████▋| 1457/1500 [13:22:15<23:14, 32.43s/it]                                                      {'loss': 0.1143, 'grad_norm': 0.33257073163986206, 'learning_rate': 2.264038713457706e-08, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1046.63, 'total_tokens': 400026933, 'epoch': 2.91}
+ 97%|█████████▋| 1457/1500 [13:22:15<23:14, 32.43s/it] 97%|█████████▋| 1458/1500 [13:22:47<22:38, 32.35s/it]                                                      {'loss': 0.1233, 'grad_norm': 0.29486751556396484, 'learning_rate': 2.162370703548078e-08, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1181.94, 'total_tokens': 400309296, 'epoch': 2.92}
+ 97%|█████████▋| 1458/1500 [13:22:47<22:38, 32.35s/it] 97%|█████████▋| 1459/1500 [13:23:21<22:28, 32.89s/it]                                                      {'loss': 0.1175, 'grad_norm': 0.28559672832489014, 'learning_rate': 2.063033220232491e-08, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 866.55, 'total_tokens': 400596008, 'epoch': 2.92}
+ 97%|█████████▋| 1459/1500 [13:23:21<22:28, 32.89s/it] 97%|█████████▋| 1460/1500 [13:23:53<21:35, 32.39s/it]                                                      {'loss': 0.1218, 'grad_norm': 0.2989257574081421, 'learning_rate': 1.966026728539405e-08, 'memory/max_active (GiB)': 52.34, 'memory/max_allocated (GiB)': 52.34, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1020.7, 'total_tokens': 400858019, 'epoch': 2.92}
+ 97%|█████████▋| 1460/1500 [13:23:53<21:35, 32.39s/it] 97%|█████████▋| 1461/1500 [13:24:25<21:03, 32.40s/it]                                                      {'loss': 0.1233, 'grad_norm': 0.29875385761260986, 'learning_rate': 1.8713516825851207e-08, 'memory/max_active (GiB)': 51.98, 'memory/max_allocated (GiB)': 51.98, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 973.92, 'total_tokens': 401129110, 'epoch': 2.92}
+ 97%|█████████▋| 1461/1500 [13:24:25<21:03, 32.40s/it] 97%|█████████▋| 1462/1500 [13:24:58<20:38, 32.58s/it]                                                      {'loss': 0.1213, 'grad_norm': 0.29223760962486267, 'learning_rate': 1.7790085255717794e-08, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 999.6, 'total_tokens': 401406626, 'epoch': 2.92}
+ 97%|█████████▋| 1462/1500 [13:24:58<20:38, 32.58s/it] 98%|█████████▊| 1463/1500 [13:25:32<20:26, 33.16s/it]                                                      {'loss': 0.1231, 'grad_norm': 0.29212504625320435, 'learning_rate': 1.6889976897853654e-08, 'memory/max_active (GiB)': 51.56, 'memory/max_allocated (GiB)': 51.56, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1134.11, 'total_tokens': 401685274, 'epoch': 2.93}
+ 98%|█████████▊| 1463/1500 [13:25:32<20:26, 33.16s/it] 98%|█████████▊| 1464/1500 [13:26:05<19:49, 33.05s/it]                                                      {'loss': 0.1234, 'grad_norm': 0.28533709049224854, 'learning_rate': 1.6013195965934868e-08, 'memory/max_active (GiB)': 50.98, 'memory/max_allocated (GiB)': 50.98, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 768.74, 'total_tokens': 401980976, 'epoch': 2.93}
+ 98%|█████████▊| 1464/1500 [13:26:05<19:49, 33.05s/it] 98%|█████████▊| 1465/1500 [13:26:38<19:12, 32.94s/it]                                                      {'loss': 0.1201, 'grad_norm': 0.30628958344459534, 'learning_rate': 1.51597465644332e-08, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1043.27, 'total_tokens': 402249964, 'epoch': 2.93}
+ 98%|█████████▊| 1465/1500 [13:26:38<19:12, 32.94s/it] 98%|█████████▊| 1466/1500 [13:27:09<18:22, 32.42s/it]                                                      {'loss': 0.1138, 'grad_norm': 0.29067614674568176, 'learning_rate': 1.4329632688601658e-08, 'memory/max_active (GiB)': 51.76, 'memory/max_allocated (GiB)': 51.76, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1204.17, 'total_tokens': 402515968, 'epoch': 2.93}
+ 98%|█████████▊| 1466/1500 [13:27:09<18:22, 32.42s/it] 98%|█████████▊| 1467/1500 [13:27:41<17:49, 32.40s/it]                                                      {'loss': 0.1183, 'grad_norm': 0.36113443970680237, 'learning_rate': 1.3522858224450652e-08, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1203.49, 'total_tokens': 402778399, 'epoch': 2.93}
+ 98%|█████████▊| 1467/1500 [13:27:41<17:49, 32.40s/it] 98%|█████████▊| 1468/1500 [13:28:15<17:25, 32.67s/it]                                                      {'loss': 0.1173, 'grad_norm': 0.29139548540115356, 'learning_rate': 1.2739426948732426e-08, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 898.45, 'total_tokens': 403052448, 'epoch': 2.94}
+ 98%|█████████▊| 1468/1500 [13:28:15<17:25, 32.67s/it] 98%|█████████▊| 1469/1500 [13:28:48<16:54, 32.72s/it]                                                      {'loss': 0.1227, 'grad_norm': 0.29456284642219543, 'learning_rate': 1.1979342528922189e-08, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1023.98, 'total_tokens': 403331051, 'epoch': 2.94}
+ 98%|█████████▊| 1469/1500 [13:28:48<16:54, 32.72s/it] 98%|█████████▊| 1470/1500 [13:29:21<16:28, 32.95s/it]                                                      {'loss': 0.1133, 'grad_norm': 0.27447542548179626, 'learning_rate': 1.1242608523203135e-08, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 952.95, 'total_tokens': 403610747, 'epoch': 2.94}
+ 98%|█████████▊| 1470/1500 [13:29:21<16:28, 32.95s/it] 98%|█████████▊| 1471/1500 [13:29:54<15:58, 33.04s/it]                                                      {'loss': 0.119, 'grad_norm': 0.32097750902175903, 'learning_rate': 1.05292283804459e-08, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 934.96, 'total_tokens': 403886144, 'epoch': 2.94}
+ 98%|█████████▊| 1471/1500 [13:29:54<15:58, 33.04s/it] 98%|█████████▊| 1472/1500 [13:30:27<15:17, 32.78s/it]                                                      {'loss': 0.1172, 'grad_norm': 0.29624229669570923, 'learning_rate': 9.839205440196897e-09, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1236.81, 'total_tokens': 404171653, 'epoch': 2.94}
+ 98%|█████████▊| 1472/1500 [13:30:27<15:17, 32.78s/it] 98%|█████████▊| 1473/1500 [13:31:01<14:57, 33.26s/it]                                                      {'loss': 0.1109, 'grad_norm': 0.2856115698814392, 'learning_rate': 9.1725429326589e-09, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1165.62, 'total_tokens': 404438366, 'epoch': 2.95}
+ 98%|█████████▊| 1473/1500 [13:31:01<14:57, 33.26s/it] 98%|█████████▊| 1474/1500 [13:31:33<14:14, 32.85s/it]                                                      {'loss': 0.1177, 'grad_norm': 0.2883322238922119, 'learning_rate': 8.52924397867827e-09, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1109.57, 'total_tokens': 404708627, 'epoch': 2.95}
+ 98%|█████████▊| 1474/1500 [13:31:33<14:14, 32.85s/it] 98%|█████████▊| 1475/1500 [13:32:06<13:43, 32.95s/it]                                                      {'loss': 0.1188, 'grad_norm': 0.28773581981658936, 'learning_rate': 7.909311589729962e-09, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1032.74, 'total_tokens': 404993518, 'epoch': 2.95}
+ 98%|█████████▊| 1475/1500 [13:32:06<13:43, 32.95s/it] 98%|█████████▊| 1476/1500 [13:32:40<13:17, 33.22s/it]                                                      {'loss': 0.1162, 'grad_norm': 0.30127134919166565, 'learning_rate': 7.3127486679025476e-09, 'memory/max_active (GiB)': 50.55, 'memory/max_allocated (GiB)': 50.55, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 792.17, 'total_tokens': 405251124, 'epoch': 2.95}
+ 98%|█████████▊| 1476/1500 [13:32:40<13:17, 33.22s/it] 98%|█████████▊| 1477/1500 [13:33:15<12:54, 33.66s/it]                                                      {'loss': 0.1129, 'grad_norm': 0.29493844509124756, 'learning_rate': 6.739558005884883e-09, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 748.24, 'total_tokens': 405535206, 'epoch': 2.95}
+ 98%|█████████▊| 1477/1500 [13:33:15<12:54, 33.66s/it] 99%|█████████▊| 1478/1500 [13:33:49<12:23, 33.79s/it]                                                      {'loss': 0.1178, 'grad_norm': 0.2828022837638855, 'learning_rate': 6.1897422869533485e-09, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 960.62, 'total_tokens': 405834866, 'epoch': 2.96}
+ 99%|█████████▊| 1478/1500 [13:33:49<12:23, 33.79s/it] 99%|█████████▊| 1479/1500 [13:34:22<11:48, 33.74s/it]                                                      {'loss': 0.1173, 'grad_norm': 0.2876116931438446, 'learning_rate': 5.6633040849601865e-09, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1276.01, 'total_tokens': 406119096, 'epoch': 2.96}
+ 99%|█████████▊| 1479/1500 [13:34:22<11:48, 33.74s/it] 99%|█████████▊| 1480/1500 [13:34:54<11:05, 33.26s/it]                                                      {'loss': 0.1167, 'grad_norm': 0.3051460087299347, 'learning_rate': 5.160245864319069e-09, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1099.65, 'total_tokens': 406368364, 'epoch': 2.96}
+ 99%|█████████▊| 1480/1500 [13:34:54<11:05, 33.26s/it] 99%|█████████▊| 1481/1500 [13:35:26<10:25, 32.90s/it]                                                      {'loss': 0.1181, 'grad_norm': 0.2926329970359802, 'learning_rate': 4.6805699799967744e-09, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 870.27, 'total_tokens': 406639008, 'epoch': 2.96}
+ 99%|█████████▊| 1481/1500 [13:35:26<10:25, 32.90s/it] 99%|█████████▉| 1482/1500 [13:36:00<09:53, 32.98s/it]                                                      {'loss': 0.1151, 'grad_norm': 0.28387391567230225, 'learning_rate': 4.224278677498195e-09, 'memory/max_active (GiB)': 52.02, 'memory/max_allocated (GiB)': 52.02, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 994.74, 'total_tokens': 406920409, 'epoch': 2.96}
+ 99%|█████████▉| 1482/1500 [13:36:00<09:53, 32.98s/it] 99%|█████████▉| 1483/1500 [13:36:33<09:21, 33.04s/it]                                                      {'loss': 0.113, 'grad_norm': 0.29654645919799805, 'learning_rate': 3.7913740928596785e-09, 'memory/max_active (GiB)': 52.66, 'memory/max_allocated (GiB)': 52.66, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1174.92, 'total_tokens': 407200859, 'epoch': 2.97}
+ 99%|█████████▉| 1483/1500 [13:36:33<09:21, 33.04s/it] 99%|█████████▉| 1484/1500 [13:37:06<08:49, 33.07s/it]                                                      {'loss': 0.1156, 'grad_norm': 0.30757519602775574, 'learning_rate': 3.381858252636816e-09, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1031.64, 'total_tokens': 407466564, 'epoch': 2.97}
+ 99%|█████████▉| 1484/1500 [13:37:06<08:49, 33.07s/it] 99%|█████████▉| 1485/1500 [13:37:40<08:21, 33.40s/it]                                                      {'loss': 0.1171, 'grad_norm': 0.33476701378822327, 'learning_rate': 2.995733073895557e-09, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1019.52, 'total_tokens': 407748182, 'epoch': 2.97}
+ 99%|█████████▉| 1485/1500 [13:37:40<08:21, 33.40s/it] 99%|█████████▉| 1486/1500 [13:38:14<07:50, 33.62s/it]                                                      {'loss': 0.115, 'grad_norm': 0.2962905466556549, 'learning_rate': 2.633000364203331e-09, 'memory/max_active (GiB)': 51.79, 'memory/max_allocated (GiB)': 51.79, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 928.58, 'total_tokens': 408035499, 'epoch': 2.97}
+ 99%|█████████▉| 1486/1500 [13:38:14<07:50, 33.62s/it] 99%|█████████▉| 1487/1500 [13:38:47<07:13, 33.34s/it]                                                      {'loss': 0.1257, 'grad_norm': 0.3004626929759979, 'learning_rate': 2.2936618216201635e-09, 'memory/max_active (GiB)': 53.08, 'memory/max_allocated (GiB)': 53.08, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1177.5, 'total_tokens': 408307021, 'epoch': 2.97}
+ 99%|█████████▉| 1487/1500 [13:38:47<07:13, 33.34s/it] 99%|█████████▉| 1488/1500 [13:39:20<06:38, 33.20s/it]                                                      {'loss': 0.1138, 'grad_norm': 0.2834485173225403, 'learning_rate': 1.9777190346903507e-09, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1238.11, 'total_tokens': 408594704, 'epoch': 2.98}
+ 99%|█████████▉| 1488/1500 [13:39:20<06:38, 33.20s/it] 99%|█████████▉| 1489/1500 [13:39:53<06:04, 33.10s/it]                                                      {'loss': 0.1152, 'grad_norm': 0.3519788086414337, 'learning_rate': 1.6851734824380184e-09, 'memory/max_active (GiB)': 52.89, 'memory/max_allocated (GiB)': 52.89, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1044.49, 'total_tokens': 408848204, 'epoch': 2.98}
+ 99%|█████████▉| 1489/1500 [13:39:53<06:04, 33.10s/it] 99%|█████████▉| 1490/1500 [13:40:25<05:28, 32.89s/it]                                                      {'loss': 0.1202, 'grad_norm': 0.3045954704284668, 'learning_rate': 1.4160265343549084e-09, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 910.44, 'total_tokens': 409100954, 'epoch': 2.98}
+ 99%|█████████▉| 1490/1500 [13:40:25<05:28, 32.89s/it] 99%|█████████▉| 1491/1500 [13:40:58<04:55, 32.88s/it]                                                      {'loss': 0.1163, 'grad_norm': 0.3087862730026245, 'learning_rate': 1.1702794503981595e-09, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 873.79, 'total_tokens': 409363097, 'epoch': 2.98}
+ 99%|█████████▉| 1491/1500 [13:40:58<04:55, 32.88s/it] 99%|█████████▉| 1492/1500 [13:41:31<04:23, 32.98s/it]                                                      {'loss': 0.1188, 'grad_norm': 0.29281431436538696, 'learning_rate': 9.479333809842006e-10, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1100.56, 'total_tokens': 409630915, 'epoch': 2.98}
+ 99%|█████████▉| 1492/1500 [13:41:31<04:23, 32.98s/it]100%|█████████▉| 1493/1500 [13:42:05<03:52, 33.26s/it]                                                      {'loss': 0.1159, 'grad_norm': 0.3045937716960907, 'learning_rate': 7.48989366980979e-10, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 963.62, 'total_tokens': 409889848, 'epoch': 2.99}
+100%|█████████▉| 1493/1500 [13:42:05<03:52, 33.26s/it]100%|██████��██▉| 1494/1500 [13:42:38<03:18, 33.05s/it]                                                      {'loss': 0.114, 'grad_norm': 0.27824875712394714, 'learning_rate': 5.734483397046298e-10, 'memory/max_active (GiB)': 51.33, 'memory/max_allocated (GiB)': 51.33, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1014.31, 'total_tokens': 410173186, 'epoch': 2.99}
+100%|█████████▉| 1494/1500 [13:42:38<03:18, 33.05s/it]100%|█████████▉| 1495/1500 [13:43:11<02:45, 33.10s/it]                                                      {'loss': 0.1131, 'grad_norm': 0.30928370356559753, 'learning_rate': 4.213111209155907e-10, 'memory/max_active (GiB)': 53.12, 'memory/max_allocated (GiB)': 53.12, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1139.81, 'total_tokens': 410435682, 'epoch': 2.99}
+100%|█████████▉| 1495/1500 [13:43:11<02:45, 33.10s/it]100%|█████████▉| 1496/1500 [13:43:43<02:11, 32.93s/it]                                                      {'loss': 0.1209, 'grad_norm': 0.29284587502479553, 'learning_rate': 2.9257842281305016e-10, 'memory/max_active (GiB)': 52.76, 'memory/max_allocated (GiB)': 52.76, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1115.14, 'total_tokens': 410724472, 'epoch': 2.99}
+100%|█████████▉| 1496/1500 [13:43:43<02:11, 32.93s/it]100%|█████████▉| 1497/1500 [13:44:17<01:39, 33.17s/it]                                                      {'loss': 0.1162, 'grad_norm': 0.28370434045791626, 'learning_rate': 1.872508480332824e-10, 'memory/max_active (GiB)': 52.11, 'memory/max_allocated (GiB)': 52.11, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 966.3, 'total_tokens': 410999499, 'epoch': 2.99}
+100%|█████████▉| 1497/1500 [13:44:17<01:39, 33.17s/it]100%|█████████▉| 1498/1500 [13:44:51<01:06, 33.31s/it]                                                      {'loss': 0.1218, 'grad_norm': 0.3982420563697815, 'learning_rate': 1.0532888964631672e-10, 'memory/max_active (GiB)': 52.43, 'memory/max_allocated (GiB)': 52.43, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 916.28, 'total_tokens': 411282606, 'epoch': 3.0}
+100%|█████████▉| 1498/1500 [13:44:51<01:06, 33.31s/it]100%|█████████▉| 1499/1500 [13:45:23<00:33, 33.05s/it]                                                      {'loss': 0.1109, 'grad_norm': 0.29357561469078064, 'learning_rate': 4.681293115316177e-11, 'memory/max_active (GiB)': 53.22, 'memory/max_allocated (GiB)': 53.22, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 1245.42, 'total_tokens': 411528768, 'epoch': 3.0}
+100%|█████████▉| 1499/1500 [13:45:23<00:33, 33.05s/it]100%|██████████| 1500/1500 [13:45:56<00:00, 33.12s/it]                                                      {'loss': 0.111, 'grad_norm': 0.2851425111293793, 'learning_rate': 1.1703246484695563e-11, 'memory/max_active (GiB)': 51.98, 'memory/max_allocated (GiB)': 51.98, 'memory/device_reserved (GiB)': 60.39, 'tokens_per_second_per_gpu': 862.2, 'total_tokens': 411811356, 'epoch': 3.0}
+100%|██████████| 1500/1500 [13:45:56<00:00, 33.12s/it][2026-01-26 02:13:59,270] [INFO] [axolotl.core.trainers.base._save:676] [PID:443] Saving model checkpoint to /weka/oe-adapt-default/ethans/llm-weights/axolotl/Qwen3-8B-r0.945_16000_stage2_scaling_final_glm45a_e2e_3ipf_resolved_soft_t0_ipf_1/checkpoint-1500
+                                                      {'train_runtime': 49645.2289, 'train_samples_per_second': 0.967, 'train_steps_per_second': 0.03, 'train_loss': 0.15054821397860846, 'memory/max_active (GiB)': 28.38, 'memory/max_allocated (GiB)': 28.38, 'memory/device_reserved (GiB)': 60.39, 'epoch': 3.0}
+100%|██████████| 1500/1500 [13:47:23<00:00, 33.12s/it]100%|██████████| 1500/1500 [13:47:23<00:00, 33.10s/it]
+[2026-01-26 02:15:17,823] [INFO] [axolotl.train.save_trained_model:233] [PID:443] Training completed! Saving trained model to /weka/oe-adapt-default/ethans/llm-weights/axolotl/Qwen3-8B-r0.945_16000_stage2_scaling_final_glm45a_e2e_3ipf_resolved_soft_t0_ipf_1.
+[2026-01-26 02:16:02,567] [INFO] [axolotl.train.save_trained_model:351] [PID:443] Model successfully saved to /weka/oe-adapt-default/ethans/llm-weights/axolotl/Qwen3-8B-r0.945_16000_stage2_scaling_final_glm45a_e2e_3ipf_resolved_soft_t0_ipf_1