diff --git "a/debug.log" "b/debug.log"
--- "a/debug.log"
+++ "b/debug.log"
@@ -1,12 +1,12 @@
-[2025-12-22 16:46:29,510] [DEBUG] [axolotl.utils.config.log_gpu_memory_usage:127] [PID:37090] baseline 0.000GB ()
-[2025-12-22 16:46:29,513] [INFO] [axolotl.cli.config.load_cfg:248] [PID:37090] config:
+[2025-12-23 14:21:13,443] [DEBUG] [axolotl.utils.config.log_gpu_memory_usage:127] [PID:4046] baseline 0.000GB ()
+[2025-12-23 14:21:13,444] [INFO] [axolotl.cli.config.load_cfg:248] [PID:4046] config:
 {
   "activation_offloading": false,
   "auto_resume_from_checkpoints": true,
-  "axolotl_config_path": "config_template_ded.yaml",
+  "axolotl_config_path": "config.yaml",
   "base_model": "Qwen/Qwen3-4B-Instruct-2507",
   "base_model_config": "Qwen/Qwen3-4B-Instruct-2507",
-  "batch_size": 64,
+  "batch_size": 32,
   "bf16": true,
   "capabilities": {
     "bf16": true,
@@ -15,11 +15,12 @@
     "n_gpu": 1,
     "n_node": 1
   },
+  "chat_template": "qwen3",
   "context_parallel_size": 1,
   "dataloader_num_workers": 1,
   "dataloader_pin_memory": true,
   "dataloader_prefetch_factor": 256,
-  "dataset_processes": 32,
+  "dataset_processes": 24,
   "datasets": [
     {
       "chat_template": "tokenizer_default",
@@ -51,7 +52,7 @@
   "env_capabilities": {
     "torch_version": "2.7.1"
   },
-  "eval_batch_size": 8,
+  "eval_batch_size": 2,
   "eval_causal_lm_metrics": [
     "sacrebleu",
     "comet",
@@ -59,12 +60,11 @@
     "chrf"
   ],
   "eval_max_new_tokens": 128,
-  "eval_sample_packing": true,
   "eval_table_size": 0,
   "experimental_skip_move_to_device": true,
   "flash_attention": true,
   "fp16": false,
-  "gradient_accumulation_steps": 8,
+  "gradient_accumulation_steps": 16,
   "gradient_checkpointing": true,
   "gradient_checkpointing_kwargs": {
     "use_reentrant": true
@@ -73,7 +73,7 @@
   "is_falcon_derived_model": false,
   "is_llama_derived_model": false,
   "is_mistral_derived_model": false,
-  "learning_rate": 2e-05,
+  "learning_rate": 5e-06,
   "lisa_layers_attribute": "model.layers",
   "load_best_model_at_end": false,
   "load_in_4bit": false,
@@ -83,12 +83,11 @@
   "loraplus_lr_embedding": 1e-06,
   "lr_scheduler": "cosine",
   "mean_resizing_embeddings": false,
-  "micro_batch_size": 8,
+  "micro_batch_size": 2,
   "model_config_type": "qwen3",
-  "num_epochs": 3.0,
+  "num_epochs": 10.0,
   "optimizer": "adamw_torch_fused",
   "output_dir": "./outputs/qwen3-4b-instruct-ded-full-train",
-  "pad_to_sequence_len": true,
   "pretrain_multipack_attn": true,
   "profiler_steps_start": 0,
   "qlora_sharded_model_loading": false,
@@ -96,12 +95,12 @@
   "resources_per_worker": {
     "GPU": 1
   },
-  "sample_packing": true,
+  "sample_packing": false,
   "sample_packing_bin_size": 200,
   "sample_packing_group_size": 100000,
   "save_only_model": false,
   "save_safetensors": true,
-  "sequence_len": 2048,
+  "sequence_len": 4096,
   "shuffle_before_merging_datasets": false,
   "shuffle_merged_datasets": true,
   "skip_prepare_dataset": false,
@@ -140,16 +139,273 @@
   "weight_decay": 0.01,
   "world_size": 1
 }
-[2025-12-22 16:46:31,168] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:278] [PID:37090] EOS: 151645 / <|im_end|>
-[2025-12-22 16:46:31,169] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:279] [PID:37090] BOS: None / None
-[2025-12-22 16:46:31,170] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:37090] PAD: 151643 / <|endoftext|>
-[2025-12-22 16:46:31,172] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:37090] UNK: None / None
-[2025-12-22 16:46:31,177] [INFO] [axolotl.utils.data.shared.load_preprocessed_dataset:476] [PID:37090] Unable to find prepared dataset in last_run_prepared/6f0bc810b1537ff654f206db06f6f760
-[2025-12-22 16:46:31,179] [INFO] [axolotl.utils.data.sft._load_raw_datasets:320] [PID:37090] Loading raw datasets...
-[2025-12-22 16:46:31,180] [WARNING] [axolotl.utils.data.sft._load_raw_datasets:322] [PID:37090] Processing datasets during training can lead to VRAM instability. Please pre-process your dataset using `axolotl preprocess path/to/config.yml`.
-Generating train split: 0 examples [00:00, ? examples/s]Generating train split: 6593 examples [00:00, 56190.99 examples/s]Generating train split: 13162 examples [00:00, 45202.78 examples/s]Generating train split: 22995 examples [00:00, 46638.45 examples/s]Generating train split: 23109 examples [00:02, 8002.16 examples/s] 
-[2025-12-22 16:46:34,571] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:37090] Loading dataset: ./dataset/ded_full_train.jsonl with base_type: chat_template and prompt_style: None
-[2025-12-22 16:46:34,591] [INFO] [axolotl.prompt_strategies.chat_template.__call__:969] [PID:37090] Using chat template:
+[2025-12-23 14:21:13,859] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:278] [PID:4046] EOS: 151645 / <|im_end|>
+[2025-12-23 14:21:13,859] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:279] [PID:4046] BOS: None / None
+[2025-12-23 14:21:13,859] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:4046] PAD: 151643 / <|endoftext|>
+[2025-12-23 14:21:13,860] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:4046] UNK: None / None
+[2025-12-23 14:21:13,860] [INFO] [axolotl.utils.data.shared.load_preprocessed_dataset:476] [PID:4046] Unable to find prepared dataset in last_run_prepared/a600686cba93a5478a612e625b2dc31c
+[2025-12-23 14:21:13,860] [INFO] [axolotl.utils.data.sft._load_raw_datasets:320] [PID:4046] Loading raw datasets...
+[2025-12-23 14:21:13,861] [WARNING] [axolotl.utils.data.sft._load_raw_datasets:322] [PID:4046] Processing datasets during training can lead to VRAM instability. Please pre-process your dataset using `axolotl preprocess path/to/config.yml`.
+Generating train split: 0 examples [00:00, ? examples/s][2025-12-23 14:21:14,245] [ERROR] [datasets.packaged_modules.json.json._generate_tables:162] [PID:4046] Failed to load JSON from file '/workspace/fine-tuning/dataset/ded_full_train.jsonl' with error <class 'pyarrow.lib.ArrowInvalid'>: JSON parse error: Missing a closing quotation mark in string. in row 39
+Generating train split: 9862 examples [00:00, 30701.94 examples/s]Generating train split: 9862 examples [00:00, 30637.90 examples/s]
+Traceback (most recent call last):
+  File "/root/miniconda3/envs/py3.11/lib/python3.11/site-packages/datasets/packaged_modules/json/json.py", line 160, in _generate_tables
+    df = pandas_read_json(f)
+         ^^^^^^^^^^^^^^^^^^^
+  File "/root/miniconda3/envs/py3.11/lib/python3.11/site-packages/datasets/packaged_modules/json/json.py", line 38, in pandas_read_json
+    return pd.read_json(path_or_buf, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/root/miniconda3/envs/py3.11/lib/python3.11/site-packages/pandas/io/json/_json.py", line 815, in read_json
+    return json_reader.read()
+           ^^^^^^^^^^^^^^^^^^
+  File "/root/miniconda3/envs/py3.11/lib/python3.11/site-packages/pandas/io/json/_json.py", line 1014, in read
+    obj = self._get_object_parser(self.data)
+          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/root/miniconda3/envs/py3.11/lib/python3.11/site-packages/pandas/io/json/_json.py", line 1040, in _get_object_parser
+    obj = FrameParser(json, **kwargs).parse()
+          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/root/miniconda3/envs/py3.11/lib/python3.11/site-packages/pandas/io/json/_json.py", line 1176, in parse
+    self._parse()
+  File "/root/miniconda3/envs/py3.11/lib/python3.11/site-packages/pandas/io/json/_json.py", line 1392, in _parse
+    ujson_loads(json, precise_float=self.precise_float), dtype=None
+    ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+ValueError: Trailing data
+
+During handling of the above exception, another exception occurred:
+
+Traceback (most recent call last):
+  File "/root/miniconda3/envs/py3.11/lib/python3.11/site-packages/datasets/builder.py", line 1815, in _prepare_split_single
+    for _, table in generator:
+  File "/root/miniconda3/envs/py3.11/lib/python3.11/site-packages/datasets/packaged_modules/json/json.py", line 163, in _generate_tables
+    raise e
+  File "/root/miniconda3/envs/py3.11/lib/python3.11/site-packages/datasets/packaged_modules/json/json.py", line 137, in _generate_tables
+    pa_table = paj.read_json(
+               ^^^^^^^^^^^^^^
+  File "pyarrow/_json.pyx", line 342, in pyarrow._json.read_json
+  File "pyarrow/error.pxi", line 155, in pyarrow.lib.pyarrow_internal_check_status
+  File "pyarrow/error.pxi", line 92, in pyarrow.lib.check_status
+pyarrow.lib.ArrowInvalid: JSON parse error: Missing a closing quotation mark in string. in row 39
+
+The above exception was the direct cause of the following exception:
+
+Traceback (most recent call last):
+  File "<frozen runpy>", line 198, in _run_module_as_main
+  File "<frozen runpy>", line 88, in _run_code
+  File "/workspace/axolotl/src/axolotl/cli/train.py", line 121, in <module>
+    fire.Fire(do_cli)
+  File "/root/miniconda3/envs/py3.11/lib/python3.11/site-packages/fire/core.py", line 135, in Fire
+    component_trace = _Fire(component, args, parsed_flag_args, context, name)
+                      ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/root/miniconda3/envs/py3.11/lib/python3.11/site-packages/fire/core.py", line 468, in _Fire
+    component, remaining_args = _CallAndUpdateTrace(
+                                ^^^^^^^^^^^^^^^^^^^^
+  File "/root/miniconda3/envs/py3.11/lib/python3.11/site-packages/fire/core.py", line 684, in _CallAndUpdateTrace
+    component = fn(*varargs, **kwargs)
+                ^^^^^^^^^^^^^^^^^^^^^^
+  File "/workspace/axolotl/src/axolotl/cli/train.py", line 88, in do_cli
+    return do_train(parsed_cfg, parsed_cli_args)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/workspace/axolotl/src/axolotl/cli/train.py", line 43, in do_train
+    dataset_meta = load_datasets(cfg=cfg, cli_args=cli_args)
+                   ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/workspace/axolotl/src/axolotl/common/datasets.py", line 59, in load_datasets
+    train_dataset, eval_dataset, total_num_steps, prompters = prepare_datasets(
+                                                              ^^^^^^^^^^^^^^^^^
+  File "/workspace/axolotl/src/axolotl/utils/data/utils.py", line 50, in wrapper
+    return func(*args, **kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^
+  File "/workspace/axolotl/src/axolotl/utils/data/sft.py", line 65, in prepare_datasets
+    return _prepare_standard_dataset(cfg, tokenizer, processor)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/workspace/axolotl/src/axolotl/utils/data/sft.py", line 98, in _prepare_standard_dataset
+    train_dataset, eval_dataset, prompters = loader.load(_load_datasets)
+                                             ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/workspace/axolotl/src/axolotl/utils/data/lock.py", line 38, in load
+    result = load_fn()
+             ^^^^^^^^^
+  File "/workspace/axolotl/src/axolotl/utils/data/sft.py", line 77, in _load_datasets
+    train_dataset, eval_dataset, prompters = _load_and_prepare_datasets(
+                                             ^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/workspace/axolotl/src/axolotl/utils/data/sft.py", line 503, in _load_and_prepare_datasets
+    dataset, prompters = _load_tokenized_prepared_datasets(
+                         ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/workspace/axolotl/src/axolotl/utils/data/sft.py", line 299, in _load_tokenized_prepared_datasets
+    dataset, prompters = _load_raw_datasets(
+                         ^^^^^^^^^^^^^^^^^^^
+  File "/workspace/axolotl/src/axolotl/utils/data/sft.py", line 331, in _load_raw_datasets
+    dataset_wrapper, dataset_prompter = _load_and_process_single_dataset(
+                                        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/workspace/axolotl/src/axolotl/utils/data/sft.py", line 374, in _load_and_process_single_dataset
+    dataset = load_dataset_with_config(
+              ^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/workspace/axolotl/src/axolotl/utils/data/shared.py", line 118, in load_dataset_with_config
+    return _load_from_local_path(dataset_config, load_dataset_kwargs)
+           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+  File "/workspace/axolotl/src/axolotl/utils/data/shared.py", line 242, in _load_from_local_path
+    return load_dataset(
+           ^^^^^^^^^^^^^
+  File "/root/miniconda3/envs/py3.11/lib/python3.11/site-packages/datasets/load.py", line 1412, in load_dataset
+    builder_instance.download_and_prepare(
+  File "/root/miniconda3/envs/py3.11/lib/python3.11/site-packages/datasets/builder.py", line 894, in download_and_prepare
+    self._download_and_prepare(
+  File "/root/miniconda3/envs/py3.11/lib/python3.11/site-packages/datasets/builder.py", line 970, in _download_and_prepare
+    self._prepare_split(split_generator, **prepare_split_kwargs)
+  File "/root/miniconda3/envs/py3.11/lib/python3.11/site-packages/datasets/builder.py", line 1702, in _prepare_split
+    for job_id, done, content in self._prepare_split_single(
+  File "/root/miniconda3/envs/py3.11/lib/python3.11/site-packages/datasets/builder.py", line 1858, in _prepare_split_single
+    raise DatasetGenerationError("An error occurred while generating the dataset") from e
+datasets.exceptions.DatasetGenerationError: An error occurred while generating the dataset
+[2025-12-23 14:25:44,642] [DEBUG] [axolotl.utils.config.log_gpu_memory_usage:127] [PID:5529] baseline 0.000GB ()
+[2025-12-23 14:25:44,643] [INFO] [axolotl.cli.config.load_cfg:248] [PID:5529] config:
+{
+  "activation_offloading": false,
+  "auto_resume_from_checkpoints": true,
+  "axolotl_config_path": "config.yaml",
+  "base_model": "Qwen/Qwen3-4B-Instruct-2507",
+  "base_model_config": "Qwen/Qwen3-4B-Instruct-2507",
+  "batch_size": 32,
+  "bf16": true,
+  "capabilities": {
+    "bf16": true,
+    "compute_capability": "sm_90",
+    "fp8": false,
+    "n_gpu": 1,
+    "n_node": 1
+  },
+  "chat_template": "qwen3",
+  "context_parallel_size": 1,
+  "dataloader_num_workers": 1,
+  "dataloader_pin_memory": true,
+  "dataloader_prefetch_factor": 256,
+  "dataset_processes": 24,
+  "datasets": [
+    {
+      "chat_template": "tokenizer_default",
+      "field_messages": "conversations",
+      "message_property_mappings": {
+        "content": "value",
+        "role": "from"
+      },
+      "path": "./dataset/ded_full_train.jsonl",
+      "roles": {
+        "assistant": [
+          "gpt"
+        ],
+        "system": [
+          "system"
+        ],
+        "user": [
+          "human"
+        ]
+      },
+      "trust_remote_code": false,
+      "type": "chat_template"
+    }
+  ],
+  "ddp": false,
+  "device": "cuda:0",
+  "dion_rank_fraction": 1.0,
+  "dion_rank_multiple_of": 1,
+  "env_capabilities": {
+    "torch_version": "2.7.1"
+  },
+  "eval_batch_size": 2,
+  "eval_causal_lm_metrics": [
+    "sacrebleu",
+    "comet",
+    "ter",
+    "chrf"
+  ],
+  "eval_max_new_tokens": 128,
+  "eval_table_size": 0,
+  "experimental_skip_move_to_device": true,
+  "flash_attention": true,
+  "fp16": false,
+  "gradient_accumulation_steps": 16,
+  "gradient_checkpointing": true,
+  "gradient_checkpointing_kwargs": {
+    "use_reentrant": true
+  },
+  "include_tkps": true,
+  "is_falcon_derived_model": false,
+  "is_llama_derived_model": false,
+  "is_mistral_derived_model": false,
+  "learning_rate": 5e-06,
+  "lisa_layers_attribute": "model.layers",
+  "load_best_model_at_end": false,
+  "load_in_4bit": false,
+  "load_in_8bit": false,
+  "local_rank": 0,
+  "lora_dropout": 0.0,
+  "loraplus_lr_embedding": 1e-06,
+  "lr_scheduler": "cosine",
+  "mean_resizing_embeddings": false,
+  "micro_batch_size": 2,
+  "model_config_type": "qwen3",
+  "num_epochs": 10.0,
+  "optimizer": "adamw_torch_fused",
+  "output_dir": "./outputs/qwen3-4b-instruct-ded-full-train",
+  "pretrain_multipack_attn": true,
+  "profiler_steps_start": 0,
+  "qlora_sharded_model_loading": false,
+  "ray_num_workers": 1,
+  "resources_per_worker": {
+    "GPU": 1
+  },
+  "sample_packing": false,
+  "sample_packing_bin_size": 200,
+  "sample_packing_group_size": 100000,
+  "save_only_model": false,
+  "save_safetensors": true,
+  "sequence_len": 4096,
+  "shuffle_before_merging_datasets": false,
+  "shuffle_merged_datasets": true,
+  "skip_prepare_dataset": false,
+  "streaming_multipack_buffer_size": 10000,
+  "strict": false,
+  "tensor_parallel_size": 1,
+  "tf32": true,
+  "tiled_mlp_use_original_mlp": true,
+  "tokenizer_config": "Qwen/Qwen3-4B-Instruct-2507",
+  "tokenizer_save_jinja_files": true,
+  "tokenizer_type": "AutoTokenizer",
+  "torch_dtype": "torch.bfloat16",
+  "train_on_inputs": false,
+  "trl": {
+    "log_completions": false,
+    "mask_truncated_completions": false,
+    "ref_model_mixup_alpha": 0.9,
+    "ref_model_sync_steps": 64,
+    "scale_rewards": true,
+    "sync_ref_model": false,
+    "use_vllm": false,
+    "vllm_server_host": "0.0.0.0",
+    "vllm_server_port": 8000
+  },
+  "type_of_model": "AutoModelForCausalLM",
+  "use_ray": false,
+  "val_set_size": 0.0,
+  "vllm": {
+    "device": "auto",
+    "dtype": "auto",
+    "gpu_memory_utilization": 0.9,
+    "host": "0.0.0.0",
+    "port": 8000
+  },
+  "warmup_steps": 100,
+  "weight_decay": 0.01,
+  "world_size": 1
+}
+[2025-12-23 14:25:45,085] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:278] [PID:5529] EOS: 151645 / <|im_end|>
+[2025-12-23 14:25:45,085] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:279] [PID:5529] BOS: None / None
+[2025-12-23 14:25:45,085] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:5529] PAD: 151643 / <|endoftext|>
+[2025-12-23 14:25:45,086] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:5529] UNK: None / None
+[2025-12-23 14:25:45,086] [INFO] [axolotl.utils.data.shared.load_preprocessed_dataset:476] [PID:5529] Unable to find prepared dataset in last_run_prepared/a600686cba93a5478a612e625b2dc31c
+[2025-12-23 14:25:45,087] [INFO] [axolotl.utils.data.sft._load_raw_datasets:320] [PID:5529] Loading raw datasets...
+[2025-12-23 14:25:45,087] [WARNING] [axolotl.utils.data.sft._load_raw_datasets:322] [PID:5529] Processing datasets during training can lead to VRAM instability. Please pre-process your dataset using `axolotl preprocess path/to/config.yml`.
+Generating train split: 0 examples [00:00, ? examples/s]Generating train split: 13162 examples [00:00, 87476.32 examples/s]Generating train split: 15985 examples [00:00, 67991.23 examples/s]
+[2025-12-23 14:25:45,433] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:5529] Loading dataset: ./dataset/ded_full_train.jsonl with base_type: chat_template and prompt_style: None
+[2025-12-23 14:25:45,442] [INFO] [axolotl.prompt_strategies.chat_template.__call__:969] [PID:5529] Using chat template:
 ---
 {%- if tools %}
     {{- '<|im_start|>system\n' }}
@@ -167,16 +423,37 @@
         {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
     {%- endif %}
 {%- endif %}
-{%- for message in messages %}
-    {%- if message.content is string %}
-        {%- set content = message.content %}
-    {%- else %}
-        {%- set content = '' %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}
+        {%- set ns.multi_step_tool = false %}
+        {%- set ns.last_query_index = index %}
     {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
     {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
-        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
+        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
     {%- elif message.role == "assistant" %}
-        {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- set content = message.content %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is defined and message.reasoning_content is not none %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in message.content %}
+                {%- set content = message.content.split('</think>')[-1].lstrip('\n') %}
+                {%- set reasoning_content = message.content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning_content) %}
+                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
+            {%- else %}
+                {{- '<|im_start|>' + message.role + '\n' + content }}
+            {%- endif %}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
         {%- if message.tool_calls %}
             {%- for tool_call in message.tool_calls %}
                 {%- if (loop.first and content) or (not loop.first) %}
@@ -202,7 +479,7 @@
             {{- '<|im_start|>user' }}
         {%- endif %}
         {{- '\n<tool_response>\n' }}
-        {{- content }}
+        {{- message.content }}
         {{- '\n</tool_response>' }}
         {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
             {{- '<|im_end|>\n' }}
@@ -211,272 +488,553 @@
 {%- endfor %}
 {%- if add_generation_prompt %}
     {{- '<|im_start|>assistant\n' }}
+    {%- if enable_thinking is defined and enable_thinking is false %}
+        {{- '<think>\n\n</think>\n\n' }}
+    {%- else %}
+        {{- '<think>\n\n' }}
+    {%- endif %}
 {%- endif %}
+
 ---
-Tokenizing Prompts (num_proc=32):   0%|                                                                                                                | 0/23109 [00:00<?, ? examples/s]Tokenizing Prompts (num_proc=32):   3%|███▏                                                                                                 | 723/23109 [00:05<02:45, 135.15 examples/s]Tokenizing Prompts (num_proc=32):  19%|██████████████████▌                                                                                | 4335/23109 [00:05<00:17, 1061.48 examples/s]Tokenizing Prompts (num_proc=32):  28%|███████████████████████████▊                                                                       | 6503/23109 [00:05<00:09, 1708.67 examples/s]Tokenizing Prompts (num_proc=32):  34%|██████████████████████████████████                                                                 | 7947/23109 [00:06<00:07, 2102.66 examples/s]Tokenizing Prompts (num_proc=32):  44%|██████████████████████████████████████████▉                                                       | 10113/23109 [00:06<00:04, 3204.28 examples/s]Tokenizing Prompts (num_proc=32):  50%|█████████████████████████████████████████████████                                                 | 11557/23109 [00:06<00:03, 3694.00 examples/s]Tokenizing Prompts (num_proc=32):  56%|███████████████████████████████████████████████████████▏                                          | 13001/23109 [00:06<00:02, 4564.38 examples/s]Tokenizing Prompts (num_proc=32):  63%|█████████████████████████████████████████████████████████████▎                                    | 14445/23109 [00:06<00:01, 5522.11 examples/s]Tokenizing Prompts (num_proc=32):  69%|███████████████████████████████████████████████████████████████████▍                              | 15889/23109 [00:06<00:01, 6632.21 examples/s]Tokenizing Prompts (num_proc=32):  75%|█████████████████████████████████████████████████████████████████████████▌                        | 17333/23109 [00:06<00:00, 7672.41 examples/s]Tokenizing Prompts (num_proc=32):  81%|███████████████████████████████████████████████████████████████████████████████▋                  | 18777/23109 [00:07<00:00, 6471.65 examples/s]Tokenizing Prompts (num_proc=32):  88%|█████████████████████████████████████████████████████████████████████████████████████▊            | 20221/23109 [00:07<00:00, 7120.18 examples/s]Tokenizing Prompts (num_proc=32):  94%|███████████████████████████████████████████████████████████████████████████████████████████▉      | 21665/23109 [00:07<00:00, 7823.50 examples/s]Tokenizing Prompts (num_proc=32): 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 23109/23109 [00:07<00:00, 7862.65 examples/s]Tokenizing Prompts (num_proc=32): 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 23109/23109 [00:08<00:00, 2758.75 examples/s]
-[2025-12-22 16:46:43,365] [INFO] [axolotl.utils.data.utils.handle_long_seq_in_dataset:218] [PID:37090] min_input_len: 184
-[2025-12-22 16:46:43,369] [INFO] [axolotl.utils.data.utils.handle_long_seq_in_dataset:220] [PID:37090] max_input_len: 5237
-Dropping Long Sequences (>2048) (num_proc=32):   0%|                                                                                                   | 0/23109 [00:00<?, ? examples/s]Dropping Long Sequences (>2048) (num_proc=32):   3%|██▊                                                                                     | 723/23109 [00:01<00:38, 574.20 examples/s]Dropping Long Sequences (>2048) (num_proc=32):  72%|████████████████████████████████████████████████████████████▍                       | 16611/23109 [00:01<00:00, 16634.34 examples/s]Dropping Long Sequences (>2048) (num_proc=32): 100%|████████████████████████████████████████████████████████████████████████████████████| 23109/23109 [00:01<00:00, 14091.79 examples/s]
-[2025-12-22 16:46:45,321] [WARNING] [axolotl.utils.data.utils.handle_long_seq_in_dataset:260] [PID:37090] Dropped 282 samples from dataset
-Drop Samples with Zero Trainable Tokens (num_proc=32):   0%|                                                                                           | 0/22827 [00:00<?, ? examples/s]Drop Samples with Zero Trainable Tokens (num_proc=32):   3%|██▌                                                                             | 714/22827 [00:01<00:41, 536.10 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=32):  66%|█████████████████████████████████████████████████▉                          | 14982/22827 [00:01<00:00, 14247.70 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=32): 100%|████████████████████████████████████████████████████████████████████████████| 22827/22827 [00:01<00:00, 13133.53 examples/s]
-Add position_id column (Sample Packing) (num_proc=32):   0%|                                                                                           | 0/22827 [00:00<?, ? examples/s]Add position_id column (Sample Packing) (num_proc=32):   3%|██▌                                                                             | 714/22827 [00:01<00:41, 530.13 examples/s]Add position_id column (Sample Packing) (num_proc=32):  34%|██████████████████████████▊                                                   | 7845/22827 [00:01<00:02, 7125.39 examples/s]Add position_id column (Sample Packing) (num_proc=32):  50%|█████████████████████████████████████▉                                      | 11413/22827 [00:01<00:01, 10189.87 examples/s]Add position_id column (Sample Packing) (num_proc=32):  69%|████████████████████████████████████████████████████▎                       | 15694/22827 [00:01<00:00, 14501.58 examples/s]Add position_id column (Sample Packing) (num_proc=32):  84%|████████████████████████████████████████████████████████████████▏           | 19261/22827 [00:01<00:00, 14363.83 examples/s]Add position_id column (Sample Packing) (num_proc=32): 100%|███��████████████████████████████████████████████████████████████████████████| 22827/22827 [00:02<00:00, 13865.94 examples/s]Add position_id column (Sample Packing) (num_proc=32): 100%|█████████████████████████████████████████████████████████████████████████████| 22827/22827 [00:03<00:00, 6684.42 examples/s]
-Saving the dataset (0/32 shards):   0%|                                                                                                                | 0/22827 [00:00<?, ? examples/s]Saving the dataset (0/32 shards):   3%|███▏                                                                                                | 714/22827 [00:00<00:21, 1032.52 examples/s]Saving the dataset (1/32 shards):   3%|███▏                                                                                                | 714/22827 [00:00<00:21, 1032.52 examples/s]Saving the dataset (2/32 shards):   6%|██████▏                                                                                            | 1428/22827 [00:00<00:20, 1032.52 examples/s]Saving the dataset (3/32 shards):  13%|████████████▍                                                                                      | 2856/22827 [00:00<00:19, 1032.52 examples/s]Saving the dataset (4/32 shards):  13%|████████████▍                                                                                      | 2856/22827 [00:00<00:19, 1032.52 examples/s]Saving the dataset (5/32 shards):  16%|███████████████▍                                                                                   | 3570/22827 [00:00<00:18, 1032.52 examples/s]Saving the dataset (6/32 shards):  19%|██████████████████▌                                                                                | 4284/22827 [00:00<00:17, 1032.52 examples/s]Saving the dataset (7/32 shards):  22%|█████████████████████▋                                                                             | 4998/22827 [00:00<00:17, 1032.52 examples/s]Saving the dataset (8/32 shards):  25%|████████████████████████▊                                                                          | 5712/22827 [00:00<00:16, 1032.52 examples/s]Saving the dataset (9/32 shards):  28%|███████████████████████████▊                                                                       | 6426/22827 [00:00<00:15, 1032.52 examples/s]Saving the dataset (10/32 shards):  34%|█████████████████████████████████▋                                                                | 7854/22827 [00:00<00:14, 1032.52 examples/s]Saving the dataset (11/32 shards):  34%|█████████████████████████████████▋                                                                | 7854/22827 [00:00<00:14, 1032.52 examples/s]Saving the dataset (12/32 shards):  38%|████████████████████████████████████▊                                                             | 8567/22827 [00:00<00:13, 1032.52 examples/s]Saving the dataset (13/32 shards):  44%|██████████████████████████████████████████▉                                                       | 9993/22827 [00:00<00:12, 1032.52 examples/s]Saving the dataset (14/32 shards):  44%|██████████████████████████████████████████▉                                                       | 9993/22827 [00:00<00:12, 1032.52 examples/s]Saving the dataset (15/32 shards):  47%|█████████████████████████████████████████████▍                                                   | 10706/22827 [00:00<00:11, 1032.52 examples/s]Saving the dataset (16/32 shards):  53%|███████████████████████████████████████████████████▌                                             | 12132/22827 [00:00<00:10, 1032.52 examples/s]Saving the dataset (17/32 shards):  53%|███████████████████████████████████████████████████▌                                             | 12132/22827 [00:00<00:10, 1032.52 examples/s]Saving the dataset (18/32 shards):  56%|██████████████████████████████████████████████████████▌                                          | 12845/22827 [00:00<00:09, 1032.52 examples/s]Saving the dataset (19/32 shards):  59%|█████████████████████████████████████████████████████████▌                                       | 13558/22827 [00:00<00:08, 1032.52 examples/s]Saving the dataset (20/32 shards):  63%|████████████████████████████████████████████████████████████▋                                    | 14271/22827 [00:00<00:08, 1032.52 examples/s]Saving the dataset (21/32 shards):  66%|███████████████████████████████████████████████████████████████▋                                 | 14984/22827 [00:00<00:07, 1032.52 examples/s]Saving the dataset (22/32 shards):  72%|█████████████████████████████████████████████████████████████████████▋                           | 16410/22827 [00:00<00:06, 1032.52 examples/s]Saving the dataset (23/32 shards):  72%|█████████████████████████████████████████████████████████████████████▋                           | 16410/22827 [00:00<00:06, 1032.52 examples/s]Saving the dataset (24/32 shards):  78%|███████████████████████████████████████████████████████████████████████████▊                     | 17836/22827 [00:00<00:04, 1032.52 examples/s]Saving the dataset (25/32 shards):  78%|███████████████████████████████████████████████████████████████████████████▊                     | 17836/22827 [00:00<00:04, 1032.52 examples/s]Saving the dataset (25/32 shards):  81%|██████████████████████████████████████████████████████████████████████████████                  | 18549/22827 [00:00<00:00, 31219.62 examples/s]Saving the dataset (26/32 shards):  81%|██████████████████████████████████████████████████████████████████████████████                  | 18549/22827 [00:00<00:00, 31219.62 examples/s]Saving the dataset (27/32 shards):  84%|█████████████████████████████████████████████████████████████████████████████████               | 19262/22827 [00:00<00:00, 31219.62 examples/s]Saving the dataset (28/32 shards):  88%|████████████████████████████████████████████████████████████████████████████████████            | 19975/22827 [00:00<00:00, 31219.62 examples/s]Saving the dataset (29/32 shards):  91%|███████████████████████████████████████████████████████████████████████████████████████         | 20688/22827 [00:00<00:00, 31219.62 examples/s]Saving the dataset (30/32 shards):  94%|██████████████████████████████████████████████████████████████████████████████████████████      | 21401/22827 [00:00<00:00, 31219.62 examples/s]Saving the dataset (31/32 shards): 100%|████████████████████████████████████████████████████████████████████████████████████████████████| 22827/22827 [00:00<00:00, 31219.62 examples/s]Saving the dataset (32/32 shards): 100%|███████████████████████��████████████████████████████████████████████████████████████████████████| 22827/22827 [00:00<00:00, 31219.62 examples/s]Saving the dataset (32/32 shards): 100%|████████████████████████████████████████████████████████████████████████████████████████████████| 22827/22827 [00:00<00:00, 24792.49 examples/s]
-[2025-12-22 16:46:53,045] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:404] [PID:37090] total_num_tokens: 19_189_796
-[2025-12-22 16:46:53,239] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:422] [PID:37090] `total_supervised_tokens: 5_165_269`
-[2025-12-22 16:46:54,998] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:37090] generate_batches time: 0.7077639102935791
-[2025-12-22 16:46:55,785] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:37090] generate_batches time: 0.7796816825866699
-[2025-12-22 16:46:56,469] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:37090] generate_batches time: 0.6825113296508789
-[2025-12-22 16:46:57,178] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:37090] generate_batches time: 0.7087781429290771
-[2025-12-22 16:46:57,213] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:434] [PID:37090] gather_len_batches: [1177]
-[2025-12-22 16:46:57,215] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:481] [PID:37090] data_loader_len: 147
-[2025-12-22 16:46:57,219] [INFO] [axolotl.utils.trainer.calc_sample_packing_eff_est:497] [PID:37090] sample_packing_eff_est across ranks: [0.9951165652214317]
-[2025-12-22 16:46:57,221] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:509] [PID:37090] sample_packing_eff_est: 1.0
-[2025-12-22 16:46:57,224] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:520] [PID:37090] total_num_steps: 441
-[2025-12-22 16:46:57,227] [INFO] [axolotl.utils.data.sft._prepare_standard_dataset:121] [PID:37090] Maximum number of steps set at 441
-[2025-12-22 16:46:57,285] [DEBUG] [axolotl.train.setup_model_and_tokenizer:65] [PID:37090] Loading tokenizer... Qwen/Qwen3-4B-Instruct-2507
-[2025-12-22 16:46:58,198] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:278] [PID:37090] EOS: 151645 / <|im_end|>
-[2025-12-22 16:46:58,204] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:279] [PID:37090] BOS: None / None
-[2025-12-22 16:46:58,209] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:37090] PAD: 151643 / <|endoftext|>
-[2025-12-22 16:46:58,212] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:37090] UNK: None / None
-[2025-12-22 16:46:58,215] [DEBUG] [axolotl.train.setup_model_and_tokenizer:74] [PID:37090] Loading model
-[2025-12-22 16:46:58,478] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_evaluation_loop:87] [PID:37090] Patched Trainer.evaluation_loop with nanmean loss calculation
-[2025-12-22 16:46:58,484] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_maybe_log_save_evaluate:138] [PID:37090] Patched Trainer._maybe_log_save_evaluate with nanmean loss calculation
-[2025-12-22 16:46:58,486] [INFO] [axolotl.loaders.patch_manager._apply_multipack_patches:301] [PID:37090] Applying multipack dataloader patch for sample packing...
-Loading checkpoint shards:   0%|                                                                                                                                  | 0/3 [00:00<?, ?it/s]Loading checkpoint shards:  33%|████████████████████████████████████████▋                                                                                 | 1/3 [00:01<00:03,  1.97s/it]Loading checkpoint shards:  67%|█████████████████████████████████████████████████████████████████████████████████▎                                        | 2/3 [00:04<00:02,  2.07s/it]Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:04<00:00,  1.40s/it]
-[2025-12-22 16:47:11,890] [INFO] [axolotl.loaders.model._configure_embedding_dtypes:345] [PID:37090] Converting modules to torch.bfloat16
-[2025-12-22 16:47:12,509] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:37090] Memory usage after model load 0.000GB ()
-[2025-12-22 16:49:13,536] [INFO] [axolotl.train.save_initial_configs:402] [PID:37090] Pre-saving tokenizer to ./outputs/qwen3-4b-instruct-ded-full-train...
-[2025-12-22 16:49:13,914] [INFO] [axolotl.train.save_initial_configs:407] [PID:37090] Pre-saving model config to ./outputs/qwen3-4b-instruct-ded-full-train...
-[2025-12-22 16:49:13,955] [INFO] [axolotl.train.execute_training:196] [PID:37090] Starting trainer...
-[2025-12-22 16:49:22,321] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:37090] generate_batches time: 1.0173759460449219
-[2025-12-22 16:49:23,248] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:37090] generate_batches time: 0.9225914478302002
-[2025-12-22 16:49:24,196] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:37090] generate_batches time: 0.941002607345581
-[2025-12-22 16:49:25,206] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:37090] generate_batches time: 1.0058565139770508
-[2025-12-22 16:49:25,210] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:434] [PID:37090] gather_len_batches: [1177]
-  0%|                                                                                                                                                           | 0/441 [00:00<?, ?it/s]  0%|▎                                                                                                                                                | 1/441 [00:23<2:50:33, 23.26s/it]  0%|▋                                                                                                                                                | 2/441 [00:42<2:33:01, 20.92s/it]                                                                                                                                                                                        {'loss': 1.2868, 'grad_norm': 24.625, 'learning_rate': 2.0000000000000002e-07, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1728.73, 'epoch': 0.01}
-  0%|▋                                                                                                                                                | 2/441 [00:42<2:33:01, 20.92s/it]  1%|▉                                                                                                                                                | 3/441 [01:01<2:27:36, 20.22s/it]  1%|█▎                                                                                                                                               | 4/441 [01:21<2:24:53, 19.89s/it]                                                                                                                                                                                        {'loss': 1.2159, 'grad_norm': 24.75, 'learning_rate': 6.000000000000001e-07, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1799.73, 'epoch': 0.03}
-  1%|█▎                                                                                                                                               | 4/441 [01:21<2:24:53, 19.89s/it]  1%|█▋                                                                                                                                               | 5/441 [01:40<2:23:24, 19.73s/it]  1%|█▉                                                                                                                                               | 6/441 [02:00<2:22:29, 19.65s/it]                                                                                                                                                                                        {'loss': 1.1965, 'grad_norm': 23.75, 'learning_rate': 1.0000000000000002e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1765.36, 'epoch': 0.04}
-  1%|█▉                                                                                                                                               | 6/441 [02:00<2:22:29, 19.65s/it]  2%|██▎                                                                                                                                              | 7/441 [02:19<2:21:53, 19.62s/it]  2%|██▋                                                                                                                                              | 8/441 [02:39<2:21:16, 19.58s/it]                                                                                                                                                                                        {'loss': 1.1901, 'grad_norm': 22.75, 'learning_rate': 1.4000000000000001e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1769.16, 'epoch': 0.05}
-  2%|██▋                                                                                                                                              | 8/441 [02:39<2:21:16, 19.58s/it]  2%|██▉                                                                                                                                              | 9/441 [02:58<2:20:53, 19.57s/it]  2%|███▎                                                                                                                                            | 10/441 [03:18<2:20:27, 19.55s/it]                                                                                                                                                                                        {'loss': 1.1858, 'grad_norm': 22.875, 'learning_rate': 1.8000000000000001e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1738.8, 'epoch': 0.07}
-  2%|███▎                                                                                                                                            | 10/441 [03:18<2:20:27, 19.55s/it]  2%|███▌                                                                                                                                            | 11/441 [03:37<2:20:03, 19.54s/it]  3%|███▉                                                                                                                                            | 12/441 [03:57<2:19:41, 19.54s/it]                                                                                                                                                                                        {'loss': 1.1157, 'grad_norm': 19.125, 'learning_rate': 2.2e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1828.29, 'epoch': 0.08}
-  3%|███▉                                                                                                                                            | 12/441 [03:57<2:19:41, 19.54s/it]  3%|████▏                                                                                                                                           | 13/441 [04:16<2:19:19, 19.53s/it]  3%|████▌                                                                                                                                           | 14/441 [04:36<2:18:57, 19.53s/it]                                                                                                                                                                                        {'loss': 1.1163, 'grad_norm': 17.875, 'learning_rate': 2.6e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1819.36, 'epoch': 0.1}
-  3%|████▌                                                                                                                                           | 14/441 [04:36<2:18:57, 19.53s/it]  3%|████▉                                                                                                                                           | 15/441 [04:55<2:18:32, 19.51s/it]  4%|█████▏                                                                                                                                          | 16/441 [05:15<2:18:26, 19.54s/it]                                                                                                                                                                                        {'loss': 1.0498, 'grad_norm': 14.1875, 'learning_rate': 3e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1745.18, 'epoch': 0.11}
-  4%|█████▏                                                                                                                                          | 16/441 [05:15<2:18:26, 19.54s/it]  4%|█████▌                                                                                                                                          | 17/441 [05:35<2:18:07, 19.55s/it]  4%|█████▉                                                                                                                                          | 18/441 [05:54<2:17:41, 19.53s/it]                                                                                                                                                                                        {'loss': 0.998, 'grad_norm': 16.125, 'learning_rate': 3.4000000000000005e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1715.88, 'epoch': 0.12}
-  4%|█████▉                                                                                                                                          | 18/441 [05:54<2:17:41, 19.53s/it]  4%|██████▏                                                                                                                                         | 19/441 [06:14<2:17:10, 19.50s/it]  5%|██████▌                                                                                                                                         | 20/441 [06:33<2:16:51, 19.50s/it]                                                                                                                                                                                        {'loss': 0.8978, 'grad_norm': 12.1875, 'learning_rate': 3.8000000000000005e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1743.55, 'epoch': 0.14}
-  5%|██████▌                                                                                                                                         | 20/441 [06:33<2:16:51, 19.50s/it]  5%|██████▊                                                                                                                                         | 21/441 [06:53<2:16:31, 19.50s/it]  5%|██████                                                                                                                   | 22/441 [07:12<2:16:15, 19.51s/it]                                                                                                                                                                                        {'loss': 0.835, 'grad_norm': 9.0, 'learning_rate': 4.2000000000000004e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1694.44, 'epoch': 0.15}
-  5%|██████                                                                                                                   | 22/441 [07:12<2:16:15, 19.51s/it]  5%|██████▎                                                                                                                  | 23/441 [07:32<2:16:00, 19.52s/it]  5%|██████▌                                                                                                                  | 24/441 [07:51<2:15:38, 19.52s/it]                                                                                                                                                                 {'loss': 0.782, 'grad_norm': 5.46875, 'learning_rate': 4.600000000000001e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1940.93, 'epoch': 0.16}
-  5%|██████▌                                                                                                                  | 24/441 [07:51<2:15:38, 19.52s/it]  6%|██████▊                                                                                                                  | 25/441 [08:11<2:15:22, 19.53s/it]  6%|███████▏                                                                                                                 | 26/441 [08:30<2:14:58, 19.51s/it]                                                                                                                                                                 {'loss': 0.7704, 'grad_norm': 4.1875, 'learning_rate': 5e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1860.31, 'epoch': 0.18}
-  6%|███████▏                                                                                                                 | 26/441 [08:30<2:14:58, 19.51s/it]  6%|███████▍                                                                                                                 | 27/441 [08:50<2:14:45, 19.53s/it]  6%|███████▋                                                                                                                 | 28/441 [09:09<2:14:27, 19.53s/it]                                                                                                                                                                 {'loss': 0.723, 'grad_norm': 3.078125, 'learning_rate': 5.400000000000001e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1823.6, 'epoch': 0.19}
-  6%|███████▋                                                                                                                 | 28/441 [09:09<2:14:27, 19.53s/it]  7%|███████▉                                                                                                                 | 29/441 [09:29<2:14:08, 19.54s/it]  7%|████████▏                                                                                                                | 30/441 [09:48<2:13:47, 19.53s/it]                                                                                                                                                                 {'loss': 0.693, 'grad_norm': 2.28125, 'learning_rate': 5.8e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1915.1, 'epoch': 0.2}
-  7%|████████▏                                                                                                                | 30/441 [09:48<2:13:47, 19.53s/it]  7%|████████▌                                                                                                                | 31/441 [10:08<2:13:28, 19.53s/it]  7%|████████▊                                                                                                                | 32/441 [10:27<2:13:03, 19.52s/it]                                                                                                                                                                 {'loss': 0.6573, 'grad_norm': 1.84375, 'learning_rate': 6.200000000000001e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1819.76, 'epoch': 0.22}
-  7%|████████▊                                                                                                                | 32/441 [10:27<2:13:03, 19.52s/it]  7%|█████████                                                                                                                | 33/441 [10:47<2:12:44, 19.52s/it]  8%|█████████▎                                                                                                               | 34/441 [11:06<2:12:27, 19.53s/it]                                                                                                                                                                 {'loss': 0.7036, 'grad_norm': 1.4296875, 'learning_rate': 6.600000000000001e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1846.31, 'epoch': 0.23}
-  8%|█████████▎                                                                                                               | 34/441 [11:06<2:12:27, 19.53s/it]  8%|█████████▌                                                                                                               | 35/441 [11:26<2:12:08, 19.53s/it]  8%|█████████▉                                                                                                               | 36/441 [11:45<2:11:46, 19.52s/it]                                                                                                                                                                 {'loss': 0.6663, 'grad_norm': 1.2421875, 'learning_rate': 7e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1697.47, 'epoch': 0.24}
-  8%|█████████▉                                                                                                               | 36/441 [11:46<2:11:46, 19.52s/it]  8%|██████████▏                                                                                                              | 37/441 [12:05<2:11:29, 19.53s/it]  9%|██████████▍                                                                                                              | 38/441 [12:25<2:11:16, 19.54s/it]                                                                                                                                                                 {'loss': 0.6091, 'grad_norm': 1.4140625, 'learning_rate': 7.4e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1873.75, 'epoch': 0.26}
-  9%|██████████▍                                                                                                              | 38/441 [12:25<2:11:16, 19.54s/it]  9%|██████████▋                                                                                                              | 39/441 [12:44<2:10:54, 19.54s/it]  9%|██████████▉                                                                                                              | 40/441 [13:04<2:10:35, 19.54s/it]                                                                                                                                                                 {'loss': 0.6687, 'grad_norm': 1.3125, 'learning_rate': 7.800000000000002e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1785.08, 'epoch': 0.27}
-  9%|██████████▉                                                                                                              | 40/441 [13:04<2:10:35, 19.54s/it]  9%|███████████▏                                                                                                             | 41/441 [13:23<2:10:19, 19.55s/it] 10%|███████████▌                                                                                                             | 42/441 [13:43<2:09:51, 19.53s/it]                                                                                                                                                                 {'loss': 0.6337, 'grad_norm': 1.1171875, 'learning_rate': 8.2e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1774.23, 'epoch': 0.29}
- 10%|███████████▌                                                                                                             | 42/441 [13:43<2:09:51, 19.53s/it] 10%|███████████▊                                                                                                             | 43/441 [14:02<2:09:30, 19.52s/it] 10%|████████████                                                                                                             | 44/441 [14:22<2:09:13, 19.53s/it]                                                                                                                                                                 {'loss': 0.6295, 'grad_norm': 0.98046875, 'learning_rate': 8.6e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1824.08, 'epoch': 0.3}
- 10%|████████████                                                                                                             | 44/441 [14:22<2:09:13, 19.53s/it] 10%|████████████▎                                                                                                            | 45/441 [14:41<2:08:46, 19.51s/it] 10%|████████████▌                                                                                                            | 46/441 [15:01<2:08:25, 19.51s/it]                                                                                                                                                                 {'loss': 0.628, 'grad_norm': 1.03125, 'learning_rate': 9e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1823.71, 'epoch': 0.31}
- 10%|████████████▌                                                                                                            | 46/441 [15:01<2:08:25, 19.51s/it] 11%|████████████▉                                                                                                            | 47/441 [15:20<2:08:03, 19.50s/it] 11%|█████████████▏                                                                                                           | 48/441 [15:40<2:07:45, 19.50s/it]                                                                                                                                                                 {'loss': 0.6664, 'grad_norm': 0.9375, 'learning_rate': 9.4e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1811.94, 'epoch': 0.33}
- 11%|█████████████▏                                                                                                           | 48/441 [15:40<2:07:45, 19.50s/it] 11%|█████████████▍                                                                                                           | 49/441 [15:59<2:07:37, 19.53s/it] 11%| | 50/441 [16:19<2:07:16, 19.53s/it]                                                                                                                                                                 {'loss': 0.6383, 'grad_norm': 0.9921875, 'learning_rate': 9.800000000000001e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1855.64, 'epoch': 0.34}
- 11%| | 50/441 [16:19<2:07:16, 19.53s/it] 12%| | 51/441 [16:38<2:07:02, 19.55s/it] 12%| | 52/441 [16:58<2:06:38, 19.53s/it]                                         {'loss': 0.6396, 'grad_norm': 1.0078125, 'learning_rate': 1.02e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1795.97, 'epoch': 0.35}
- 12%| | 52/441 [16:58<2:06:38, 19.53s/it] 12%| | 53/441 [17:17<2:06:16, 19.53s/it] 12%| | 54/441 [17:37<2:06:05, 19.55s/it]                                         {'loss': 0.6171, 'grad_norm': 1.125, 'learning_rate': 1.0600000000000002e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1851.13, 'epoch': 0.37}
- 12%| | 54/441 [17:37<2:06:05, 19.55s/it] 12%| | 55/441 [17:57<2:05:40, 19.54s/it] 13%|▏| 56/441 [18:16<2:05:21, 19.54s/it]                                         {'loss': 0.6126, 'grad_norm': 0.890625, 'learning_rate': 1.1000000000000001e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1718.24, 'epoch': 0.38}
- 13%|▏| 56/441 [18:16<2:05:21, 19.54s/it] 13%|▏| 57/441 [18:36<2:05:02, 19.54s/it] 13%|▏| 58/441 [18:55<2:04:40, 19.53s/it]                                         {'loss': 0.6232, 'grad_norm': 0.859375, 'learning_rate': 1.14e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1859.84, 'epoch': 0.39}
- 13%|▏| 58/441 [18:55<2:04:40, 19.53s/it] 13%|▏| 59/441 [19:15<2:04:18, 19.53s/it] 14%|▏| 60/441 [19:34<2:03:56, 19.52s/it]                                         {'loss': 0.602, 'grad_norm': 0.9453125, 'learning_rate': 1.18e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1872.17, 'epoch': 0.41}
- 14%|▏| 60/441 [19:34<2:03:56, 19.52s/it] 14%|▏| 61/441 [19:54<2:03:35, 19.51s/it] 14%|▏| 62/441 [20:13<2:03:16, 19.52s/it]                                         {'loss': 0.6306, 'grad_norm': 0.8359375, 'learning_rate': 1.22e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1696.29, 'epoch': 0.42}
- 14%|▏| 62/441 [20:13<2:03:16, 19.52s/it] 14%|▏| 63/441 [20:33<2:03:00, 19.53s/it] 15%|▏| 64/441 [20:52<2:02:36, 19.51s/it]                                         {'loss': 0.6257, 'grad_norm': 0.91015625, 'learning_rate': 1.2600000000000001e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1813.75, 'epoch': 0.44}
- 15%|▏| 64/441 [20:52<2:02:36, 19.51s/it] 15%|▏| 65/441 [21:12<2:02:14, 19.51s/it] 15%|▏| 66/441 [21:31<2:01:56, 19.51s/it]                                         {'loss': 0.5798, 'grad_norm': 0.828125, 'learning_rate': 1.3000000000000001e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1832.62, 'epoch': 0.45}
- 15%|▏| 66/441 [21:31<2:01:56, 19.51s/it] 15%|▏| 67/441 [21:51<2:01:37, 19.51s/it] 15%|▏| 68/441 [22:10<2:01:20, 19.52s/it]                                         {'loss': 0.6278, 'grad_norm': 0.94921875, 'learning_rate': 1.3400000000000002e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1814.05, 'epoch': 0.46}
- 15%|▏| 68/441 [22:10<2:01:20, 19.52s/it] 16%|▏| 69/441 [22:30<2:01:03, 19.52s/it] 16%|▏| 70/441 [22:49<2:00:45, 19.53s/it]                                         {'loss': 0.6058, 'grad_norm': 0.91796875, 'learning_rate': 1.38e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1772.0, 'epoch': 0.48}
- 16%|▏| 70/441 [22:49<2:00:45, 19.53s/it] 16%|▏| 71/441 [23:09<2:00:26, 19.53s/it] 16%|▏| 72/441 [23:28<2:00:06, 19.53s/it]                                         {'loss': 0.6159, 'grad_norm': 0.890625, 'learning_rate': 1.4200000000000001e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1929.38, 'epoch': 0.49}
- 16%|▏| 72/441 [23:28<2:00:06, 19.53s/it] 17%|▏| 73/441 [23:48<1:59:44, 19.52s/it] 17%|▏| 74/441 [24:07<1:59:23, 19.52s/it]                                         {'loss': 0.6195, 'grad_norm': 0.953125, 'learning_rate': 1.46e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1777.78, 'epoch': 0.5}
- 17%|▏| 74/441 [24:07<1:59:23, 19.52s/it] 17%|▏| 75/441 [24:27<1:59:06, 19.53s/it] 17%|▏| 76/441 [24:46<1:58:44, 19.52s/it]                                         {'loss': 0.5998, 'grad_norm': 0.87109375, 'learning_rate': 1.5000000000000002e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1703.17, 'epoch': 0.52}
- 17%|▏| 76/441 [24:47<1:58:44, 19.52s/it] 17%|▏| 77/441 [25:06<1:58:24, 19.52s/it] 18%|▏| 78/441 [25:26<1:58:05, 19.52s/it]                                         {'loss': 0.6061, 'grad_norm': 0.953125, 'learning_rate': 1.54e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1814.85, 'epoch': 0.53}
- 18%|▏| 78/441 [25:26<1:58:05, 19.52s/it] 18%|▏| 79/441 [25:45<1:57:39, 19.50s/it] 18%|▏| 80/441 [26:05<1:57:23, 19.51s/it]                                         {'loss': 0.616, 'grad_norm': 0.9375, 'learning_rate': 1.58e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1739.92, 'epoch': 0.54}
- 18%|▏| 80/441 [26:05<1:57:23, 19.51s/it] 18%|▏| 81/441 [26:24<1:57:01, 19.51s/it] 19%|▏| 82/441 [26:44<1:56:44, 19.51s/it]                                         {'loss': 0.6259, 'grad_norm': 0.81640625, 'learning_rate': 1.62e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1805.38, 'epoch': 0.56}
- 19%|▏| 82/441 [26:44<1:56:44, 19.51s/it] 19%|▏| 83/441 [27:03<1:56:26, 19.52s/it] 19%|▏| 84/441 [27:23<1:56:07, 19.52s/it]                                         {'loss': 0.6387, 'grad_norm': 0.9921875, 'learning_rate': 1.66e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1787.22, 'epoch': 0.57}
- 19%|▏| 84/441 [27:23<1:56:07, 19.52s/it] 19%|▏| 85/441 [27:42<1:55:51, 19.53s/it] 20%|▏| 86/441 [28:02<1:55:29, 19.52s/it]                                         {'loss': 0.5875, 'grad_norm': 0.91015625, 'learning_rate': 1.7e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1719.75, 'epoch': 0.58}
- 20%|▏| 86/441 [28:02<1:55:29, 19.52s/it] 20%|▏| 87/441 [28:21<1:55:15, 19.54s/it] 20%|▏| 88/441 [28:41<1:54:52, 19.53s/it]                                         {'loss': 0.5843, 'grad_norm': 0.921875, 'learning_rate': 1.7400000000000003e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1790.11, 'epoch': 0.6}
- 20%|▏| 88/441 [28:41<1:54:52, 19.53s/it] 20%|▏| 89/441 [29:00<1:54:35, 19.53s/it] 20%|▏| 90/441 [29:20<1:54:13, 19.53s/it]                                         {'loss': 0.5959, 'grad_norm': 0.99609375, 'learning_rate': 1.7800000000000002e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1883.18, 'epoch': 0.61}
- 20%|▏| 90/441 [29:20<1:54:13, 19.53s/it] 21%|▏| 91/441 [29:39<1:53:51, 19.52s/it] 21%|▏| 92/441 [29:59<1:53:27, 19.51s/it]                                         {'loss': 0.6133, 'grad_norm': 0.85546875, 'learning_rate': 1.8200000000000002e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1837.53, 'epoch': 0.63}
- 21%|▏| 92/441 [29:59<1:53:27, 19.51s/it] 21%|▏| 93/441 [30:18<1:53:08, 19.51s/it] 21%|▏| 94/441 [30:38<1:52:52, 19.52s/it]                                         {'loss': 0.6087, 'grad_norm': 0.96484375, 'learning_rate': 1.86e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1754.84, 'epoch': 0.64}
- 21%|▏| 94/441 [30:38<1:52:52, 19.52s/it] 22%|▏| 95/441 [30:57<1:52:32, 19.52s/it] 22%|▏| 96/441 [31:17<1:52:17, 19.53s/it]                                         {'loss': 0.5945, 'grad_norm': 0.8984375, 'learning_rate': 1.9e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1892.45, 'epoch': 0.65}
- 22%|▏| 96/441 [31:17<1:52:17, 19.53s/it] 22%|██████████████████████████▌                                                                                              | 97/441 [31:36<1:51:59, 19.53s/it] 22%|██████████████████████████▉                                                                                              | 98/441 [31:56<1:51:37, 19.53s/it]                                                                                                                                                                 {'loss': 0.5879, 'grad_norm': 0.95703125, 'learning_rate': 1.94e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1714.71, 'epoch': 0.67}
- 22%|██████████████████████████▉                                                                                              | 98/441 [31:56<1:51:37, 19.53s/it] 22%|███████████████████████████▏                                                                                             | 99/441 [32:15<1:51:13, 19.51s/it] 23%|█████��█████████████████████▏                                                                                            | 100/441 [32:35<1:50:53, 19.51s/it]                                                                                                                                                                 {'loss': 0.5778, 'grad_norm': 0.91015625, 'learning_rate': 1.98e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1767.39, 'epoch': 0.68}
- 23%|███████████████████████████▏                                                                                            | 100/441 [32:35<1:50:53, 19.51s/it] 23%|███████████████████████████▍                                                                                            | 101/441 [32:54<1:50:37, 19.52s/it] 23%|███████████████████████████▊                                                                                            | 102/441 [33:14<1:50:15, 19.51s/it]                                                                                                                                                                 {'loss': 0.5906, 'grad_norm': 0.87109375, 'learning_rate': 1.9999575617057277e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1794.73, 'epoch': 0.69}
- 23%|███████████████████████████▊                                                                                            | 102/441 [33:14<1:50:15, 19.51s/it] 23%|████████████████████████████                                                                                            | 103/441 [33:33<1:49:54, 19.51s/it] 24%|████████████████████████████▎                                                                                           | 104/441 [33:53<1:49:30, 19.50s/it]                                                                                                                                                                 {'loss': 0.6098, 'grad_norm': 0.98046875, 'learning_rate': 1.999618076963348e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1763.58, 'epoch': 0.71}
- 24%|████████████████████████████▎                                                                                           | 104/441 [33:53<1:49:30, 19.50s/it] 24%|████████████████████████████▌                                                                                           | 105/441 [34:12<1:49:08, 19.49s/it] 24%|████████████████████████████▊                                                                                           | 106/441 [34:32<1:48:49, 19.49s/it]                                                                                                                                                                 {'loss': 0.6261, 'grad_norm': 0.9921875, 'learning_rate': 1.99893922273337e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1761.34, 'epoch': 0.72}
- 24%|████████████████████████████▊                                                                                           | 106/441 [34:32<1:48:49, 19.49s/it] 24%|█████████████████████████████                                                                                           | 107/441 [34:51<1:48:31, 19.49s/it] 24%|█████████████████████████████▍                                                                                          | 108/441 [35:11<1:48:13, 19.50s/it]                                                                                                                                                                 {'loss': 0.6035, 'grad_norm': 0.9140625, 'learning_rate': 1.997921229486228e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1760.26, 'epoch': 0.73}
- 24%|█████████████████████████████▍                                                                                          | 108/441 [35:11<1:48:13, 19.50s/it] 25%|█████████████���███████████████▋                                                                                          | 109/441 [35:30<1:47:56, 19.51s/it] 25%|█████████████████████████████▉                                                                                          | 110/441 [35:50<1:47:30, 19.49s/it]                                                                                                                                                                 {'loss': 0.6106, 'grad_norm': 0.9296875, 'learning_rate': 1.996564442829764e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1746.6, 'epoch': 0.75}
- 25%|█████████████████████████████▉                                                                                          | 110/441 [35:50<1:47:30, 19.49s/it] 25%|██████████████████████████████▏                                                                                         | 111/441 [36:09<1:47:15, 19.50s/it] 25%|██████████████████████████████▍                                                                                         | 112/441 [36:29<1:46:56, 19.50s/it]                                                                                                                                                                 {'loss': 0.5735, 'grad_norm': 0.921875, 'learning_rate': 1.994869323391895e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1867.44, 'epoch': 0.76}
- 25%|██████████████████████████████▍                                                                                         | 112/441 [36:29<1:46:56, 19.50s/it] 26%|██████████████████████████████▋                                                                                         | 113/441 [36:48<1:46:40, 19.51s/it] 26%|███████████████████████████████                                                                                         | 114/441 [37:08<1:46:25, 19.53s/it]                                                                                                                                                                 {'loss': 0.5901, 'grad_norm': 0.8203125, 'learning_rate': 1.99283644666423e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1997.18, 'epoch': 0.77}
- 26%|███████████████████████████████                                                                                         | 114/441 [37:08<1:46:25, 19.53s/it] 26%|███████████████████████████████▎                                                                                        | 115/441 [37:28<1:46:05, 19.53s/it] 26%|███████████████████████████████▌                                                                                        | 116/441 [37:47<1:45:42, 19.51s/it]                                                                                                                                                                 {'loss': 0.5901, 'grad_norm': 1.390625, 'learning_rate': 1.9904665028066898e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1756.14, 'epoch': 0.79}
- 26%|███████████████████████████████▌                                                                                        | 116/441 [37:47<1:45:42, 19.51s/it] 27%|██████████████████████████████████████████████▍                                                                                                                                | 117/441 [38:06<1:45:19, 19.51s/it] 27%|██████████████████████████████████████████████▊                                                                                                                                | 118/441 [38:26<1:45:05, 19.52s/it]                                                                                                                                                                                                                        {'loss': 0.5846, 'grad_norm': 0.84375, 'learning_rate': 1.9877602964131996e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1838.19, 'epoch': 0.8}
- 27%|██████████████████████████████████████████████▊                                                                                                                                | 118/441 [38:26<1:45:05, 19.52s/it] 27%|███████████████████████████████████████████████▏                                                                                                                               | 119/441 [38:46<1:44:48, 19.53s/it] 27%|███████████████████████████████████████████████▌                                                                                                                               | 120/441 [39:05<1:44:31, 19.54s/it]                                                                                                                                                                                                                        {'loss': 0.602, 'grad_norm': 0.84375, 'learning_rate': 1.984718746238531e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1861.69, 'epoch': 0.82}
- 27%|███████████████████████████████████████████████▌                                                                                                                               | 120/441 [39:05<1:44:31, 19.54s/it] 27%|████████████████████████████████████████████████                                                                                                                               | 121/441 [39:25<1:44:12, 19.54s/it] 28%|████████████████████████████████████████████████▍                                                                                                                              | 122/441 [39:44<1:43:52, 19.54s/it]                                                                                                                                                                                                                        {'loss': 0.6116, 'grad_norm': 0.85546875, 'learning_rate': 1.9813428848863828e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1851.36, 'epoch': 0.83}
- 28%|████████████████████████████████████████████████▍                                                                                                                              | 122/441 [39:44<1:43:52, 19.54s/it] 28%|████████████████████████████████████████████████▊                                                                                                                              | 123/441 [40:04<1:43:29, 19.53s/it] 28%|█████████████████████████████████████████████████▏                                                                                                                             | 124/441 [40:23<1:43:05, 19.51s/it]                                                                                                                                                                                                                        {'loss': 0.6095, 'grad_norm': 0.84375, 'learning_rate': 1.9776338584588153e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1785.59, 'epoch': 0.84}
- 28%|█████████████████████████████████████████████████▏                                                                                                                             | 124/441 [40:23<1:43:05, 19.51s/it] 28%|█████████████████████████████████████████████████▌                                                                                                                             | 125/441 [40:43<1:42:44, 19.51s/it] 29%|██████████████████████████████████████████████████                                                                                                                             | 126/441 [41:02<1:42:24, 19.51s/it]                                                                                                                                                                                                                        {'loss': 0.5763, 'grad_norm': 1.4453125, 'learning_rate': 1.9735929261671484e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1794.64, 'epoch': 0.86}
- 29%|██████████████████████████████████████████████████                                                                                                                             | 126/441 [41:02<1:42:24, 19.51s/it] 29%|██████████████████████████████████████████████████▍                                                                                                                            | 127/441 [41:22<1:42:03, 19.50s/it] 29%|██████████████████████████████████████████████████▊                                                                                                                            | 128/441 [41:41<1:41:49, 19.52s/it]                                                                                                                                                                                                                        {'loss': 0.5813, 'grad_norm': 1.21875, 'learning_rate': 1.969221459904461e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1835.3, 'epoch': 0.87}
- 29%|██████████████████████████████████████████████████▊                                                                                                                            | 128/441 [41:41<1:41:49, 19.52s/it] 29%|███████████████████████████████████████████████████▏                                                                                                                           | 129/441 [42:01<1:41:34, 19.53s/it] 29%|███████████████████████████████████████████████████▌                                                                                                                           | 130/441 [42:20<1:41:08, 19.51s/it]                                                                                                                                                                                                                        {'loss': 0.5763, 'grad_norm': 0.84765625, 'learning_rate': 1.964520943779834e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1840.16, 'epoch': 0.88}
- 29%|███████████████████████████████████████████████████▌                                                                                                                           | 130/441 [42:20<1:41:08, 19.51s/it] 30%|███████████████████████████████████████████████████▉                                                                                                                           | 131/441 [42:40<1:40:51, 19.52s/it] 30%|████████████████████████████████████████████████████▍                                                                                                                          | 132/441 [42:59<1:40:31, 19.52s/it]                                                                                                                                                                                                                        {'loss': 0.5714, 'grad_norm': 0.8671875, 'learning_rate': 1.9594929736144978e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1841.51, 'epoch': 0.9}
- 30%|████████████████████████████████████████████████████▍                                                                                                                          | 132/441 [42:59<1:40:31, 19.52s/it] 30%|████████████████████████████████████████████████████▊                                                                                                                          | 133/441 [43:19<1:40:17, 19.54s/it] 30%|█████████████████████████████████████████████████████▏                                                                                                                         | 134/441 [43:38<1:39:49, 19.51s/it]                                                                                                                                                                                                                        {'loss': 0.5909, 'grad_norm': 0.84765625, 'learning_rate': 1.954139256400049e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1865.67, 'epoch': 0.91}
- 30%|█████████████████████████████████████████████████████▏                                                                                                                         | 134/441 [43:38<1:39:49, 19.51s/it] 31%|█████████████████████████████████████████████████████▌                                                                                                                         | 135/441 [43:58<1:39:29, 19.51s/it] 31%|█████████████████████████████████████████████████████▉                                                                                                                         | 136/441 [44:17<1:39:11, 19.51s/it]                                                                                                                                                                                                                        {'loss': 0.5737, 'grad_norm': 0.84765625, 'learning_rate': 1.948461609718933e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1734.17, 'epoch': 0.92}
- 31%|█████████████████████████████████████████████████████▉                                                                                                                         | 136/441 [44:17<1:39:11, 19.51s/it] 31%|██████████████████████████████████████████████████████▎                                                                                                                        | 137/441 [44:37<1:38:51, 19.51s/it] 31%|██████████████████████████████████████████████████████▊                                                                                                                        | 138/441 [44:56<1:38:29, 19.50s/it]                                                                                                                                                                                                                        {'loss': 0.5888, 'grad_norm': 1.375, 'learning_rate': 1.9424619611273726e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1843.9, 'epoch': 0.94}
- 31%|██████████████████████████████████████████████████████▊                                                                                                                        | 138/441 [44:56<1:38:29, 19.50s/it] 32%|███████████████████████████████████████████████████████▏                                                                                                                       | 139/441 [45:16<1:38:13, 19.51s/it] 32%|███████████████████████████████████████████████████████▌                                                                                                                       | 140/441 [45:35<1:37:52, 19.51s/it]                                                                                                                                                                                                                        {'loss': 0.5598, 'grad_norm': 1.03125, 'learning_rate': 1.9361423475009663e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1813.37, 'epoch': 0.95}
- 32%|███████████████████████████████████████████████████████▌                                                                                                                       | 140/441 [45:36<1:37:52, 19.51s/it] 32%|███████████████████████████████████████████████████████▉                                                                                                                       | 141/441 [45:55<1:37:35, 19.52s/it] 32%|████████████████████████████████████████████████████████▎                                                                                                                      | 142/441 [46:14<1:37:11, 19.50s/it]                                                                                                                                                                                                                        {'loss': 0.6025, 'grad_norm': 1.0078125, 'learning_rate': 1.9295049143431685e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1763.89, 'epoch': 0.97}
- 32%|████████████████████████████████████████████████████████▎                                                                                                                      | 142/441 [46:15<1:37:11, 19.50s/it] 32%|████████████████████████████████████████████████████████▋                                                                                                                      | 143/441 [46:34<1:36:50, 19.50s/it] 33%|███████████████████████████████████████▏                                                                                | 144/441 [46:53<1:36:32, 19.50s/it]                                                                                                                                                                                                                        {'loss': 0.5754, 'grad_norm': 0.91015625, 'learning_rate': 1.9225519150568966e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1786.91, 'epoch': 0.98}
- 33%|███████████████████████████████████████▏                                                                                | 144/441 [46:54<1:36:32, 19.50s/it] 33%|███████████████████████████████████████▍                                                                                | 145/441 [47:13<1:36:15, 19.51s/it] 33%|███████████████████████████████████████▋                                                                                | 146/441 [47:33<1:36:00, 19.53s/it]                                                                                                                                                                 {'loss': 0.5536, 'grad_norm': 0.90625, 'learning_rate': 1.915285710179498e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1865.74, 'epoch': 0.99}
- 33%|███████████████████████████████████████▋                                                                                | 146/441 [47:33<1:36:00, 19.53s/it] 33%|████████████████████████████████████████                                                                                | 147/441 [47:52<1:35:39, 19.52s/it] 34%|████████████████████████████████████████▎                                                                               | 148/441 [47:55<1:10:24, 14.42s/it]                                                                                                                                                                 {'loss': 0.5007, 'grad_norm': 2.078125, 'learning_rate': 1.9077087665813547e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 8105.9, 'epoch': 1.0}
- 34%|████████████████████████████████████████▎                                                                               | 148/441 [47:55<1:10:24, 14.42s/it][2025-12-22 17:37:20,374] [INFO] [axolotl.core.trainers.base._save:671] [PID:37090] Saving model checkpoint to ./outputs/qwen3-4b-instruct-ded-full-train/checkpoint-148
- 34%|████████████████████████████████████████▌                                                                               | 149/441 [50:23<4:25:50, 54.63s/it] 34%|████████████████████████████████████████▊                                                                               | 150/441 [50:42<3:33:31, 44.03s/it]                                                                                                                                                                 {'loss': 0.5422, 'grad_norm': 0.875, 'learning_rate': 1.8998236566283774e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1820.08, 'epoch': 1.01}
- 34%|████████████████████████████████████████▊                                                                               | 150/441 [50:42<3:33:31, 44.03s/it] 34%|██████████████████████████▎                                                  | 151/441 [51:02<2:57:01, 36.63s/it]                                            34%|██████████████████████████▌                                                  | 152/441 [51:21<2:31:37, 31.48s/it]                                                                                                                      {'loss': 0.5536, 'grad_norm': 1.0546875, 'learning_rate': 1.8916330573086953e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1812.68, 'epoch': 1.03}
- 34%|██████████████████████████▌                                                  | 152/441 [51:21<2:31:37, 31.48s/it] 35%|██████████████████████████▋                                                  | 153/441 [51:41<2:13:42, 27.86s/it] 35%|██████████████████████████▉                                                  | 154/441 [52:00<2:01:06, 25.32s/it]                                                                                                                      {'loss': 0.5386, 'grad_norm': 0.90234375, 'learning_rate': 1.883139749323816e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1801.87, 'epoch': 1.04}
- 35%|██████████████████████████▉                                                  | 154/441 [52:00<2:01:06, 25.32s/it] 35%|███████████████████████████                                                  | 155/441 [52:19<1:52:12, 23.54s/it] 35%|███████████████████████████▏                                                 | 156/441 [52:39<1:45:58, 22.31s/it]                                                                                                                      {'loss': 0.5804, 'grad_norm': 0.859375, 'learning_rate': 1.8743466161445823e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1817.68, 'epoch': 1.05}
- 35%|███████████████████████████▏                                                 | 156/441 [52:39<1:45:58, 22.31s/it] 36%|████████████████████████▌                                            | 157/441 [52:58<1:41:37, 21.47s/it]         36%|███████████████▊                            | 158/441 [53:18<1:38:26, 20.87s/it]                                                                                                              {'loss': 0.5573, 'grad_norm': 0.84375, 'learning_rate': 1.8652566430322355e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1754.66, 'epoch': 1.07}
- 36%|███████████████▊                            | 158/441 [53:18<1:38:26, 20.87s/it] 36%|███████████████▊                            | 159/441 [53:37<1:36:11, 20.46s/it] 36%|███████████████▉                            | 160/441 [53:57<1:34:22, 20.15s/it]                                                                                     {'loss': 0.5521, 'grad_norm': 0.9296875, 'learning_rate': 1.855872916024923e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1760.39, 'epoch': 1.08}
- 36%|███████████████▉                            | 160/441 [53:57<1:34:22, 20.15s/it] 37%|████████████████                            | 161/441 [54:16<1:33:11, 19.97s/it] 37%|█████████████████████████████                                                  | 162/441 [54:36<1:32:09, 19.82s/it]                                                                                                                        {'loss': 0.5483, 'grad_norm': 1.140625, 'learning_rate': 1.846198620889988e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1799.67, 'epoch': 1.1}
- 37%|█████████████████████████████                                                  | 162/441 [54:36<1:32:09, 19.82s/it] 37%|█████████████████████████████▏                                                 | 163/441 [54:55<1:31:23, 19.72s/it] 37%|█████████████████████████████▍                                                 | 164/441 [55:15<1:30:44, 19.65s/it]                                                                                                                        {'loss': 0.5419, 'grad_norm': 0.9296875, 'learning_rate': 1.836237042042407e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1818.12, 'epoch': 1.11}
- 37%|█████████████████████████████▍                                                 | 164/441 [55:15<1:30:44, 19.65s/it] 37%|█████████████████████████████▌                                                 | 165/441 [55:34<1:30:09, 19.60s/it] 38%|█████████████████████████████▋                                                 | 166/441 [55:54<1:29:42, 19.57s/it]                                                                                                                        {'loss': 0.5449, 'grad_norm': 0.921875, 'learning_rate': 1.8259915614297332e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1820.54, 'epoch': 1.12}
- 38%|█████████████████████████████▋                                                 | 166/441 [55:54<1:29:42, 19.57s/it] 38%|█████████████████████████████▉                                                 | 167/441 [56:13<1:29:18, 19.56s/it] 38%|██████████████████████████████                                                 | 168/441 [56:33<1:28:56, 19.55s/it]                                                                                                                        {'loss': 0.5511, 'grad_norm': 0.91015625, 'learning_rate': 1.8154656573839276e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1836.98, 'epoch': 1.14}
- 38%|██████████████████████████████                                                 | 168/441 [56:33<1:28:56, 19.55s/it] 38%|██████████████████████████████▎                                                | 169/441 [56:52<1:28:52, 19.60s/it] 39%|██████████████████████████████▍                                                | 170/441 [57:12<1:28:31, 19.60s/it]                                                                                                                        {'loss': 0.5618, 'grad_norm': 1.6328125, 'learning_rate': 1.8046629034404683e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1688.22, 'epoch': 1.15}
- 39%|██████████████████████████████▍                                                | 170/441 [57:12<1:28:31, 19.60s/it] 39%|██████████████████████████████▋                                                | 171/441 [57:32<1:28:09, 19.59s/it] 39%|██████████████████████████████▊                                                | 172/441 [57:51<1:27:41, 19.56s/it]                                                                                                                        {'loss': 0.5553, 'grad_norm': 2.328125, 'learning_rate': 1.793586967125138e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1850.07, 'epoch': 1.16}
- 39%|██████████████████████████████▊                                                | 172/441 [57:51<1:27:41, 19.56s/it] 39%|██████████████████████████████▉                                                | 173/441 [58:11<1:27:19, 19.55s/it] 39%|███████████████████████████████▏                                               | 174/441 [58:30<1:27:02, 19.56s/it]                                                                                                                        {'loss': 0.5139, 'grad_norm': 0.85546875, 'learning_rate': 1.7822416087089025e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1860.18, 'epoch': 1.18}
- 39%|███████████████████████████████▏                                               | 174/441 [58:30<1:27:02, 19.56s/it] 40%|███████████████████████████████▎                                               | 175/441 [58:50<1:26:36, 19.53s/it] 40%|███████████████████████████████▌                                               | 176/441 [59:09<1:26:22, 19.56s/it]                                                                                                                        {'loss': 0.5597, 'grad_norm': 0.890625, 'learning_rate': 1.7706306799313025e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1791.7, 'epoch': 1.19}
- 40%|███████████████████████████████▌                                               | 176/441 [59:09<1:26:22, 19.56s/it] 40%|███████████████████████████████▋                                               | 177/441 [59:29<1:26:03, 19.56s/it] 40%|███████████████████████████████▉                                               | 178/441 [59:48<1:25:47, 19.57s/it]                                                                                                                        {'loss': 0.547, 'grad_norm': 0.87109375, 'learning_rate': 1.758758122692791e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1887.4, 'epoch': 1.2}
- 40%|███████████████████████████████▉                                               | 178/441 [59:49<1:25:47, 19.57s/it] 41%|███████████████████████████████▎                                             | 179/441 [1:00:08<1:25:49, 19.65s/it] 41%|███████████████████████████████▍                                             | 180/441 [1:00:28<1:25:16, 19.60s/it]                                                                                                                        {'loss': 0.5435, 'grad_norm': 1.875, 'learning_rate': 1.7466279677164598e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1680.73, 'epoch': 1.22}
- 41%|███████████████████████████████▍                                             | 180/441 [1:00:28<1:25:16, 19.60s/it] 41%|███████████████████████████████▌                                             | 181/441 [1:00:47<1:24:44, 19.55s/it] 41%|███████████████████████████████▊                                             | 182/441 [1:01:07<1:24:21, 19.54s/it]                                                                                                                        {'loss': 0.5565, 'grad_norm': 1.2265625, 'learning_rate': 1.7342443331796147e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1787.56, 'epoch': 1.23}
- 41%|███████████████████████████████▊                                             | 182/441 [1:01:07<1:24:21, 19.54s/it] 41%|███████████████████████████████▉                                             | 183/441 [1:01:26<1:23:57, 19.52s/it] 42%|████████████████████████████████▏                                            | 184/441 [1:01:46<1:23:34, 19.51s/it]                                                                                                                        {'loss': 0.5445, 'grad_norm': 0.8828125, 'learning_rate': 1.7216114233156567e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1815.15, 'epoch': 1.24}
- 42%|████████████████████████████████▏                                            | 184/441 [1:01:46<1:23:34, 19.51s/it] 42%|████████████████████████████████▎                                            | 185/441 [1:02:05<1:23:14, 19.51s/it] 42%|████████████████████████████████▍                                            | 186/441 [1:02:25<1:22:52, 19.50s/it]                                                                                                                        {'loss': 0.5534, 'grad_norm': 1.796875, 'learning_rate': 1.7087335269867486e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1793.13, 'epoch': 1.26}
- 42%|████████████████████████████████▍                                            | 186/441 [1:02:25<1:22:52, 19.50s/it] 42%|████████████████████████████████▋                                            | 187/441 [1:02:44<1:22:33, 19.50s/it] 43%|████████████████████████████████▊                                            | 188/441 [1:03:04<1:22:10, 19.49s/it]                                                                                                                        {'loss': 0.5227, 'grad_norm': 0.9921875, 'learning_rate': 1.695615016227749e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1785.0, 'epoch': 1.27}
- 43%|████████████████████████████████▊                                            | 188/441 [1:03:04<1:22:10, 19.49s/it] 43%|█████████████████████████████████                                            | 189/441 [1:03:23<1:21:48, 19.48s/it] 43%|█████████████████████████████████▏                                           | 190/441 [1:03:43<1:21:31, 19.49s/it]                                                                                                                        {'loss': 0.5404, 'grad_norm': 0.875, 'learning_rate': 1.6822603447619127e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1855.45, 'epoch': 1.29}
- 43%|█████████████████████████████████▏                                           | 190/441 [1:03:43<1:21:31, 19.49s/it] 43%|█████████████████████████████████▎                                           | 191/441 [1:04:02<1:21:18, 19.52s/it] 44%|███████████████████████████████████████████████████████████████████████████▎                                                                                                 | 192/441 [1:04:22<1:20:56, 19.50s/it]                                                                                                                                                                                                                        {'loss': 0.5258, 'grad_norm': 0.8984375, 'learning_rate': 1.668674046488852e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1813.24, 'epoch': 1.3}
- 44%|███████████████████████████████████████████████████████████████████████████▎                                                                                                 | 192/441 [1:04:22<1:20:56, 19.50s/it] 44%|███████████████████████████████████████████████████████████████████████████▋                                                                                                 | 193/441 [1:04:41<1:20:36, 19.50s/it] 44%|██████████████████████████████████████████████▏                                                          | 194/441 [1:05:01<1:20:17, 19.50s/it]                                                                                                                                                                                                                        {'loss': 0.5691, 'grad_norm': 0.9453125, 'learning_rate': 1.6548607339452853e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1845.43, 'epoch': 1.31}
- 44%|██████████████████████████████████████████████▏                                                          | 194/441 [1:05:01<1:20:17, 19.50s/it] 44%|██████████████████████████████████████████████▍                                                          | 195/441 [1:05:20<1:19:57, 19.50s/it] 44%|██████████████████████████████████████████████▋                                                          | 196/441 [1:05:40<1:19:37, 19.50s/it]                                                                                                                                                    {'loss': 0.5299, 'grad_norm': 0.9296875, 'learning_rate': 1.6408250967390806e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1794.23, 'epoch': 1.33}
- 44%|██████████████████████████████████████████████▋                                                          | 196/441 [1:05:40<1:19:37, 19.50s/it] 45%|██████████████████████████████████████████████▉                                                          | 197/441 [1:05:59<1:19:15, 19.49s/it] 45%|███████████████████████████████████████████████▏                                                         | 198/441 [1:06:19<1:18:57, 19.49s/it]                                                                                                                                                    {'loss': 0.5222, 'grad_norm': 0.90234375, 'learning_rate': 1.6265718999571416e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1864.27, 'epoch': 1.34}
- 45%|███████████████████████████████████████████████▏                                                         | 198/441 [1:06:19<1:18:57, 19.49s/it] 45%|███████████████████████████████████████████████▍                                                         | 199/441 [1:06:38<1:18:41, 19.51s/it] 45%|███████████████████████████████████████████████▌                                                         | 200/441 [1:06:58<1:18:18, 19.50s/it]                                                                                                                                                    {'loss': 0.5483, 'grad_norm': 0.9765625, 'learning_rate': 1.612105982547663e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1799.33, 'epoch': 1.35}
- 45%|███████████████████████████████████████████████▌                                                         | 200/441 [1:06:58<1:18:18, 19.50s/it] 46%|███████████████████████████████████████████████▊                                                         | 201/441 [1:07:18<1:18:48, 19.70s/it] 46%|████████████████████████████████████████████████                                                         | 202/441 [1:07:37<1:18:13, 19.64s/it]                                                                                                                                                    {'loss': 0.5277, 'grad_norm': 1.046875, 'learning_rate': 1.597432255677311e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1819.39, 'epoch': 1.37}
- 46%|████████████████████████████████████████████████                                                         | 202/441 [1:07:38<1:18:13, 19.64s/it] 46%|████████████████████████████████████████████████▎                                                        | 203/441 [1:07:57<1:17:51, 19.63s/it] 46%|████████████████████████████████████████████████▌                                                        | 204/441 [1:08:16<1:17:19, 19.58s/it]                                                                                                                                                    {'loss': 0.5441, 'grad_norm': 1.078125, 'learning_rate': 1.582555701063887e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1693.21, 'epoch': 1.38}
- 46%|████████████████████████████████████████████████▌                                                        | 204/441 [1:08:16<1:17:19, 19.58s/it] 46%|████████████████████████████████████████████████▊                                                        | 205/441 [1:08:36<1:16:52, 19.54s/it] 47%|█████████████████████████████████████████████████                                                        | 206/441 [1:08:55<1:16:26, 19.52s/it]                                                                                                                                                    {'loss': 0.5306, 'grad_norm': 0.9375, 'learning_rate': 1.567481369285041e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1740.66, 'epoch': 1.39}
- 47%|█████████████████████████████████████████████████                                                        | 206/441 [1:08:55<1:16:26, 19.52s/it] 47%|█████████████████████████████████████████████████▎                                                       | 207/441 [1:09:15<1:16:01, 19.49s/it] 47%|█████████████████████████████████████████████████▌                                                       | 208/441 [1:09:34<1:15:42, 19.50s/it]                                                                                                                                                    {'loss': 0.5417, 'grad_norm': 0.84375, 'learning_rate': 1.552214378063599e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1798.15, 'epoch': 1.41}
- 47%|█████████████████████████████████████████████████▌                                                       | 208/441 [1:09:34<1:15:42, 19.50s/it] 47%|█████████████████████████████████████████████████▊                                                       | 209/441 [1:09:54<1:15:21, 19.49s/it] 48%|██████████████████████████████████████████████████                                                       | 210/441 [1:10:13<1:15:01, 19.49s/it]                                                                                                                                                    {'loss': 0.571, 'grad_norm': 0.8828125, 'learning_rate': 1.5367599105301068e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1876.36, 'epoch': 1.42}
- 48%|██████████████████████████████████████████████████                                                       | 210/441 [1:10:13<1:15:01, 19.49s/it] 48%|██████████████████████████████████████████████████▏                                                      | 211/441 [1:10:33<1:14:39, 19.47s/it] 48%|██████████████████████████████████████████████████▍                                                      | 212/441 [1:10:52<1:14:18, 19.47s/it]                                                                                                                                                    {'loss': 0.5429, 'grad_norm': 0.93359375, 'learning_rate': 1.5211232134631586e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1781.07, 'epoch': 1.44}
- 48%|██████████████████████████████████████████████████▍                                                      | 212/441 [1:10:52<1:14:18, 19.47s/it] 48%|██████████████████████████████████████████████████▋                                                      | 213/441 [1:11:12<1:13:59, 19.47s/it] 49%|██████████████████████████████████████████████████▉                                                      | 214/441 [1:11:31<1:13:41, 19.48s/it]                                                                                                                                                    {'loss': 0.5514, 'grad_norm': 0.9609375, 'learning_rate': 1.5053095955081184e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1792.67, 'epoch': 1.45}
- 49%|██████████████████████████████████████████████████▉                                                      | 214/441 [1:11:31<1:13:41, 19.48s/it] 49%|███████████████████████████████████████████████████▏                                                     | 215/441 [1:11:51<1:13:23, 19.49s/it] 49%|███████████████████████████████████████████████████▍                                                     | 216/441 [1:12:10<1:13:07, 19.50s/it]                                                                                                                                                    {'loss': 0.539, 'grad_norm': 0.87109375, 'learning_rate': 1.4893244253748439e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1858.22, 'epoch': 1.46}
- 49%|███████████████████████████████████████████████████▍                                                     | 216/441 [1:12:10<1:13:07, 19.50s/it] 49%|███████████████████████████████████████████████████▋                                                     | 217/441 [1:12:30<1:12:49, 19.50s/it] 49%|███████████████████████████████████████████████████▉                                                     | 218/441 [1:12:49<1:12:26, 19.49s/it]                                                                                                                                                    {'loss': 0.5558, 'grad_norm': 0.92578125, 'learning_rate': 1.4731731300150092e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1872.47, 'epoch': 1.48}
- 49%|███████████████████████████████████████████████████▉                                                     | 218/441 [1:12:49<1:12:26, 19.49s/it] 50%|████████████████████████████████████████████████████▏                                                    | 219/441 [1:13:09<1:12:06, 19.49s/it] 50%|████████████████████████████████████████████████████▍                                                    | 220/441 [1:13:28<1:11:48, 19.50s/it]                                                                                                                                                    {'loss': 0.5484, 'grad_norm': 0.8828125, 'learning_rate': 1.456861192779663e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1834.41, 'epoch': 1.49}
- 50%|████████████████████████████████████████████████████▍                                                    | 220/441 [1:13:28<1:11:48, 19.50s/it] 50%|████████████████████████████████████████████████████▌                                                    | 221/441 [1:13:48<1:11:27, 19.49s/it] 50%|████████████████████████████████████████████████████▊                                                    | 222/441 [1:14:07<1:11:09, 19.49s/it]                                                                                                                                                    {'loss': 0.561, 'grad_norm': 1.4921875, 'learning_rate': 1.4403941515576344e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1842.43, 'epoch': 1.5}
- 50%|████████████████████████████████████████████████████▊                                                    | 222/441 [1:14:07<1:11:09, 19.49s/it] 51%|█████████████████████████████████████████████████████                                                    | 223/441 [1:14:27<1:10:48, 19.49s/it] 51%|█████████████████████████████████████████████████████▎                                                   | 224/441 [1:14:46<1:10:29, 19.49s/it]                                                                                                                                                    {'loss': 0.5285, 'grad_norm': 0.91015625, 'learning_rate': 1.4237775968954232e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1917.63, 'epoch': 1.52}
- 51%|█████████████████████████████████████████████████████▎                                                   | 224/441 [1:14:46<1:10:29, 19.49s/it] 51%|█████████████████████████████████████████████████████▌                                                   | 225/441 [1:15:06<1:10:12, 19.50s/it] 51%|█████████████████████████████████████████████████████▊                                                   | 226/441 [1:15:25<1:09:49, 19.49s/it]                                                                                                                                                    {'loss': 0.5588, 'grad_norm': 0.96484375, 'learning_rate': 1.4070171700992158e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1692.82, 'epoch': 1.53}
- 51%|█████████████████████████████████████████████████████▊                                                   | 226/441 [1:15:25<1:09:49, 19.49s/it] 51%|████████████████████��█████████████████████████████████                                                   | 227/441 [1:15:44<1:09:29, 19.48s/it] 52%|██████████████████████████████████████████████████████▎                                                  | 228/441 [1:16:04<1:09:10, 19.49s/it]                                                                                                                                                    {'loss': 0.5325, 'grad_norm': 0.9375, 'learning_rate': 1.3901185613196655e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1775.64, 'epoch': 1.54}
- 52%|██████████████████████████████████████████████████████▎                                                  | 228/441 [1:16:04<1:09:10, 19.49s/it] 52%|██████████████████████████████████████████████████████▌                                                  | 229/441 [1:16:23<1:08:51, 19.49s/it] 52%|██████████████████████████████████████████████████████▊                                                  | 230/441 [1:16:43<1:08:29, 19.48s/it]                                                                                                                                                    {'loss': 0.5305, 'grad_norm': 0.88671875, 'learning_rate': 1.3730875076200913e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1744.23, 'epoch': 1.56}
- 52%|██████████████████████████████████████████████████████▊                                                  | 230/441 [1:16:43<1:08:29, 19.48s/it] 52%|███████████████████████████████████████████████████████                                                  | 231/441 [1:17:02<1:08:08, 19.47s/it] 53%|███████████████████████████████████████████████████████▏                                                 | 232/441 [1:17:22<1:07:51, 19.48s/it]                                                                                                                                                    {'loss': 0.5503, 'grad_norm': 0.92578125, 'learning_rate': 1.3559297910287509e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1814.72, 'epoch': 1.57}
- 53%|███████████████████████████████████████████████████████▏                                                 | 232/441 [1:17:22<1:07:51, 19.48s/it] 53%|███████████████████████████████████████████████████████▍                                                 | 233/441 [1:17:41<1:07:36, 19.50s/it] 53%|███████████████████████████████████████████████████████▋                                                 | 234/441 [1:18:01<1:07:19, 19.52s/it]                                                                                                                                                    {'loss': 0.5002, 'grad_norm': 1.0078125, 'learning_rate': 1.3386512365758448e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1906.14, 'epoch': 1.58}
- 53%|███████████████████████████████████████████████████████▋                                                 | 234/441 [1:18:01<1:07:19, 19.52s/it] 53%|███████████████████████████████████████████████████████▉                                                 | 235/441 [1:18:20<1:06:57, 19.50s/it] 54%|████████████████████████████████████████████████████████▏                                                | 236/441 [1:18:40<1:06:38, 19.51s/it]                                                                                                                                                    {'loss': 0.5544, 'grad_norm': 0.8671875, 'learning_rate': 1.3212577103159258e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1827.11, 'epoch': 1.6}
- 54%|████████████████████████████████████████████████████████▏                                                | 236/441 [1:18:40<1:06:38, 19.51s/it] 54%|████████████████████████████████████████████████████████▍                                                | 237/441 [1:18:59<1:06:18, 19.50s/it] 54%|████████████████████████████████████████████████████████▋                                                | 238/441 [1:19:19<1:05:57, 19.49s/it]                                                                                                                                                    {'loss': 0.5682, 'grad_norm': 0.95703125, 'learning_rate': 1.3037551173363775e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1872.97, 'epoch': 1.61}
- 54%|████████████████████████████████████████████████████████▋                                                | 238/441 [1:19:19<1:05:57, 19.49s/it] 54%|████████████████████████████████████████████████████████▉                                                | 239/441 [1:19:38<1:05:40, 19.51s/it] 54%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                                              | 240/441 [1:19:58<1:05:20, 19.50s/it]                                                                                                                                                                                                                        {'loss': 0.5578, 'grad_norm': 1.0546875, 'learning_rate': 1.2861493997526409e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1875.32, 'epoch': 1.63}
- 54%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                                              | 240/441 [1:19:58<1:05:20, 19.50s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                                              | 241/441 [1:20:17<1:04:59, 19.50s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                                                              | 242/441 [1:20:37<1:04:40, 19.50s/it]                                                                                                                                                                                                                        {'loss': 0.5607, 'grad_norm': 0.87890625, 'learning_rate': 1.2684465346908742e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1814.32, 'epoch': 1.64}
- 55%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                                                              | 242/441 [1:20:37<1:04:40, 19.50s/it] 55%|█████���█████████████████████████████████████████████████████████████████████████████████████████▎                                                                             | 243/441 [1:20:56<1:04:20, 19.50s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████▋                                                                             | 244/441 [1:21:16<1:04:01, 19.50s/it]                                                                                                                                                                                                                        {'loss': 0.5619, 'grad_norm': 0.8828125, 'learning_rate': 1.2506525322587207e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1877.25, 'epoch': 1.65}
- 55%|███████████████████████████████████████████████████████████████████████████████████████████████▋                                                                             | 244/441 [1:21:16<1:04:01, 19.50s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████                                                                             | 245/441 [1:21:35<1:03:40, 19.49s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                            | 246/441 [1:21:55<1:03:21, 19.50s/it]                                                                                                                                                                                                                        {'loss': 0.5375, 'grad_norm': 0.8515625, 'learning_rate': 1.2327734335048838e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1831.7, 'epoch': 1.67}
- 56%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                            | 246/441 [1:21:55<1:03:21, 19.50s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                            | 247/441 [1:22:14<1:03:01, 19.49s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                           | 248/441 [1:22:34<1:02:40, 19.48s/it]                                                                                                                                                                                                                        {'loss': 0.5377, 'grad_norm': 0.94921875, 'learning_rate': 1.2148153083681956e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1763.34, 'epoch': 1.68}
- 56%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                           | 248/441 [1:22:34<1:02:40, 19.48s/it] 56%|█████████████████���███████████████████████████████████████████████████████████████████████████████▋                                                                           | 249/441 [1:22:53<1:02:23, 19.50s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████                                                                           | 250/441 [1:23:13<1:02:02, 19.49s/it]                                                                                                                                                                                                                        {'loss': 0.552, 'grad_norm': 1.15625, 'learning_rate': 1.1967842536168785e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1825.43, 'epoch': 1.69}
- 57%|██████████████████████████████████████████████████████████████████████████████████████████████████                                                                           | 250/441 [1:23:13<1:02:02, 19.49s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                          | 251/441 [1:23:32<1:01:45, 19.50s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                          | 252/441 [1:23:52<1:01:23, 19.49s/it]                                                                                                                                                                                                                        {'loss': 0.5588, 'grad_norm': 0.953125, 'learning_rate': 1.1786863907786966e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1764.92, 'epoch': 1.71}
- 57%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                          | 252/441 [1:23:52<1:01:23, 19.49s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                         | 253/441 [1:24:11<1:01:03, 19.49s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                         | 254/441 [1:24:31<1:00:45, 19.50s/it]                                                                                                                                                                                                                        {'loss': 0.5399, 'grad_norm': 0.90625, 'learning_rate': 1.1605278640627029e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1786.63, 'epoch': 1.72}
- 58%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                         | 254/441 [1:24:31<1:00:45, 19.50s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                                         | 255/441 [1:24:50<1:00:27, 19.50s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                        | 256/441 [1:25:10<1:00:12, 19.53s/it]                                                                                                                                                                                                                        {'loss': 0.5109, 'grad_norm': 1.2734375, 'learning_rate': 1.1423148382732854e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1862.31, 'epoch': 1.73}
- 58%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                        | 256/441 [1:25:10<1:00:12, 19.53s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                         | 257/441 [1:25:30<59:59, 19.56s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                        | 258/441 [1:25:49<59:31, 19.52s/it]                                                                                                                                                                                                                        {'loss': 0.5411, 'grad_norm': 0.90234375, 'learning_rate': 1.1240534967172209e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1705.57, 'epoch': 1.75}
- 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                        | 258/441 [1:25:49<59:31, 19.52s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                        | 259/441 [1:26:09<59:09, 19.50s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                       | 260/441 [1:26:28<58:50, 19.51s/it]                                                                                                                                                                                                                        {'loss': 0.5421, 'grad_norm': 0.84765625, 'learning_rate': 1.1057500391044489e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1842.41, 'epoch': 1.76}
- 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                       | 260/441 [1:26:28<58:50, 19.51s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                       | 261/441 [1:26:47<58:29, 19.50s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                       | 262/441 [1:27:07<58:09, 19.49s/it]                                                                                                                                                                                                                        {'loss': 0.5286, 'grad_norm': 0.99609375, 'learning_rate': 1.0874106794432728e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1739.79, 'epoch': 1.77}
- 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                       | 262/441 [1:27:07<58:09, 19.49s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                      | 263/441 [1:27:27<57:52, 19.51s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                      | 264/441 [1:27:46<57:35, 19.52s/it]                                                                                                                                                                                                                        {'loss': 0.5399, 'grad_norm': 0.8515625, 'learning_rate': 1.0690416439307123e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1917.75, 'epoch': 1.79}
- 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                      | 264/441 [1:27:46<57:35, 19.52s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                     | 265/441 [1:28:06<57:14, 19.51s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                     | 266/441 [1:28:25<56:53, 19.51s/it]                                                                                                                                                                                                                        {'loss': 0.5471, 'grad_norm': 0.9296875, 'learning_rate': 1.0506491688387128e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1757.09, 'epoch': 1.8}
- 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████��███▌                                                                     | 266/441 [1:28:25<56:53, 19.51s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                     | 267/441 [1:28:45<56:32, 19.50s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                    | 268/441 [1:29:04<56:11, 19.49s/it]                                                                                                                                                                                                                        {'loss': 0.5122, 'grad_norm': 1.03125, 'learning_rate': 1.0322394983969369e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1815.85, 'epoch': 1.82}
- 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                    | 268/441 [1:29:04<56:11, 19.49s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                    | 269/441 [1:29:23<55:51, 19.49s/it] 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                   | 270/441 [1:29:43<55:33, 19.50s/it]                                                                                                                                                                                                                        {'loss': 0.5235, 'grad_norm': 0.8828125, 'learning_rate': 1.0138188826728544e-05, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1824.61, 'epoch': 1.83}
- 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                   | 270/441 [1:29:43<55:33, 19.50s/it] 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                   | 271/441 [1:30:02<55:13, 19.49s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                   | 272/441 [1:30:22<54:51, 19.47s/it]                                                                                                                                                                                                                        {'loss': 0.5291, 'grad_norm': 0.90625, 'learning_rate': 9.953935754498484e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1659.94, 'epoch': 1.84}
- 62%|████████████████████████████████████████████████████��██████████████████████████████████████████████████████▉                                                                   | 272/441 [1:30:22<54:51, 19.47s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                  | 273/441 [1:30:41<54:30, 19.47s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                  | 274/441 [1:31:01<54:10, 19.46s/it]                                                                                                                                                                                                                        {'loss': 0.5237, 'grad_norm': 0.9296875, 'learning_rate': 9.769698321040622e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1737.14, 'epoch': 1.86}
- 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                  | 274/441 [1:31:01<54:10, 19.46s/it] 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                 | 275/441 [1:31:20<53:58, 19.51s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                 | 276/441 [1:31:40<53:39, 19.51s/it]                                                                                                                                                                                                                        {'loss': 0.5482, 'grad_norm': 0.91796875, 'learning_rate': 9.585539074807046e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1797.23, 'epoch': 1.87}
- 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                 | 276/441 [1:31:40<53:39, 19.51s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                 | 277/441 [1:31:59<53:18, 19.50s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                | 278/441 [1:32:19<53:00, 19.51s/it]                                                                                                                                                                                                                        {'loss': 0.5366, 'grad_norm': 0.94140625, 'learning_rate': 9.401520537705339e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1680.89, 'epoch': 1.88}
- 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                | 278/441 [1:32:19<53:00, 19.51s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                | 279/441 [1:32:39<52:42, 19.52s/it] 63%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                | 280/441 [1:32:58<52:22, 19.52s/it]                                                                                                                                                                                                                        {'loss': 0.5537, 'grad_norm': 1.0625, 'learning_rate': 9.217705183872462e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1790.11, 'epoch': 1.9}
- 63%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                | 280/441 [1:32:58<52:22, 19.52s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                               | 281/441 [1:33:18<52:01, 19.51s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                               | 282/441 [1:33:37<51:47, 19.54s/it]                                                                                                                                                                                                                        {'loss': 0.5049, 'grad_norm': 0.84765625, 'learning_rate': 9.034155418464823e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1858.51, 'epoch': 1.91}
- 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                               | 282/441 [1:33:37<51:47, 19.54s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                              | 283/441 [1:33:57<51:26, 19.54s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                              | 284/441 [1:34:16<51:04, 19.52s/it]                                                                                                                                                                                                                        {'loss': 0.5038, 'grad_norm': 0.89453125, 'learning_rate': 8.850933556471785e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1747.52, 'epoch': 1.92}
- 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                              | 284/441 [1:34:16<51:04, 19.52s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                              | 285/441 [1:34:36<50:48, 19.54s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                             | 286/441 [1:34:55<50:28, 19.54s/it]                                                                                                                                                                                                                        {'loss': 0.5378, 'grad_norm': 0.87890625, 'learning_rate': 8.668101801559786e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1862.47, 'epoch': 1.94}
- 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                             | 286/441 [1:34:55<50:28, 19.54s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                             | 287/441 [1:35:15<50:07, 19.53s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                            | 288/441 [1:35:34<49:47, 19.52s/it]                                                                                                                                                                                                                        {'loss': 0.5053, 'grad_norm': 0.828125, 'learning_rate': 8.485722224954237e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1879.56, 'epoch': 1.95}
- 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                            | 288/441 [1:35:34<49:47, 19.52s/it] 66%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                            | 289/441 [1:35:54<49:27, 19.52s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                            | 290/441 [1:36:13<49:05, 19.51s/it]                                                                                                                                                                                                                        {'loss': 0.5485, 'grad_norm': 0.890625, 'learning_rate': 8.303856744366396e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1871.69, 'epoch': 1.97}
- 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                            | 290/441 [1:36:13<49:05, 19.51s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                           | 291/441 [1:36:33<48:46, 19.51s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                           | 292/441 [1:36:52<48:29, 19.53s/it]                                                                                                                                                                                                                        {'loss': 0.5258, 'grad_norm': 1.03125, 'learning_rate': 8.12256710297237e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1849.32, 'epoch': 1.98}
- 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                           | 292/441 [1:36:52<48:29, 19.53s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 293/441 [1:37:12<48:06, 19.51s/it] 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                          | 294/441 [1:37:31<47:46, 19.50s/it]                                                                                                                                                                                                                        {'loss': 0.54, 'grad_norm': 0.97265625, 'learning_rate': 7.941914848451332e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1726.83, 'epoch': 1.99}
- 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                          | 294/441 [1:37:31<47:46, 19.50s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                          | 295/441 [1:37:51<47:28, 19.51s/it] 67%|█████████████████████���███████████████████████████████████████████████████████████████████████████████████████████████▍                                                         | 296/441 [1:37:53<34:38, 14.34s/it]                                                                                                                                                                                                                        {'loss': 0.5416, 'grad_norm': 3.109375, 'learning_rate': 7.761961312090173e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 8964.64, 'epoch': 2.0}
- 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                         | 296/441 [1:37:53<34:38, 14.34s/it][2025-12-22 18:27:18,933] [INFO] [axolotl.core.trainers.base._save:671] [PID:37090] Saving model checkpoint to ./outputs/qwen3-4b-instruct-ded-full-train/checkpoint-296
- 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                        | 297/441 [1:40:16<2:07:19, 53.05s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                        | 298/441 [1:40:36<1:42:18, 42.93s/it]                                                                                                                                                                                                                        {'loss': 0.4973, 'grad_norm': 0.90625, 'learning_rate': 7.5827675879615525e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1678.15, 'epoch': 2.01}
- 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                        | 298/441 [1:40:36<1:42:18, 42.93s/it] 68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                       | 299/441 [1:40:55<1:24:54, 35.88s/it] 68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                       | 300/441 [1:41:15<1:12:45, 30.96s/it]                                                                                                                                                                                                                        {'loss': 0.5171, 'grad_norm': 0.87109375, 'learning_rate': 7.40439451218252e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1816.19, 'epoch': 2.03}
- 68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                       | 300/441 [1:41:15<1:12:45, 30.96s/it] 68%|████���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                       | 301/441 [1:41:34<1:04:15, 27.54s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                       | 302/441 [1:41:54<58:14, 25.14s/it]                                                                                                                                                                                                                        {'loss': 0.5011, 'grad_norm': 0.85546875, 'learning_rate': 7.226902642260711e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1881.01, 'epoch': 2.04}
- 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                       | 302/441 [1:41:54<58:14, 25.14s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                      | 303/441 [1:42:13<53:56, 23.45s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                      | 304/441 [1:42:33<50:48, 22.25s/it]                                                                                                                                                                                                                        {'loss': 0.509, 'grad_norm': 0.9140625, 'learning_rate': 7.050352236535125e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1748.49, 'epoch': 2.05}
- 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                      | 304/441 [1:42:33<50:48, 22.25s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                      | 305/441 [1:42:52<48:32, 21.42s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 306/441 [1:43:12<46:53, 20.84s/it]                                                                                                                                                                                                                        {'loss': 0.5212, 'grad_norm': 0.83203125, 'learning_rate': 6.874803233718459e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1910.99, 'epoch': 2.07}
- 69%|███████████████████████████���█████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 306/441 [1:43:12<46:53, 20.84s/it] 70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                     | 307/441 [1:43:31<45:44, 20.48s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 308/441 [1:43:51<44:45, 20.19s/it]                                                                                                                                                                                                                        {'loss': 0.4871, 'grad_norm': 0.8125, 'learning_rate': 6.7003152325479806e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1984.67, 'epoch': 2.08}
- 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 308/441 [1:43:51<44:45, 20.19s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                    | 309/441 [1:44:10<43:56, 19.97s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                    | 310/441 [1:44:30<43:19, 19.84s/it]                                                                                                                                                                                                                        {'loss': 0.5218, 'grad_norm': 0.8671875, 'learning_rate': 6.526947471551799e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1846.0, 'epoch': 2.1}
- 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                    | 310/441 [1:44:30<43:19, 19.84s/it] 71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                   | 311/441 [1:44:49<42:49, 19.76s/it] 71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                   | 312/441 [1:45:09<42:19, 19.68s/it]                                                                                                                                                                                                                        {'loss': 0.5251, 'grad_norm': 0.92578125, 'learning_rate': 6.35475880893743e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1851.87, 'epoch': 2.11}
- 71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                   | 312/441 [1:45:09<42:19, 19.68s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                  | 313/441 [1:45:29<41:58, 19.68s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                  | 314/441 [1:45:48<41:33, 19.63s/it]                                                                                                                                                                                                                        {'loss': 0.5175, 'grad_norm': 0.87890625, 'learning_rate': 6.183807702609501e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1923.01, 'epoch': 2.12}
- 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                  | 314/441 [1:45:48<41:33, 19.63s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                  | 315/441 [1:46:08<41:12, 19.62s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                 | 316/441 [1:46:27<40:47, 19.58s/it]                                                                                                                                                                                                                        {'loss': 0.4939, 'grad_norm': 0.875, 'learning_rate': 6.014152190323324e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1819.11, 'epoch': 2.14}
- 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                 | 316/441 [1:46:27<40:47, 19.58s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 317/441 [1:46:47<40:26, 19.56s/it] 72%|█████████████████████████████████████���████████████████████████████████████████████████████████████████████████████████████████▏                                                | 318/441 [1:47:06<40:04, 19.55s/it]                                                                                                                                                                                                                        {'loss': 0.5118, 'grad_norm': 0.91796875, 'learning_rate': 5.845849869981137e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1846.96, 'epoch': 2.15}
- 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                | 318/441 [1:47:06<40:04, 19.55s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                | 319/441 [1:47:26<39:41, 19.52s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                | 320/441 [1:47:45<39:24, 19.54s/it]                                                                                                                                                                                                                        {'loss': 0.5067, 'grad_norm': 0.9296875, 'learning_rate': 5.678957880077666e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1718.65, 'epoch': 2.16}
- 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                | 320/441 [1:47:45<39:24, 19.54s/it] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 321/441 [1:48:05<39:02, 19.52s/it] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                               | 322/441 [1:48:24<38:46, 19.55s/it]                                                                                                                                                                                                                        {'loss': 0.512, 'grad_norm': 1.0, 'learning_rate': 5.513532880301645e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1876.14, 'epoch': 2.18}
- 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                               | 322/441 [1:48:24<38:46, 19.55s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 323/441 [1:48:44<38:27, 19.56s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                              | 324/441 [1:49:04<38:08, 19.56s/it]                                                                                                                                                                                                                        {'loss': 0.5041, 'grad_norm': 0.93359375, 'learning_rate': 5.3496310322999135e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1712.25, 'epoch': 2.19}
- 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                              | 324/441 [1:49:04<38:08, 19.56s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                              | 325/441 [1:49:23<37:47, 19.55s/it] 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                             | 326/441 [1:49:43<37:26, 19.53s/it]                                                                                                                                                                                                                        {'loss': 0.5341, 'grad_norm': 0.8984375, 'learning_rate': 5.187307980610579e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1827.45, 'epoch': 2.2}
- 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                             | 326/441 [1:49:43<37:26, 19.53s/it] 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                             | 327/441 [1:50:02<37:06, 19.53s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                            | 328/441 [1:50:22<36:45, 19.52s/it]                                                                                                                                                                                                                        {'loss': 0.5026, 'grad_norm': 0.89453125, 'learning_rate': 5.02661883377173e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1771.32, 'epoch': 2.22}
- 74%|���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                            | 328/441 [1:50:22<36:45, 19.52s/it] 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                            | 329/441 [1:50:41<36:27, 19.53s/it] 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                            | 330/441 [1:51:01<36:04, 19.50s/it]                                                                                                                                                                                                                        {'loss': 0.4917, 'grad_norm': 1.1015625, 'learning_rate': 4.8676181456121616e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1836.03, 'epoch': 2.23}
- 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                            | 330/441 [1:51:01<36:04, 19.50s/it] 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                           | 331/441 [1:51:20<35:44, 19.50s/it] 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                           | 332/441 [1:51:40<35:24, 19.49s/it]                                                                                                                                                                                                                        {'loss': 0.5084, 'grad_norm': 0.9375, 'learning_rate': 4.710359896730379e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1828.68, 'epoch': 2.24}
- 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                           | 332/441 [1:51:40<35:24, 19.49s/it] 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                          | 333/441 [1:51:59<35:04, 19.49s/it] 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                          | 334/441 [1:52:19<34:45, 19.49s/it]                                                                                                                                                                                                                        {'loss': 0.498, 'grad_norm': 0.85546875, 'learning_rate': 4.554897476168223e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1841.85, 'epoch': 2.26}
- 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                          | 334/441 [1:52:19<34:45, 19.49s/it] 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                          | 335/441 [1:52:38<34:26, 19.50s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 336/441 [1:52:57<34:05, 19.48s/it]                                                                                                                                                                                                                        {'loss': 0.495, 'grad_norm': 0.95703125, 'learning_rate': 4.401283663285355e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1769.39, 'epoch': 2.27}
- 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 336/441 [1:52:58<34:05, 19.48s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 337/441 [1:53:17<33:46, 19.48s/it] 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 338/441 [1:53:36<33:26, 19.48s/it]                                                                                                                                                                                                                        {'loss': 0.5332, 'grad_norm': 0.94921875, 'learning_rate': 4.2495706098407085e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1694.91, 'epoch': 2.29}
- 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 338/441 [1:53:36<33:26, 19.48s/it] 77%|██████████████████████████████████████████████████████████████████████���███████████████████████████████████████████████████████████████▌                                        | 339/441 [1:53:56<33:06, 19.47s/it] 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 340/441 [1:54:15<32:46, 19.47s/it]                                                                                                                                                                                                                        {'loss': 0.515, 'grad_norm': 0.97265625, 'learning_rate': 4.0998098222869845e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1697.05, 'epoch': 2.3}
- 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 340/441 [1:54:15<32:46, 19.47s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 341/441 [1:54:35<32:26, 19.47s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                       | 342/441 [1:54:54<32:08, 19.47s/it]                                                                                                                                                                                                                        {'loss': 0.5164, 'grad_norm': 1.453125, 'learning_rate': 3.952052144284285e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1761.72, 'epoch': 2.31}
- 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                       | 342/441 [1:54:54<32:08, 19.47s/it] 78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 343/441 [1:55:14<31:49, 19.48s/it] 78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 344/441 [1:55:33<31:31, 19.50s/it]                                                                                                                                                                                                                        {'loss': 0.5164, 'grad_norm': 0.91796875, 'learning_rate': 3.8063477394387236e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1776.88, 'epoch': 2.33}
- 78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 344/441 [1:55:33<31:31, 19.50s/it] 78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                      | 345/441 [1:55:53<31:11, 19.50s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                     | 346/441 [1:56:12<30:51, 19.49s/it]                                                                                                                                                                                                                        {'loss': 0.5072, 'grad_norm': 0.94921875, 'learning_rate': 3.66274607427191e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1745.19, 'epoch': 2.34}
- 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                     | 346/441 [1:56:12<30:51, 19.49s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                     | 347/441 [1:56:32<30:31, 19.49s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                     | 348/441 [1:56:51<30:13, 19.50s/it]                                                                                                                                                                                                                        {'loss': 0.5079, 'grad_norm': 0.90234375, 'learning_rate': 3.521295901427132e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1892.16, 'epoch': 2.35}
- 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                     | 348/441 [1:56:51<30:13, 19.50s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 349/441 [1:57:11<29:55, 19.52s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████���█████████████████████████████████████████▉                                    | 350/441 [1:57:30<29:35, 19.51s/it]                                                                                                                                                                                                                        {'loss': 0.5095, 'grad_norm': 0.953125, 'learning_rate': 3.3820452431178607e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1767.69, 'epoch': 2.37}
- 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                    | 350/441 [1:57:30<29:35, 19.51s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                   | 351/441 [1:57:50<29:15, 19.51s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 352/441 [1:58:09<28:55, 19.50s/it]                                                                                                                                                                                                                        {'loss': 0.4945, 'grad_norm': 0.921875, 'learning_rate': 3.2450413748242437e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1781.27, 'epoch': 2.38}
- 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 352/441 [1:58:09<28:55, 19.50s/it] 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                   | 353/441 [1:58:29<28:38, 19.52s/it] 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                  | 354/441 [1:58:48<28:16, 19.50s/it]                                                                                                                                                                                                                        {'loss': 0.5103, 'grad_norm': 0.91015625, 'learning_rate': 3.110330809243134e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1755.33, 'epoch': 2.39}
- 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                  | 354/441 [1:58:48<28:16, 19.50s/it] 80%|███████████████���████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                  | 355/441 [1:59:08<27:59, 19.53s/it] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                 | 356/441 [1:59:27<27:39, 19.52s/it]                                                                                                                                                                                                                        {'loss': 0.4848, 'grad_norm': 0.890625, 'learning_rate': 2.977959280497068e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1829.44, 'epoch': 2.41}
- 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                 | 356/441 [1:59:28<27:39, 19.52s/it] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                 | 357/441 [1:59:47<27:18, 19.50s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                 | 358/441 [2:00:06<26:59, 19.51s/it]                                                                                                                                                                                                                        {'loss': 0.5111, 'grad_norm': 0.95703125, 'learning_rate': 2.8479717286075505e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1837.69, 'epoch': 2.42}
- 81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                 | 358/441 [2:00:07<26:59, 19.51s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                | 359/441 [2:00:26<26:39, 19.50s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                | 360/441 [2:00:45<26:19, 19.50s/it]                                                                                                                                                                                                                        {'loss': 0.4859, 'grad_norm': 0.9609375, 'learning_rate': 2.7204122842379797e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1768.41, 'epoch': 2.44}
- 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                | 360/441 [2:00:46<26:19, 19.50s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 361/441 [2:01:05<26:00, 19.51s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                               | 362/441 [2:01:24<25:40, 19.49s/it]                                                                                                                                                                                                                        {'loss': 0.5109, 'grad_norm': 0.87890625, 'learning_rate': 2.5953242537113143e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1845.85, 'epoch': 2.45}
- 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                               | 362/441 [2:01:24<25:40, 19.49s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 363/441 [2:01:44<25:20, 19.50s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                              | 364/441 [2:02:03<25:01, 19.50s/it]                                                                                                                                                                                                                        {'loss': 0.5319, 'grad_norm': 1.0234375, 'learning_rate': 2.472750104307613e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1736.55, 'epoch': 2.46}
- 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                              | 364/441 [2:02:04<25:01, 19.50s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��██▊                              | 365/441 [2:02:23<24:41, 19.49s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                             | 366/441 [2:02:42<24:21, 19.48s/it]                                                                                                                                                                                                                        {'loss': 0.5152, 'grad_norm': 0.92578125, 'learning_rate': 2.3527314498464214e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1809.44, 'epoch': 2.48}
- 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                             | 366/441 [2:02:42<24:21, 19.48s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                             | 367/441 [2:03:02<24:02, 19.50s/it] 83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                             | 368/441 [2:03:21<23:43, 19.50s/it]                                                                                                                                                                                                                        {'loss': 0.5362, 'grad_norm': 0.90234375, 'learning_rate': 2.2353090365589348e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1683.01, 'epoch': 2.49}
- 83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                             | 368/441 [2:03:21<23:43, 19.50s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                            | 369/441 [2:03:41<23:26, 19.53s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                            | 370/441 [2:04:01<23:06, 19.53s/it]                                                                                                                                                                                                                        {'loss': 0.5041, 'grad_norm': 0.88671875, 'learning_rate': 2.120522729254675e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1970.94, 'epoch': 2.5}
- 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                            | 370/441 [2:04:01<23:06, 19.53s/it] 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                           | 371/441 [2:04:20<22:46, 19.52s/it] 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 372/441 [2:04:40<22:26, 19.52s/it]                                                                                                                                                                                                                        {'loss': 0.5372, 'grad_norm': 2.390625, 'learning_rate': 2.0084114977874135e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1787.7, 'epoch': 2.52}
- 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 372/441 [2:04:40<22:26, 19.52s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 373/441 [2:04:59<22:07, 19.53s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                          | 374/441 [2:05:19<21:50, 19.55s/it]                                                                                                                                                                                                                        {'loss': 0.5066, 'grad_norm': 1.0, 'learning_rate': 1.8990134038249586e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1786.58, 'epoch': 2.53}
- 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                          | 374/441 [2:05:19<21:50, 19.55s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                          | 375/441 [2:05:38<21:31, 19.57s/it] 85%|██████████████████████████████████████████████████████████���██████████████████████████████████████████████████████████████████████████████████████████▏                         | 376/441 [2:05:58<21:10, 19.54s/it]                                                                                                                                                                                                                        {'loss': 0.5162, 'grad_norm': 0.95703125, 'learning_rate': 1.7923655879272395e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1819.95, 'epoch': 2.54}
- 85%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 376/441 [2:05:58<21:10, 19.54s/it] 85%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                         | 377/441 [2:06:17<20:50, 19.53s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                         | 378/441 [2:06:37<20:30, 19.54s/it]                                                                                                                                                                                                                        {'loss': 0.5161, 'grad_norm': 0.8828125, 'learning_rate': 1.6885042569371147e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1897.04, 'epoch': 2.56}
- 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                         | 378/441 [2:06:37<20:30, 19.54s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                        | 379/441 [2:06:56<20:11, 19.54s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                        | 380/441 [2:07:16<19:51, 19.53s/it]                                                                                                                                                                                                                        {'loss': 0.4945, 'grad_norm': 0.8828125, 'learning_rate': 1.587464671688187e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1899.32, 'epoch': 2.57}
- 86%|██████████████████████████████████████████████████████████████████████████████████████████████���███████████████████████████████████████████████████████▊                        | 380/441 [2:07:16<19:51, 19.53s/it] 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                       | 381/441 [2:07:36<19:32, 19.54s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                       | 382/441 [2:07:55<19:12, 19.53s/it]                                                                                                                                                                                                                        {'loss': 0.4894, 'grad_norm': 0.96484375, 'learning_rate': 1.4892811350337877e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1819.67, 'epoch': 2.58}
- 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                       | 382/441 [2:07:55<19:12, 19.53s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 383/441 [2:08:15<18:52, 19.53s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                      | 384/441 [2:08:34<18:33, 19.53s/it]                                                                                                                                                                                                                        {'loss': 0.5291, 'grad_norm': 4.0625, 'learning_rate': 1.3939869802011618e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1842.12, 'epoch': 2.6}
- 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                      | 384/441 [2:08:34<18:33, 19.53s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                      | 385/441 [2:08:54<18:12, 19.52s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████��██████████████████████████████████████████████████▏                     | 386/441 [2:09:13<17:54, 19.53s/it]                                                                                                                                                                                                                        {'loss': 0.5024, 'grad_norm': 0.9375, 'learning_rate': 1.3016145594748909e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1747.43, 'epoch': 2.61}
- 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                     | 386/441 [2:09:13<17:54, 19.53s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                     | 387/441 [2:09:33<17:33, 19.51s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                     | 388/441 [2:09:52<17:15, 19.53s/it]                                                                                                                                                                                                                        {'loss': 0.5207, 'grad_norm': 0.9921875, 'learning_rate': 1.2121952332133091e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1728.96, 'epoch': 2.63}
- 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                     | 388/441 [2:09:52<17:15, 19.53s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 389/441 [2:10:12<16:54, 19.52s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                    | 390/441 [2:10:31<16:35, 19.52s/it]                                                                                                                                                                                                                        {'loss': 0.512, 'grad_norm': 4.625, 'learning_rate': 1.125759359201687e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1732.67, 'epoch': 2.64}
- 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                    | 390/441 [2:10:31<16:35, 19.52s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 391/441 [2:10:51<16:15, 19.52s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 392/441 [2:11:10<15:55, 19.50s/it]                                                                                                                                                                                                                        {'loss': 0.4985, 'grad_norm': 0.91796875, 'learning_rate': 1.0423362823457939e-06, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1820.5, 'epoch': 2.65}
- 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 392/441 [2:11:10<15:55, 19.50s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                   | 393/441 [2:11:30<15:35, 19.50s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                  | 394/441 [2:11:49<15:16, 19.50s/it]                                                                                                                                                                                                                        {'loss': 0.5156, 'grad_norm': 0.91796875, 'learning_rate': 9.619543247093255e-07, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1874.69, 'epoch': 2.67}
- 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                  | 394/441 [2:11:49<15:16, 19.50s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                  | 395/441 [2:12:09<14:57, 19.51s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 396/441 [2:12:28<14:37, 19.50s/it]                                                                                                                                                                                                                        {'loss': 0.5461, 'grad_norm': 0.91015625, 'learning_rate': 8.846407758985886e-07, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1814.22, 'epoch': 2.68}
- 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 396/441 [2:12:28<14:37, 19.50s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 397/441 [2:12:48<14:18, 19.52s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 398/441 [2:13:07<13:59, 19.51s/it]                                                                                                                                                                                                                        {'loss': 0.5352, 'grad_norm': 0.953125, 'learning_rate': 8.10421883797694e-07, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1721.95, 'epoch': 2.69}
- 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 398/441 [2:13:07<13:59, 19.51s/it] 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                | 399/441 [2:13:27<13:39, 19.51s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 400/441 [2:13:46<13:20, 19.53s/it]                                                                                                                                                                                                                        {'loss': 0.5339, 'grad_norm': 0.91015625, 'learning_rate': 7.393228456574375e-07, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1901.03, 'epoch': 2.71}
- 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████��█████████████████████████████████████████████████▋                | 400/441 [2:13:46<13:20, 19.53s/it] 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 401/441 [2:14:06<13:00, 19.52s/it] 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 402/441 [2:14:25<12:40, 19.51s/it]                                                                                                                                                                                                                        {'loss': 0.4893, 'grad_norm': 0.93359375, 'learning_rate': 6.713677995408452e-07, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1747.67, 'epoch': 2.72}
- 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 402/441 [2:14:25<12:40, 19.51s/it] 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 403/441 [2:14:45<12:21, 19.51s/it]                                             92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 404/441 [2:15:04<12:01, 19.49s/it]                                                                                                                                                                                                                       {'loss': 0.5138, 'grad_norm': 1.03125, 'learning_rate': 6.065798161283187e-07, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1773.95, 'epoch': 2.73}
- 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 404/441 [2:15:04<12:01, 19.49s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 405/441 [2:15:24<11:42, 19.51s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████���███████████████████████████████████████████████████████▏             | 406/441 [2:15:43<11:22, 19.50s/it]                                                                                                                                                                                                                       {'loss': 0.5417, 'grad_norm': 0.9296875, 'learning_rate': 5.449808908851672e-07, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1835.07, 'epoch': 2.75}
- 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏             | 406/441 [2:15:43<11:22, 19.50s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 407/441 [2:16:03<11:03, 19.51s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 408/441 [2:16:22<10:43, 19.50s/it]                                                                                                                                                                                                                       {'loss': 0.4906, 'grad_norm': 0.9453125, 'learning_rate': 4.865919365941629e-07, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1645.95, 'epoch': 2.76}
- 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 408/441 [2:16:22<10:43, 19.50s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 409/441 [2:16:42<10:24, 19.51s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 410/441 [2:17:01<10:06, 19.55s/it]                                                                                                                                                                                                                       {'loss': 0.4651, 'grad_norm': 1.3671875, 'learning_rate': 4.314327762556625e-07, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1807.79, 'epoch': 2.77}
- 93%|█████████████████████████████████████████████████████████████████████████████████████████████���███████████████████████████████████████████████████████████████████▊            | 410/441 [2:17:02<10:06, 19.55s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 411/441 [2:17:21<09:45, 19.51s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 412/441 [2:17:40<09:25, 19.49s/it]                                                                                                                                                                                                                       {'loss': 0.49, 'grad_norm': 0.9375, 'learning_rate': 3.7952213635772395e-07, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1680.0, 'epoch': 2.79}
- 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 412/441 [2:17:40<09:25, 19.49s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 413/441 [2:18:00<09:05, 19.50s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 414/441 [2:18:19<08:46, 19.49s/it]                                                                                                                                                                                                                       {'loss': 0.5063, 'grad_norm': 0.9453125, 'learning_rate': 3.308776405184777e-07, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1844.96, 'epoch': 2.8}
- 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 414/441 [2:18:19<08:46, 19.49s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 415/441 [2:18:39<08:26, 19.50s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 416/441 [2:18:58<08:06, 19.46s/it]                                                                                                                                                                                                                       {'loss': 0.5436, 'grad_norm': 0.953125, 'learning_rate': 2.855158035029182e-07, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1684.8, 'epoch': 2.82}
- 94%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 416/441 [2:18:58<08:06, 19.46s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 417/441 [2:19:18<07:47, 19.50s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 418/441 [2:19:37<07:29, 19.54s/it]                                                                                                                                                                                                                       {'loss': 0.5152, 'grad_norm': 0.9375, 'learning_rate': 2.434520256161632e-07, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1803.27, 'epoch': 2.83}
- 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 418/441 [2:19:37<07:29, 19.54s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 419/441 [2:19:57<07:09, 19.51s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 420/441 [2:20:16<06:49, 19.52s/it]                                                                                                                                                                                                                       {'loss': 0.4837, 'grad_norm': 0.93359375, 'learning_rate': 2.0470058747505516e-07, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1847.1, 'epoch': 2.84}
- 95%|███████████████████��█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 420/441 [2:20:16<06:49, 19.52s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████        | 421/441 [2:20:36<06:30, 19.53s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 422/441 [2:20:55<06:10, 19.51s/it]                                                                                                                                                                                                                       {'loss': 0.5137, 'grad_norm': 0.91796875, 'learning_rate': 1.6927464515991142e-07, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1701.14, 'epoch': 2.86}
- 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 422/441 [2:20:55<06:10, 19.51s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 423/441 [2:21:15<05:51, 19.54s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 424/441 [2:21:34<05:31, 19.52s/it]                                                                                                                                                                                                                       {'loss': 0.4933, 'grad_norm': 0.98046875, 'learning_rate': 1.3718622574804163e-07, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1697.12, 'epoch': 2.87}
- 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 424/441 [2:21:35<05:31, 19.52s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���████████████████████████████████▋      | 425/441 [2:21:54<05:12, 19.52s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████      | 426/441 [2:22:14<04:53, 19.57s/it]                                                                                                                                                                                                                       {'loss': 0.5181, 'grad_norm': 1.7890625, 'learning_rate': 1.0844622323056387e-07, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1827.28, 'epoch': 2.88}
- 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████      | 426/441 [2:22:14<04:53, 19.57s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 427/441 [2:22:33<04:34, 19.61s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 428/441 [2:22:53<04:14, 19.58s/it]                                                                                                                                                                                                                       {'loss': 0.4703, 'grad_norm': 0.828125, 'learning_rate': 8.306439481390871e-08, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1829.83, 'epoch': 2.9}
- 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 428/441 [2:22:53<04:14, 19.58s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 429/441 [2:23:12<03:54, 19.58s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 430/441 [2:23:32<03:35, 19.58s/it]                                                                                                                                                                                                                       {'loss': 0.5064, 'grad_norm': 0.94921875, 'learning_rate': 6.10493576072535e-08, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1802.01, 'epoch': 2.91}
- 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 430/441 [2:23:32<03:35, 19.58s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 431/441 [2:23:52<03:15, 19.59s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 432/441 [2:24:11<02:56, 19.56s/it]                                                                                                                                                                                                                       {'loss': 0.5152, 'grad_norm': 0.8984375, 'learning_rate': 4.2408585697019114e-08, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1733.39, 'epoch': 2.92}
- 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 432/441 [2:24:11<02:56, 19.56s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 433/441 [2:24:31<02:36, 19.57s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 434/441 [2:24:50<02:16, 19.55s/it]                                                                                                                                                                                                                       {'loss': 0.5027, 'grad_norm': 0.9296875, 'learning_rate': 2.7148407609427497e-08, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1948.94, 'epoch': 2.94}
- 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 434/441 [2:24:50<02:16, 19.55s/it] 99%|���██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 435/441 [2:25:10<01:57, 19.55s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 436/441 [2:25:29<01:37, 19.53s/it]                                                                                                                                                                                                                       {'loss': 0.5175, 'grad_norm': 3.15625, 'learning_rate': 1.5274004161970335e-08, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1849.46, 'epoch': 2.95}
- 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 436/441 [2:25:29<01:37, 19.53s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 437/441 [2:25:49<01:18, 19.51s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 438/441 [2:26:08<00:58, 19.54s/it]                                                                                                                                                                                                                       {'loss': 0.4999, 'grad_norm': 0.921875, 'learning_rate': 6.789406704527102e-09, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1829.25, 'epoch': 2.97}
- 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 438/441 [2:26:08<00:58, 19.54s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 439/441 [2:26:28<00:39, 19.55s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████���██████████████████████████████████████████████████████████████████████████████████▌| 440/441 [2:26:48<00:19, 19.56s/it]                                                                                                                                                                                                                       {'loss': 0.4935, 'grad_norm': 0.90234375, 'learning_rate': 1.6974957507231993e-09, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'tokens_per_second_per_gpu': 1909.93, 'epoch': 2.98}
-100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 440/441 [2:26:48<00:19, 19.56s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 441/441 [2:27:07<00:00, 19.54s/it][2025-12-22 19:16:32,790] [INFO] [axolotl.core.trainers.base._save:671] [PID:37090] Saving model checkpoint to ./outputs/qwen3-4b-instruct-ded-full-train/checkpoint-441
-                                                                                                                                                                                                                       {'train_runtime': 8954.4371, 'train_samples_per_second': 3.152, 'train_steps_per_second': 0.049, 'train_loss': 0.5798612258601892, 'memory/max_active (GiB)': 61.98, 'memory/max_allocated (GiB)': 61.98, 'memory/device_reserved (GiB)': 68.0, 'epoch': 2.99}
-100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 441/441 [2:29:14<00:00, 19.54s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 441/441 [2:29:14<00:00, 20.30s/it]
-[2025-12-22 19:18:40,159] [INFO] [axolotl.train.save_trained_model:218] [PID:37090] Training completed! Saving trained model to ./outputs/qwen3-4b-instruct-ded-full-train.
-[2025-12-22 19:19:33,167] [INFO] [axolotl.train.save_trained_model:336] [PID:37090] Model successfully saved to ./outputs/qwen3-4b-instruct-ded-full-train
+Tokenizing Prompts (num_proc=24):   0%|                                             | 0/15985 [00:00<?, ? examples/s]Tokenizing Prompts (num_proc=24):   4%|█▍                                | 667/15985 [00:04<01:32, 165.09 examples/s]Tokenizing Prompts (num_proc=24):  13%|████▏                            | 1999/15985 [00:04<00:22, 610.89 examples/s]Tokenizing Prompts (num_proc=24):  21%|██████▋                         | 3331/15985 [00:04<00:10, 1195.14 examples/s]Tokenizing Prompts (num_proc=24):  29%|█████████▎                      | 4663/15985 [00:04<00:06, 1847.40 examples/s]Tokenizing Prompts (num_proc=24):  38%|████████████                    | 5995/15985 [00:04<00:03, 2681.64 examples/s]Tokenizing Prompts (num_proc=24):  46%|██████████████▋                 | 7327/15985 [00:04<00:02, 3658.50 examples/s]Tokenizing Prompts (num_proc=24):  54%|█████████████████▎              | 8659/15985 [00:04<00:01, 4527.17 examples/s]Tokenizing Prompts (num_proc=24):  63%|████████████████████            | 9991/15985 [00:05<00:01, 5335.53 examples/s]Tokenizing Prompts (num_proc=24):  75%|███████████████████████▎       | 11989/15985 [00:05<00:00, 7601.24 examples/s]Tokenizing Prompts (num_proc=24):  83%|█████████████████████████▊     | 13321/15985 [00:05<00:00, 7139.54 examples/s]Tokenizing Prompts (num_proc=24):  96%|█████████████████████████████▋ | 15319/15985 [00:05<00:00, 9323.78 examples/s]Tokenizing Prompts (num_proc=24): 100%|███████████████████████████████| 15985/15985 [00:05<00:00, 2793.38 examples/s]
+[2025-12-23 14:25:51,340] [INFO] [axolotl.utils.data.utils.handle_long_seq_in_dataset:218] [PID:5529] min_input_len: 198
+[2025-12-23 14:25:51,341] [INFO] [axolotl.utils.data.utils.handle_long_seq_in_dataset:220] [PID:5529] max_input_len: 5241
+Dropping Long Sequences (>4096) (num_proc=24):   0%|                                | 0/15985 [00:00<?, ? examples/s]Dropping Long Sequences (>4096) (num_proc=24):   4%|▊                   | 667/15985 [00:00<00:10, 1501.98 examples/s]Dropping Long Sequences (>4096) (num_proc=24):  96%|████████████████▎| 15319/15985 [00:00<00:00, 32317.27 examples/s]Dropping Long Sequences (>4096) (num_proc=24): 100%|█████████████████| 15985/15985 [00:00<00:00, 22266.76 examples/s]
+[2025-12-23 14:25:52,104] [WARNING] [axolotl.utils.data.utils.handle_long_seq_in_dataset:260] [PID:5529] Dropped 8 samples from dataset
+Saving the dataset (0/24 shards):   0%|                                             | 0/15977 [00:00<?, ? examples/s]Saving the dataset (0/24 shards):   4%|█▍                               | 666/15977 [00:00<00:06, 2355.00 examples/s]Saving the dataset (1/24 shards):   4%|█▍                               | 666/15977 [00:00<00:06, 2355.00 examples/s]Saving the dataset (2/24 shards):   8%|██▋                             | 1332/15977 [00:00<00:06, 2355.00 examples/s]Saving the dataset (3/24 shards):  13%|████                            | 1998/15977 [00:00<00:05, 2355.00 examples/s]Saving the dataset (4/24 shards):  17%|█████▎                          | 2664/15977 [00:00<00:05, 2355.00 examples/s]Saving the dataset (5/24 shards):  21%|██████▋                         | 3330/15977 [00:00<00:05, 2355.00 examples/s]Saving the dataset (6/24 shards):  25%|████████                        | 3996/15977 [00:00<00:05, 2355.00 examples/s]Saving the dataset (7/24 shards):  29%|█████████▎                      | 4662/15977 [00:00<00:04, 2355.00 examples/s]Saving the dataset (8/24 shards):  33%|██████████▋                     | 5328/15977 [00:00<00:04, 2355.00 examples/s]Saving the dataset (9/24 shards):  38%|████████████                    | 5994/15977 [00:00<00:04, 2355.00 examples/s]Saving the dataset (10/24 shards):  42%|████████████▉                  | 6660/15977 [00:00<00:03, 2355.00 examples/s]Saving the dataset (11/24 shards):  46%|██████████████▏                | 7326/15977 [00:00<00:03, 2355.00 examples/s]Saving the dataset (12/24 shards):  50%|███████████████▌               | 7992/15977 [00:00<00:03, 2355.00 examples/s]Saving the dataset (13/24 shards):  54%|████████████████▊              | 8658/15977 [00:00<00:03, 2355.00 examples/s]Saving the dataset (14/24 shards):  58%|██████████████████             | 9324/15977 [00:00<00:02, 2355.00 examples/s]Saving the dataset (15/24 shards):  63%|███████████████████▍           | 9990/15977 [00:00<00:02, 2355.00 examples/s]Saving the dataset (16/24 shards):  67%|████████████████████          | 10656/15977 [00:00<00:02, 2355.00 examples/s]Saving the dataset (17/24 shards):  71%|█████████████████████▎        | 11322/15977 [00:00<00:01, 2355.00 examples/s]Saving the dataset (18/24 shards):  75%|██████████████████████▌       | 11987/15977 [00:00<00:01, 2355.00 examples/s]Saving the dataset (19/24 shards):  79%|███████████████████████▊      | 12652/15977 [00:00<00:01, 2355.00 examples/s]Saving the dataset (20/24 shards):  83%|█████████████████████████     | 13317/15977 [00:00<00:01, 2355.00 examples/s]Saving the dataset (21/24 shards):  88%|██████████████████████████▎   | 13982/15977 [00:00<00:00, 2355.00 examples/s]Saving the dataset (22/24 shards):  92%|███████████████████████████▌  | 14647/15977 [00:00<00:00, 2355.00 examples/s]Saving the dataset (23/24 shards):  96%|████████████████████████████▊ | 15312/15977 [00:00<00:00, 2355.00 examples/s]Saving the dataset (24/24 shards): 100%|██████████████████████████████| 15977/15977 [00:00<00:00, 2355.00 examples/s]Saving the dataset (24/24 shards): 100%|█████████████████████████████| 15977/15977 [00:00<00:00, 40985.50 examples/s]
+[2025-12-23 14:25:52,671] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:404] [PID:5529] total_num_tokens: 13_770_243
+[2025-12-23 14:25:52,787] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:422] [PID:5529] `total_supervised_tokens: 3_794_485`
+[2025-12-23 14:25:52,787] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:520] [PID:5529] total_num_steps: 4993
+[2025-12-23 14:25:52,787] [INFO] [axolotl.utils.data.sft._prepare_standard_dataset:121] [PID:5529] Maximum number of steps set at 4993
+[2025-12-23 14:25:52,813] [DEBUG] [axolotl.train.setup_model_and_tokenizer:65] [PID:5529] Loading tokenizer... Qwen/Qwen3-4B-Instruct-2507
+[2025-12-23 14:25:53,219] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:278] [PID:5529] EOS: 151645 / <|im_end|>
+[2025-12-23 14:25:53,219] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:279] [PID:5529] BOS: None / None
+[2025-12-23 14:25:53,219] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:5529] PAD: 151643 / <|endoftext|>
+[2025-12-23 14:25:53,220] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:5529] UNK: None / None
+[2025-12-23 14:25:53,220] [DEBUG] [axolotl.train.setup_model_and_tokenizer:74] [PID:5529] Loading model
+[2025-12-23 14:25:53,267] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_evaluation_loop:87] [PID:5529] Patched Trainer.evaluation_loop with nanmean loss calculation
+[2025-12-23 14:25:53,269] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_maybe_log_save_evaluate:138] [PID:5529] Patched Trainer._maybe_log_save_evaluate with nanmean loss calculation
+model.safetensors.index.json: 0.00B [00:00, ?B/s]model.safetensors.index.json: 32.8kB [00:00, 187MB/s]
+model-00001-of-00003.safetensors:   0%|                                                  | 0.00/3.96G [00:00<?, ?B/s]model-00001-of-00003.safetensors:   0%|                                          | 630k/3.96G [00:00<41:40, 1.58MB/s]model-00001-of-00003.safetensors:   0%|                                         | 2.15M/3.96G [00:00<15:00, 4.39MB/s]model-00001-of-00003.safetensors:   2%|▋                                        | 69.2M/3.96G [00:00<00:40, 95.2MB/s]model-00001-of-00003.safetensors:   3%|█▍                                         | 136M/3.96G [00:01<00:21, 176MB/s]model-00001-of-00003.safetensors:   5%|██▏                                        | 203M/3.96G [00:01<00:15, 235MB/s]model-00001-of-00003.safetensors:   7%|██▉                                        | 270M/3.96G [00:01<00:12, 284MB/s]model-00001-of-00003.safetensors:   9%|███▋                                       | 337M/3.96G [00:01<00:10, 356MB/s]model-00001-of-00003.safetensors:  10%|████▍                                      | 405M/3.96G [00:02<00:15, 225MB/s]model-00001-of-00003.safetensors:  12%|█████▏                                     | 473M/3.96G [00:02<00:12, 282MB/s]model-00001-of-00003.safetensors:  15%|██████▌                                    | 607M/3.96G [00:02<00:09, 338MB/s]model-00001-of-00003.safetensors:  17%|███████▎                                   | 674M/3.96G [00:02<00:09, 363MB/s]model-00001-of-00003.safetensors:  19%|████████                                   | 741M/3.96G [00:02<00:08, 375MB/s]model-00001-of-00003.safetensors:  20%|████████▊                                  | 808M/3.96G [00:02<00:07, 409MB/s]model-00001-of-00003.safetensors:  24%|██████████▏                                | 942M/3.96G [00:03<00:05, 509MB/s]model-00001-of-00003.safetensors:  25%|██████████▋                               | 1.01G/3.96G [00:03<00:05, 504MB/s]model-00001-of-00003.safetensors:  27%|███████████▍                              | 1.08G/3.96G [00:03<00:06, 473MB/s]model-00001-of-00003.safetensors:  31%|████████████▊                             | 1.21G/3.96G [00:03<00:05, 527MB/s]model-00001-of-00003.safetensors:  34%|██████████████▎                           | 1.34G/3.96G [00:03<00:04, 649MB/s]model-00001-of-00003.safetensors:  37%|███████████████▋                          | 1.48G/3.96G [00:03<00:03, 647MB/s]model-00001-of-00003.safetensors:  41%|█████████████████                         | 1.61G/3.96G [00:04<00:03, 643MB/s]model-00001-of-00003.safetensors:  42%|█████████████████▊                        | 1.68G/3.96G [00:04<00:03, 592MB/s]model-00001-of-00003.safetensors:  46%|███████████████████▏                      | 1.81G/3.96G [00:04<00:03, 644MB/s]model-00001-of-00003.safetensors:  49%|████████████████████▋                     | 1.95G/3.96G [00:04<00:02, 697MB/s]model-00001-of-00003.safetensors:  53%|██████████████████████                    | 2.08G/3.96G [00:04<00:02, 643MB/s]model-00001-of-00003.safetensors:  54%|██████████████████████▊                   | 2.15G/3.96G [00:05<00:02, 630MB/s]model-00001-of-00003.safetensors:  56%|███████████████████████▌                  | 2.22G/3.96G [00:05<00:02, 630MB/s]model-00001-of-00003.safetensors:  58%|████████████████████████▏                 | 2.28G/3.96G [00:05<00:03, 540MB/s]model-00001-of-00003.safetensors:  61%|█████████████████████████▋                | 2.42G/3.96G [00:05<00:02, 612MB/s]model-00001-of-00003.safetensors:  63%|██████████████████████████▎               | 2.48G/3.96G [00:05<00:02, 589MB/s]model-00001-of-00003.safetensors:  64%|███████████████████████████               | 2.55G/3.96G [00:05<00:03, 466MB/s]model-00001-of-00003.safetensors:  66%|███████████████████████████▊              | 2.62G/3.96G [00:05<00:02, 496MB/s]model-00001-of-00003.safetensors:  68%|████████████████████████████▍             | 2.68G/3.96G [00:06<00:02, 523MB/s]model-00001-of-00003.safetensors:  71%|█████████████████████████████▉            | 2.82G/3.96G [00:06<00:01, 575MB/s]model-00001-of-00003.safetensors:  73%|██████████████████████████████▌           | 2.89G/3.96G [00:06<00:02, 533MB/s]model-00001-of-00003.safetensors:  75%|███████████████████████████████▎          | 2.95G/3.96G [00:06<00:02, 485MB/s]model-00001-of-00003.safetensors:  76%|████████████████████████████████          | 3.02G/3.96G [00:06<00:01, 472MB/s]model-00001-of-00003.safetensors:  80%|█████████████████████████████████▍        | 3.15G/3.96G [00:06<00:01, 590MB/s]model-00001-of-00003.safetensors:  83%|██████████████████████████████████▉       | 3.29G/3.96G [00:07<00:01, 605MB/s]model-00001-of-00003.safetensors:  85%|███████████████████████████████████▌      | 3.35G/3.96G [00:07<00:01, 418MB/s]model-00001-of-00003.safetensors:  88%|█████████████████████████████████████     | 3.49G/3.96G [00:07<00:00, 522MB/s]model-00001-of-00003.safetensors:  90%|█████████████████████████████████████▋    | 3.56G/3.96G [00:07<00:00, 503MB/s]model-00001-of-00003.safetensors:  93%|███████████████████████████████████████▏  | 3.69G/3.96G [00:07<00:00, 585MB/s]model-00001-of-00003.safetensors:  95%|███████████████████████████████████████▊  | 3.76G/3.96G [00:08<00:00, 592MB/s]model-00001-of-00003.safetensors:  98%|█████████████████████████████████████████▎| 3.89G/3.96G [00:08<00:00, 606MB/s]model-00001-of-00003.safetensors: 100%|██████████████████████████████████████████| 3.96G/3.96G [00:08<00:00, 476MB/s]
+model-00002-of-00003.safetensors:   0%|                                                  | 0.00/3.99G [00:00<?, ?B/s]model-00002-of-00003.safetensors:   0%|                                         | 880k/3.99G [00:00<1:10:59, 936kB/s]model-00002-of-00003.safetensors:   2%|▋                                        | 67.9M/3.99G [00:01<00:51, 76.0MB/s]model-00002-of-00003.safetensors:   3%|█▍                                         | 135M/3.99G [00:01<00:30, 128MB/s]model-00002-of-00003.safetensors:   7%|██▉                                        | 269M/3.99G [00:01<00:12, 292MB/s]model-00002-of-00003.safetensors:  10%|████▎                                      | 403M/3.99G [00:01<00:08, 407MB/s]model-00002-of-00003.safetensors:  12%|█████                                      | 470M/3.99G [00:01<00:09, 356MB/s]model-00002-of-00003.safetensors:  13%|█████▊                                     | 537M/3.99G [00:02<00:10, 341MB/s]model-00002-of-00003.safetensors:  15%|██████▌                                    | 604M/3.99G [00:02<00:08, 391MB/s]model-00002-of-00003.safetensors:  19%|███████▉                                   | 738M/3.99G [00:02<00:06, 501MB/s]model-00002-of-00003.safetensors:  20%|████████▋                                  | 805M/3.99G [00:02<00:06, 462MB/s]model-00002-of-00003.safetensors:  22%|█████████▍                                 | 873M/3.99G [00:02<00:07, 441MB/s]model-00002-of-00003.safetensors:  24%|██████████▏                                | 940M/3.99G [00:03<00:08, 363MB/s]model-00002-of-00003.safetensors:  25%|██████████▌                               | 1.01G/3.99G [00:03<00:08, 364MB/s]model-00002-of-00003.safetensors:  29%|████████████                              | 1.14G/3.99G [00:03<00:06, 448MB/s]model-00002-of-00003.safetensors:  30%|████████████▋                             | 1.21G/3.99G [00:03<00:05, 467MB/s]model-00002-of-00003.safetensors:  34%|██████████████▏                           | 1.34G/3.99G [00:03<00:06, 426MB/s]model-00002-of-00003.safetensors:  35%|██████████████▊                           | 1.41G/3.99G [00:04<00:05, 437MB/s]model-00002-of-00003.safetensors:  37%|███████████████▌                          | 1.48G/3.99G [00:04<00:06, 364MB/s]model-00002-of-00003.safetensors:  39%|████████████████▎                         | 1.54G/3.99G [00:04<00:06, 397MB/s]model-00002-of-00003.safetensors:  40%|████████████████▉                         | 1.61G/3.99G [00:04<00:05, 417MB/s]model-00002-of-00003.safetensors:  42%|█████████████████▋                        | 1.68G/3.99G [00:04<00:05, 442MB/s]model-00002-of-00003.safetensors:  44%|██████████████████▍                       | 1.75G/3.99G [00:04<00:05, 423MB/s]model-00002-of-00003.safetensors:  45%|███████████████████                       | 1.81G/3.99G [00:05<00:05, 405MB/s]model-00002-of-00003.safetensors:  47%|███████████████████▊                      | 1.88G/3.99G [00:05<00:05, 372MB/s]model-00002-of-00003.safetensors:  49%|████████████████████▌                     | 1.95G/3.99G [00:05<00:04, 423MB/s]model-00002-of-00003.safetensors:  50%|█████████████████████▏                    | 2.01G/3.99G [00:05<00:04, 449MB/s]model-00002-of-00003.safetensors:  54%|██████████████████████▌                   | 2.15G/3.99G [00:05<00:03, 538MB/s]model-00002-of-00003.safetensors:  56%|███████████████████████▋                  | 2.25G/3.99G [00:06<00:05, 336MB/s]model-00002-of-00003.safetensors:  58%|████████████████████████▎                 | 2.31G/3.99G [00:06<00:04, 373MB/s]model-00002-of-00003.safetensors:  60%|█████████████████████████                 | 2.38G/3.99G [00:06<00:04, 359MB/s]model-00002-of-00003.safetensors:  61%|█████████████████████████▊                | 2.45G/3.99G [00:06<00:03, 392MB/s]model-00002-of-00003.safetensors:  63%|██████████████████████████▍               | 2.51G/3.99G [00:06<00:03, 399MB/s]model-00002-of-00003.safetensors:  65%|███████████████████████████▏              | 2.58G/3.99G [00:07<00:03, 441MB/s]model-00002-of-00003.safetensors:  68%|████████████████████████████▌             | 2.72G/3.99G [00:07<00:02, 518MB/s]model-00002-of-00003.safetensors:  70%|█████████████████████████████▎            | 2.78G/3.99G [00:07<00:02, 457MB/s]model-00002-of-00003.safetensors:  71%|██████████████████████████████            | 2.85G/3.99G [00:07<00:02, 460MB/s]model-00002-of-00003.safetensors:  73%|██████████████████████████████▋           | 2.92G/3.99G [00:07<00:02, 464MB/s]model-00002-of-00003.safetensors:  76%|████████████████████████████████▏         | 3.05G/3.99G [00:07<00:01, 582MB/s]model-00002-of-00003.safetensors:  78%|████████████████████████████████▊         | 3.12G/3.99G [00:07<00:01, 592MB/s]model-00002-of-00003.safetensors:  82%|██████████████████████████████████▏       | 3.25G/3.99G [00:08<00:01, 542MB/s]model-00002-of-00003.safetensors:  85%|███████████████████████████████████▋      | 3.38G/3.99G [00:08<00:00, 620MB/s]model-00002-of-00003.safetensors:  88%|█████████████████████████████████████     | 3.52G/3.99G [00:08<00:00, 609MB/s]model-00002-of-00003.safetensors:  90%|█████████████████████████████████████▊    | 3.59G/3.99G [00:08<00:00, 609MB/s]model-00002-of-00003.safetensors:  92%|██████████████████████████████████████▍   | 3.65G/3.99G [00:08<00:00, 602MB/s]model-00002-of-00003.safetensors:  93%|███████████████████████████████████████▏  | 3.72G/3.99G [00:08<00:00, 605MB/s]model-00002-of-00003.safetensors:  97%|████████████████████████████████████████▌ | 3.85G/3.99G [00:09<00:00, 738MB/s]model-00002-of-00003.safetensors: 100%|██████████████████████████████████████████| 3.99G/3.99G [00:09<00:00, 682MB/s]model-00002-of-00003.safetensors: 100%|██████████████████████████████████████████| 3.99G/3.99G [00:09<00:00, 427MB/s]
+model-00003-of-00003.safetensors:   0%|                                                  | 0.00/99.6M [00:00<?, ?B/s]model-00003-of-00003.safetensors:  33%|█████████████▍                           | 32.6M/99.6M [00:00<00:01, 45.2MB/s]model-00003-of-00003.safetensors: 100%|██████████████████████████████████████████| 99.6M/99.6M [00:01<00:00, 109MB/s]model-00003-of-00003.safetensors: 100%|█████████████████████████████████████████| 99.6M/99.6M [00:01<00:00, 95.5MB/s]
+Loading checkpoint shards:   0%|                                                               | 0/3 [00:00<?, ?it/s]Loading checkpoint shards: 100%|███████████████████████████████████████████████████████| 3/3 [00:00<00:00, 54.59it/s]
+generation_config.json:   0%|                                                              | 0.00/238 [00:00<?, ?B/s]generation_config.json: 100%|███████████████████████████████████████████████████████| 238/238 [00:00<00:00, 3.33MB/s]
+[2025-12-23 14:26:13,352] [INFO] [axolotl.loaders.model._configure_embedding_dtypes:345] [PID:5529] Converting modules to torch.bfloat16
+[2025-12-23 14:26:13,915] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:5529] Memory usage after model load 0.000GB ()
+[2025-12-23 14:26:20,716] [INFO] [axolotl.train.save_initial_configs:402] [PID:5529] Pre-saving tokenizer to ./outputs/qwen3-4b-instruct-ded-full-train...
+[2025-12-23 14:26:20,893] [INFO] [axolotl.train.save_initial_configs:407] [PID:5529] Pre-saving model config to ./outputs/qwen3-4b-instruct-ded-full-train...
+[2025-12-23 14:26:20,898] [INFO] [axolotl.train.execute_training:196] [PID:5529] Starting trainer...
+  0%|                                                                                       | 0/4993 [00:00<?, ?it/s]  0%|                                                                             | 1/4993 [00:05<7:37:17,  5.50s/it]  0%|                                                                             | 2/4993 [00:09<6:40:38,  4.82s/it]  0%|                                                                             | 3/4993 [00:13<5:49:54,  4.21s/it]  0%|                                                                             | 4/4993 [00:16<5:28:27,  3.95s/it]  0%|                                                                             | 5/4993 [00:21<5:36:10,  4.04s/it]  0%|                                                                             | 6/4993 [00:24<5:28:05,  3.95s/it]  0%|                                                                             | 7/4993 [00:28<5:32:50,  4.01s/it]  0%|                                                                             | 8/4993 [00:32<5:24:40,  3.91s/it]  0%|▏                                                                            | 9/4993 [00:36<5:21:36,  3.87s/it]  0%|▏                                                                           | 10/4993 [00:40<5:14:03,  3.78s/it]                                                                                                                     {'loss': 1.2028, 'grad_norm': 31.125, 'learning_rate': 4.5000000000000003e-07, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 41.55, 'tokens_per_second_per_gpu': 2055.24, 'epoch': 0.02}
+  0%|▏                                                                           | 10/4993 [00:40<5:14:03,  3.78s/it]  0%|▏                                                                           | 11/4993 [00:44<5:25:16,  3.92s/it]  0%|▏                                                                           | 12/4993 [00:48<5:28:50,  3.96s/it]  0%|▏                                                                           | 13/4993 [00:52<5:31:00,  3.99s/it]  0%|▏                                                                           | 14/4993 [00:56<5:43:21,  4.14s/it]  0%|▏                                                                           | 15/4993 [01:01<5:44:49,  4.16s/it]  0%|▏                                                                           | 16/4993 [01:05<5:44:15,  4.15s/it]  0%|▎                                                                           | 17/4993 [01:08<5:28:47,  3.96s/it]  0%|▎                                                                           | 18/4993 [01:12<5:31:46,  4.00s/it]  0%|▎                                                                           | 19/4993 [01:16<5:26:28,  3.94s/it]  0%|▎                                                                           | 20/4993 [01:20<5:20:06,  3.86s/it]                                                                                                                     {'loss': 1.1983, 'grad_norm': 31.375, 'learning_rate': 9.500000000000001e-07, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 44.23, 'tokens_per_second_per_gpu': 1985.39, 'epoch': 0.04}
+  0%|▎                                                                           | 20/4993 [01:20<5:20:06,  3.86s/it]  0%|▎                                                                           | 21/4993 [01:24<5:32:46,  4.02s/it]  0%|▎                                                                           | 22/4993 [01:28<5:38:11,  4.08s/it]  0%|▎                                                                           | 23/4993 [01:32<5:29:48,  3.98s/it]  0%|▎                                                                           | 24/4993 [01:36<5:37:45,  4.08s/it]  1%|▍                                                                           | 25/4993 [01:40<5:31:26,  4.00s/it]  1%|▍                                                                           | 26/4993 [01:44<5:27:55,  3.96s/it]  1%|▍                                                                           | 27/4993 [01:48<5:23:03,  3.90s/it]  1%|▍                                                                           | 28/4993 [01:52<5:21:40,  3.89s/it]  1%|▍                                                                           | 29/4993 [01:56<5:29:30,  3.98s/it]  1%|▍                                                                           | 30/4993 [02:00<5:27:34,  3.96s/it]                                                                                                                     {'loss': 1.1277, 'grad_norm': 24.0, 'learning_rate': 1.45e-06, 'memory/max_active (GiB)': 40.32, 'memory/max_allocated (GiB)': 40.32, 'memory/device_reserved (GiB)': 44.23, 'tokens_per_second_per_gpu': 1929.84, 'epoch': 0.06}
+  1%|▍                                                                           | 30/4993 [02:00<5:27:34,  3.96s/it]  1%|▍                                                                           | 31/4993 [02:04<5:26:55,  3.95s/it]  1%|▍                                                                           | 32/4993 [02:08<5:34:20,  4.04s/it]  1%|▌                                                                           | 33/4993 [02:12<5:31:09,  4.01s/it]  1%|▌                                                                           | 34/4993 [02:16<5:27:50,  3.97s/it]  1%|▌                                                                           | 35/4993 [02:19<5:18:37,  3.86s/it]  1%|▌                                                                           | 36/4993 [02:23<5:16:48,  3.83s/it]  1%|▌                                                                           | 37/4993 [02:28<5:28:30,  3.98s/it]  1%|▌                                                                           | 38/4993 [02:31<5:23:47,  3.92s/it]  1%|▌                                                                           | 39/4993 [02:35<5:25:51,  3.95s/it]  1%|▌                                                                           | 40/4993 [02:39<5:24:50,  3.94s/it]                                                                                                                     {'loss': 1.0052, 'grad_norm': 20.375, 'learning_rate': 1.9500000000000004e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 44.23, 'tokens_per_second_per_gpu': 1872.8, 'epoch': 0.08}
+  1%|▌                                                                           | 40/4993 [02:39<5:24:50,  3.94s/it]  1%|▌                                                                           | 41/4993 [02:43<5:23:39,  3.92s/it]  1%|▋                                                                           | 42/4993 [02:47<5:23:48,  3.92s/it]  1%|▋                                                                           | 43/4993 [02:51<5:27:41,  3.97s/it]  1%|▋                                                                           | 44/4993 [02:55<5:33:06,  4.04s/it]  1%|▋                                                                           | 45/4993 [02:59<5:29:53,  4.00s/it]  1%|▋                                                                           | 46/4993 [03:03<5:16:37,  3.84s/it]  1%|▋                                                                           | 47/4993 [03:07<5:21:26,  3.90s/it]  1%|▋                                                                           | 48/4993 [03:11<5:22:18,  3.91s/it]  1%|▋                                                                           | 49/4993 [03:15<5:24:08,  3.93s/it]  1%|▊                                                                           | 50/4993 [03:18<5:16:21,  3.84s/it]                                                                                                                     {'loss': 0.8538, 'grad_norm': 8.875, 'learning_rate': 2.4500000000000003e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 44.85, 'tokens_per_second_per_gpu': 1972.03, 'epoch': 0.1}
+  1%|▊                                                                           | 50/4993 [03:18<5:16:21,  3.84s/it]  1%|▊                                                                           | 51/4993 [03:22<5:22:16,  3.91s/it]  1%|▊                                                                           | 52/4993 [03:26<5:16:34,  3.84s/it]  1%|▊                                                                           | 53/4993 [03:30<5:23:17,  3.93s/it]  1%|▊                                                                           | 54/4993 [03:34<5:15:22,  3.83s/it]  1%|▊                                                                           | 55/4993 [03:38<5:23:51,  3.94s/it]  1%|▊                                                                           | 56/4993 [03:42<5:29:13,  4.00s/it]  1%|▊                                                                           | 57/4993 [03:46<5:37:43,  4.11s/it]  1%|▉                                                                           | 58/4993 [03:50<5:33:37,  4.06s/it]  1%|▉                                                                           | 59/4993 [03:55<5:36:58,  4.10s/it]  1%|▉                                                                           | 60/4993 [03:58<5:30:16,  4.02s/it]                                                                                                                     {'loss': 0.7542, 'grad_norm': 4.3125, 'learning_rate': 2.95e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 44.85, 'tokens_per_second_per_gpu': 1989.58, 'epoch': 0.12}
+  1%|▉                                                                           | 60/4993 [03:58<5:30:16,  4.02s/it]  1%|▉                                                                           | 61/4993 [04:02<5:30:14,  4.02s/it]  1%|▉                                                                           | 62/4993 [04:07<5:31:16,  4.03s/it]  1%|▉                                                                           | 63/4993 [04:10<5:26:00,  3.97s/it]  1%|▉                                                                           | 64/4993 [04:15<5:36:12,  4.09s/it]  1%|▉                                                                           | 65/4993 [04:18<5:25:09,  3.96s/it]  1%|█                                                                           | 66/4993 [04:22<5:24:10,  3.95s/it]  1%|█                                                                           | 67/4993 [04:27<5:30:28,  4.03s/it]  1%|█                                                                           | 68/4993 [04:30<5:19:17,  3.89s/it]  1%|█                                                                           | 69/4993 [04:34<5:25:04,  3.96s/it]  1%|█                                                                           | 70/4993 [04:38<5:19:45,  3.90s/it]                                                                                                                     {'loss': 0.7103, 'grad_norm': 2.640625, 'learning_rate': 3.45e-06, 'memory/max_active (GiB)': 40.36, 'memory/max_allocated (GiB)': 40.36, 'memory/device_reserved (GiB)': 44.85, 'tokens_per_second_per_gpu': 1924.17, 'epoch': 0.14}
+  1%|█                                                                           | 70/4993 [04:38<5:19:45,  3.90s/it]  1%|█                                                                           | 71/4993 [04:42<5:20:50,  3.91s/it]  1%|█                                                                           | 72/4993 [04:46<5:31:33,  4.04s/it]  1%|█                                                                           | 73/4993 [04:50<5:16:02,  3.85s/it]  1%|█▏                                                                          | 74/4993 [04:53<5:12:14,  3.81s/it]  2%|█▏                                                                          | 75/4993 [04:58<5:23:47,  3.95s/it]  2%|█▏                                                                          | 76/4993 [05:02<5:21:20,  3.92s/it]  2%|█▏                                                                          | 77/4993 [05:05<5:15:32,  3.85s/it]  2%|█▏                                                                          | 78/4993 [05:09<5:20:17,  3.91s/it]  2%|█▏                                                                          | 79/4993 [05:13<5:23:54,  3.95s/it]  2%|█▏                                                                          | 80/4993 [05:17<5:23:46,  3.95s/it]                                                                                                                     {'loss': 0.6889, 'grad_norm': 2.328125, 'learning_rate': 3.95e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 44.85, 'tokens_per_second_per_gpu': 1929.86, 'epoch': 0.16}
+  2%|█▏                                                                          | 80/4993 [05:17<5:23:46,  3.95s/it]  2%|█▏                                                                          | 81/4993 [05:21<5:23:31,  3.95s/it]  2%|█▏                                                                          | 82/4993 [05:26<5:34:44,  4.09s/it]  2%|█▎                                                                          | 83/4993 [05:30<5:36:13,  4.11s/it]  2%|█▎                                                                          | 84/4993 [05:34<5:37:29,  4.13s/it]  2%|█▎                                                                          | 85/4993 [05:38<5:45:34,  4.22s/it]  2%|█▎                                                                          | 86/4993 [05:42<5:41:01,  4.17s/it]  2%|█▎                                                                          | 87/4993 [05:46<5:33:52,  4.08s/it]  2%|█▎                                                                          | 88/4993 [05:50<5:35:40,  4.11s/it]  2%|█▎                                                                          | 89/4993 [05:54<5:32:20,  4.07s/it]  2%|█▎                                                                          | 90/4993 [05:59<5:47:49,  4.26s/it]                                                                                                                     {'loss': 0.6534, 'grad_norm': 1.8203125, 'learning_rate': 4.450000000000001e-06, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 46.36, 'tokens_per_second_per_gpu': 1818.7, 'epoch': 0.18}
+  2%|█▎                                                                          | 90/4993 [05:59<5:47:49,  4.26s/it]  2%|█▍                                                                          | 91/4993 [06:03<5:34:06,  4.09s/it]  2%|█▍                                                                          | 92/4993 [06:07<5:30:31,  4.05s/it]  2%|█▍                                                                          | 93/4993 [06:11<5:31:31,  4.06s/it]  2%|█▍                                                                          | 94/4993 [06:14<5:20:12,  3.92s/it]  2%|█▍                                                                          | 95/4993 [06:19<5:25:11,  3.98s/it]  2%|█▍                                                                          | 96/4993 [06:23<5:25:35,  3.99s/it]  2%|█▍                                                                          | 97/4993 [06:26<5:20:03,  3.92s/it]  2%|█▍                                                                          | 98/4993 [06:30<5:17:58,  3.90s/it]  2%|█▌                                                                          | 99/4993 [06:34<5:19:11,  3.91s/it]  2%|█▌                                                                         | 100/4993 [06:38<5:18:37,  3.91s/it]                                                                                                                     {'loss': 0.6456, 'grad_norm': 2.203125, 'learning_rate': 4.95e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 46.36, 'tokens_per_second_per_gpu': 1810.41, 'epoch': 0.2}
+  2%|█▌                                                                         | 100/4993 [06:38<5:18:37,  3.91s/it]  2%|█▌                                                                         | 101/4993 [06:42<5:13:55,  3.85s/it]  2%|█▌                                                                         | 102/4993 [06:46<5:28:03,  4.02s/it]  2%|█▌                                                                         | 103/4993 [06:50<5:26:11,  4.00s/it]  2%|█▌                                                                         | 104/4993 [06:54<5:19:56,  3.93s/it]  2%|█▌                                                                         | 105/4993 [06:58<5:28:36,  4.03s/it]  2%|█▌                                                                         | 106/4993 [07:02<5:29:12,  4.04s/it]  2%|█▌                                                                         | 107/4993 [07:06<5:16:58,  3.89s/it]  2%|█▌                                                                         | 108/4993 [07:10<5:22:34,  3.96s/it]  2%|█▋                                                                         | 109/4993 [07:14<5:33:13,  4.09s/it]  2%|█▋                                                                         | 110/4993 [07:19<5:38:28,  4.16s/it]                                                                                                                     {'loss': 0.6361, 'grad_norm': 2.125, 'learning_rate': 4.999958260894529e-06, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 46.36, 'tokens_per_second_per_gpu': 1717.03, 'epoch': 0.22}
+  2%|█▋                                                                         | 110/4993 [07:19<5:38:28,  4.16s/it]  2%|█▋                                                                         | 111/4993 [07:22<5:21:41,  3.95s/it]  2%|█▋                                                                         | 112/4993 [07:26<5:14:16,  3.86s/it]  2%|█▋                                                                         | 113/4993 [07:30<5:21:57,  3.96s/it]  2%|█▋                                                                         | 114/4993 [07:34<5:17:53,  3.91s/it]  2%|█▋                                                                         | 115/4993 [07:38<5:21:40,  3.96s/it]  2%|█▋                                                                         | 116/4993 [07:42<5:29:07,  4.05s/it]  2%|█▊                                                                         | 117/4993 [07:46<5:23:18,  3.98s/it]  2%|█▊                                                                         | 118/4993 [07:51<5:44:24,  4.24s/it]  2%|█▊                                                                         | 119/4993 [07:55<5:41:39,  4.21s/it]  2%|█▊                                                                         | 120/4993 [07:59<5:41:25,  4.20s/it]                                                                                                                     {'loss': 0.6351, 'grad_norm': 2.1875, 'learning_rate': 4.9998139793563e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 46.36, 'tokens_per_second_per_gpu': 2002.44, 'epoch': 0.24}
+  2%|█▊                                                                         | 120/4993 [07:59<5:41:25,  4.20s/it]  2%|█▊                                                                         | 121/4993 [08:03<5:28:14,  4.04s/it]  2%|█▊                                                                         | 122/4993 [08:06<5:16:36,  3.90s/it]  2%|█▊                                                                         | 123/4993 [08:10<5:19:12,  3.93s/it]  2%|█▊                                                                         | 124/4993 [08:14<5:25:10,  4.01s/it]  3%|█▉                                                                         | 125/4993 [08:19<5:27:17,  4.03s/it]  3%|█▉                                                                         | 126/4993 [08:23<5:37:11,  4.16s/it]  3%|█▉                                                                         | 127/4993 [08:28<5:47:15,  4.28s/it]  3%|█▉                                                                         | 128/4993 [08:31<5:33:51,  4.12s/it]  3%|█▉                                                                         | 129/4993 [08:35<5:22:04,  3.97s/it]  3%|█▉                                                                         | 130/4993 [08:39<5:33:52,  4.12s/it]                                                                                                                     {'loss': 0.6475, 'grad_norm': 1.78125, 'learning_rate': 4.999566646034133e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 46.61, 'tokens_per_second_per_gpu': 1781.54, 'epoch': 0.26}
+  3%|█▉                                                                         | 130/4993 [08:39<5:33:52,  4.12s/it]  3%|█▉                                                                         | 131/4993 [08:43<5:26:13,  4.03s/it]  3%|█▉                                                                         | 132/4993 [08:47<5:19:23,  3.94s/it]  3%|█▉                                                                         | 133/4993 [08:51<5:25:50,  4.02s/it]  3%|██                                                                         | 134/4993 [08:55<5:21:51,  3.97s/it]  3%|██                                                                         | 135/4993 [08:59<5:12:15,  3.86s/it]  3%|██                                                                         | 136/4993 [09:02<5:09:36,  3.82s/it]  3%|██                                                                         | 137/4993 [09:06<5:14:29,  3.89s/it]  3%|██                                                                         | 138/4993 [09:10<5:12:59,  3.87s/it]  3%|██                                                                         | 139/4993 [09:14<5:06:19,  3.79s/it]  3%|██                                                                         | 140/4993 [09:18<5:09:09,  3.82s/it]                                                                                                                     {'loss': 0.6696, 'grad_norm': 2.21875, 'learning_rate': 4.999216271124038e-06, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 46.61, 'tokens_per_second_per_gpu': 1824.44, 'epoch': 0.28}
+  3%|██                                                                         | 140/4993 [09:18<5:09:09,  3.82s/it]  3%|██                                                                         | 141/4993 [09:21<5:02:31,  3.74s/it]  3%|██▏                                                                        | 142/4993 [09:25<5:02:14,  3.74s/it]  3%|██▏                                                                        | 143/4993 [09:29<5:11:40,  3.86s/it]  3%|██▏                                                                        | 144/4993 [09:33<5:13:56,  3.88s/it]  3%|██▏                                                                        | 145/4993 [09:37<5:10:51,  3.85s/it]  3%|██▏                                                                        | 146/4993 [09:41<5:14:25,  3.89s/it]  3%|██▏                                                                        | 147/4993 [09:45<5:09:20,  3.83s/it]  3%|██▏                                                                        | 148/4993 [09:49<5:12:22,  3.87s/it]  3%|██▏                                                                        | 149/4993 [09:52<5:12:33,  3.87s/it]  3%|██▎                                                                        | 150/4993 [09:56<5:12:47,  3.88s/it]                                                                                                                     {'loss': 0.6517, 'grad_norm': 1.6796875, 'learning_rate': 4.998762869069797e-06, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 46.61, 'tokens_per_second_per_gpu': 1837.62, 'epoch': 0.3}
+  3%|██▎                                                                        | 150/4993 [09:56<5:12:47,  3.88s/it]  3%|██▎                                                                        | 151/4993 [10:00<5:12:43,  3.88s/it]  3%|██▎                                                                        | 152/4993 [10:04<5:08:56,  3.83s/it]  3%|██▎                                                                        | 153/4993 [10:08<5:19:40,  3.96s/it]  3%|██▎                                                                        | 154/4993 [10:12<5:20:55,  3.98s/it]  3%|██▎                                                                        | 155/4993 [10:16<5:20:12,  3.97s/it]  3%|██▎                                                                        | 156/4993 [10:20<5:19:20,  3.96s/it]  3%|██▎                                                                        | 157/4993 [10:24<5:19:59,  3.97s/it]  3%|██▎                                                                        | 158/4993 [10:28<5:21:52,  3.99s/it]  3%|██▍                                                                        | 159/4993 [10:32<5:24:58,  4.03s/it]  3%|██▍                                                                        | 160/4993 [10:36<5:11:40,  3.87s/it]                                                                                                                     {'loss': 0.6215, 'grad_norm': 2.09375, 'learning_rate': 4.9982064585623555e-06, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 46.61, 'tokens_per_second_per_gpu': 2204.58, 'epoch': 0.32}
+  3%|██▍                                                                        | 160/4993 [10:36<5:11:40,  3.87s/it]  3%|██▍                                                                        | 161/4993 [10:40<5:14:17,  3.90s/it]  3%|██▍                                                                        | 162/4993 [10:43<5:10:34,  3.86s/it]  3%|██▍                                                                        | 163/4993 [10:47<5:13:56,  3.90s/it]  3%|██▍                                                                        | 164/4993 [10:51<5:11:50,  3.87s/it]  3%|██▍                                                                        | 165/4993 [10:55<5:18:32,  3.96s/it]  3%|██▍                                                                        | 166/4993 [10:59<5:14:37,  3.91s/it]  3%|██▌                                                                        | 167/4993 [11:03<5:13:33,  3.90s/it]  3%|██▌                                                                        | 168/4993 [11:07<5:19:40,  3.98s/it]  3%|██▌                                                                        | 169/4993 [11:11<5:17:23,  3.95s/it]  3%|██▌                                                                        | 170/4993 [11:15<5:26:52,  4.07s/it]                                                                                                                     {'loss': 0.6304, 'grad_norm': 2.078125, 'learning_rate': 4.997547062539058e-06, 'memory/max_active (GiB)': 40.36, 'memory/max_allocated (GiB)': 40.36, 'memory/device_reserved (GiB)': 46.61, 'tokens_per_second_per_gpu': 1716.17, 'epoch': 0.34}
+  3%|██▌                                                                        | 170/4993 [11:15<5:26:52,  4.07s/it]  3%|██▌                                                                        | 171/4993 [11:20<5:29:32,  4.10s/it]  3%|██▌                                                                        | 172/4993 [11:24<5:24:10,  4.03s/it]  3%|██▌                                                                        | 173/4993 [11:28<5:28:18,  4.09s/it]  3%|██▌                                                                        | 174/4993 [11:32<5:23:13,  4.02s/it]  4%|██▋                                                                        | 175/4993 [11:35<5:17:04,  3.95s/it]  4%|██▋                                                                        | 176/4993 [11:40<5:32:47,  4.15s/it]  4%|██▋                                                                        | 177/4993 [11:44<5:26:08,  4.06s/it]  4%|██▋                                                                        | 178/4993 [11:48<5:27:20,  4.08s/it]  4%|██▋                                                                        | 179/4993 [11:52<5:23:53,  4.04s/it]  4%|██▋                                                                        | 180/4993 [11:57<5:49:17,  4.35s/it]                                                                                                                     {'loss': 0.5853, 'grad_norm': 1.671875, 'learning_rate': 4.9967847081827035e-06, 'memory/max_active (GiB)': 44.5, 'memory/max_allocated (GiB)': 44.5, 'memory/device_reserved (GiB)': 47.49, 'tokens_per_second_per_gpu': 1517.3, 'epoch': 0.36}
+  4%|██▋                                                                        | 180/4993 [11:57<5:49:17,  4.35s/it]  4%|██▋                                                                        | 181/4993 [12:01<5:39:11,  4.23s/it]  4%|██▋                                                                        | 182/4993 [12:05<5:34:32,  4.17s/it]  4%|██▋                                                                        | 183/4993 [12:09<5:37:16,  4.21s/it]  4%|██▊                                                                        | 184/4993 [12:13<5:22:37,  4.03s/it]  4%|██▊                                                                        | 185/4993 [12:17<5:25:45,  4.07s/it]  4%|██▊                                                                        | 186/4993 [12:21<5:22:34,  4.03s/it]  4%|██▊                                                                        | 187/4993 [12:24<5:10:30,  3.88s/it]  4%|██▊                                                                        | 188/4993 [12:28<5:13:45,  3.92s/it]  4%|██▊                                                                        | 189/4993 [12:33<5:21:04,  4.01s/it]  4%|██▊                                                                        | 190/4993 [12:37<5:17:47,  3.97s/it]                                                                                                                     {'loss': 0.6148, 'grad_norm': 2.0625, 'learning_rate': 4.995919426920419e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 47.49, 'tokens_per_second_per_gpu': 1855.72, 'epoch': 0.38}
+  4%|██▊                                                                        | 190/4993 [12:37<5:17:47,  3.97s/it]  4%|██▊                                                                        | 191/4993 [12:41<5:20:16,  4.00s/it]  4%|██▉                                                                        | 192/4993 [12:45<5:16:18,  3.95s/it]  4%|██▉                                                                        | 193/4993 [12:48<5:12:59,  3.91s/it]  4%|██▉                                                                        | 194/4993 [12:52<5:12:37,  3.91s/it]  4%|██▉                                                                        | 195/4993 [12:56<5:04:37,  3.81s/it]  4%|██▉                                                                        | 196/4993 [13:00<5:08:47,  3.86s/it]  4%|██▉                                                                        | 197/4993 [13:04<5:06:40,  3.84s/it]  4%|██▉                                                                        | 198/4993 [13:07<5:00:22,  3.76s/it]  4%|██▉                                                                        | 199/4993 [13:11<5:05:51,  3.83s/it]  4%|███                                                                        | 200/4993 [13:15<5:12:35,  3.91s/it]                                                                                                                     {'loss': 0.6113, 'grad_norm': 1.8515625, 'learning_rate': 4.994951254422371e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 47.49, 'tokens_per_second_per_gpu': 1782.5, 'epoch': 0.4}
+  4%|███                                                                        | 200/4993 [13:15<5:12:35,  3.91s/it]  4%|███                                                                        | 201/4993 [13:20<5:23:01,  4.04s/it]  4%|███                                                                        | 202/4993 [13:23<5:15:08,  3.95s/it]  4%|███                                                                        | 203/4993 [13:27<5:16:35,  3.97s/it]  4%|███                                                                        | 204/4993 [13:31<5:07:20,  3.85s/it]  4%|███                                                                        | 205/4993 [13:35<5:08:36,  3.87s/it]  4%|███                                                                        | 206/4993 [13:39<5:23:44,  4.06s/it]  4%|███                                                                        | 207/4993 [13:43<5:15:09,  3.95s/it]  4%|███                                                                        | 208/4993 [13:47<5:11:39,  3.91s/it]  4%|███▏                                                                       | 209/4993 [13:51<5:12:25,  3.92s/it]  4%|███▏                                                                       | 210/4993 [13:54<5:07:26,  3.86s/it]                                                                                                                     {'loss': 0.6174, 'grad_norm': 1.796875, 'learning_rate': 4.993880230600291e-06, 'memory/max_active (GiB)': 44.5, 'memory/max_allocated (GiB)': 44.5, 'memory/device_reserved (GiB)': 47.55, 'tokens_per_second_per_gpu': 1930.59, 'epoch': 0.42}
+  4%|███▏                                                                       | 210/4993 [13:55<5:07:26,  3.86s/it]  4%|███▏                                                                       | 211/4993 [13:58<5:09:04,  3.88s/it]  4%|███▏                                                                       | 212/4993 [14:02<5:04:41,  3.82s/it]  4%|███▏                                                                       | 213/4993 [14:06<5:14:26,  3.95s/it]  4%|███▏                                                                       | 214/4993 [14:10<5:18:45,  4.00s/it]  4%|███▏                                                                       | 215/4993 [14:14<5:08:48,  3.88s/it]  4%|███▏                                                                       | 216/4993 [14:18<5:12:24,  3.92s/it]  4%|███▎                                                                       | 217/4993 [14:22<5:11:00,  3.91s/it]  4%|███▎                                                                       | 218/4993 [14:26<5:12:21,  3.92s/it]  4%|███▎                                                                       | 219/4993 [14:30<5:13:22,  3.94s/it]  4%|███▎                                                                       | 220/4993 [14:33<5:04:34,  3.83s/it]                                                                                                                     {'loss': 0.6254, 'grad_norm': 2.546875, 'learning_rate': 4.992706399605829e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 47.55, 'tokens_per_second_per_gpu': 2021.64, 'epoch': 0.44}
+  4%|███▎                                                                       | 220/4993 [14:34<5:04:34,  3.83s/it]  4%|███▎                                                                       | 221/4993 [14:38<5:17:26,  3.99s/it]  4%|███▎                                                                       | 222/4993 [14:42<5:20:12,  4.03s/it]  4%|███▎                                                                       | 223/4993 [14:46<5:21:02,  4.04s/it]  4%|███▎                                                                       | 224/4993 [14:50<5:12:13,  3.93s/it]  5%|███▍                                                                       | 225/4993 [14:54<5:19:18,  4.02s/it]  5%|███▍                                                                       | 226/4993 [14:58<5:09:00,  3.89s/it]  5%|███▍                                                                       | 227/4993 [15:02<5:13:03,  3.94s/it]  5%|███▍                                                                       | 228/4993 [15:05<5:06:38,  3.86s/it]  5%|███▍                                                                       | 229/4993 [15:09<5:13:57,  3.95s/it]  5%|███▍                                                                       | 230/4993 [15:13<5:09:44,  3.90s/it]                                                                                                                     {'loss': 0.6448, 'grad_norm': 2.09375, 'learning_rate': 4.991429809828737e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 47.55, 'tokens_per_second_per_gpu': 2051.32, 'epoch': 0.46}
+  5%|███▍                                                                       | 230/4993 [15:13<5:09:44,  3.90s/it]  5%|███▍                                                                       | 231/4993 [15:17<5:08:05,  3.88s/it]  5%|███▍                                                                       | 232/4993 [15:21<5:11:26,  3.92s/it]  5%|███▍                                                                       | 233/4993 [15:25<5:08:12,  3.88s/it]  5%|███▌                                                                       | 234/4993 [15:29<5:11:48,  3.93s/it]  5%|███▌                                                                       | 235/4993 [15:33<5:20:08,  4.04s/it]  5%|███▌                                                                       | 236/4993 [15:37<5:18:11,  4.01s/it]  5%|███▌                                                                       | 237/4993 [15:41<5:19:35,  4.03s/it]  5%|███▌                                                                       | 238/4993 [15:45<5:18:45,  4.02s/it]  5%|███▌                                                                       | 239/4993 [15:49<5:18:42,  4.02s/it]  5%|███▌                                                                       | 240/4993 [15:53<5:12:44,  3.95s/it]                                                                                                                     {'loss': 0.6314, 'grad_norm': 2.140625, 'learning_rate': 4.990050513894873e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 47.55, 'tokens_per_second_per_gpu': 2047.95, 'epoch': 0.48}
+  5%|███▌                                                                       | 240/4993 [15:53<5:12:44,  3.95s/it]  5%|███▌                                                                       | 241/4993 [15:57<5:14:01,  3.96s/it]  5%|███▋                                                                       | 242/4993 [16:01<5:18:23,  4.02s/it]  5%|███▋                                                                       | 243/4993 [16:06<5:31:47,  4.19s/it]  5%|███▋                                                                       | 244/4993 [16:09<5:19:39,  4.04s/it]  5%|███▋                                                                       | 245/4993 [16:13<5:15:03,  3.98s/it]  5%|███▋                                                                       | 246/4993 [16:17<5:12:24,  3.95s/it]  5%|███▋                                                                       | 247/4993 [16:22<5:25:43,  4.12s/it]  5%|███▋                                                                       | 248/4993 [16:26<5:19:34,  4.04s/it]  5%|███▋                                                                       | 249/4993 [16:30<5:24:56,  4.11s/it]  5%|███▊                                                                       | 250/4993 [16:34<5:24:38,  4.11s/it]                                                                                                                     {'loss': 0.6485, 'grad_norm': 2.078125, 'learning_rate': 4.98856856866403e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 47.55, 'tokens_per_second_per_gpu': 2027.51, 'epoch': 0.5}
+  5%|███▊                                                                       | 250/4993 [16:34<5:24:38,  4.11s/it]  5%|███▊                                                                       | 251/4993 [16:37<5:09:06,  3.91s/it]  5%|███▊                                                                       | 252/4993 [16:41<5:12:55,  3.96s/it]  5%|███▊                                                                       | 253/4993 [16:45<5:10:33,  3.93s/it]  5%|███▊                                                                       | 254/4993 [16:49<5:02:44,  3.83s/it]  5%|███▊                                                                       | 255/4993 [16:53<4:59:41,  3.80s/it]  5%|███▊                                                                       | 256/4993 [16:57<5:04:07,  3.85s/it]  5%|███▊                                                                       | 257/4993 [17:01<5:11:04,  3.94s/it]  5%|███▉                                                                       | 258/4993 [17:04<5:04:35,  3.86s/it]  5%|███▉                                                                       | 259/4993 [17:09<5:26:23,  4.14s/it]  5%|███▉                                                                       | 260/4993 [17:13<5:27:16,  4.15s/it]                                                                                                                     {'loss': 0.6222, 'grad_norm': 2.21875, 'learning_rate': 4.986984035227594e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1847.95, 'epoch': 0.52}
+  5%|███▉                                                                       | 260/4993 [17:13<5:27:16,  4.15s/it]  5%|███▉                                                                       | 261/4993 [17:17<5:23:46,  4.11s/it]  5%|███▉                                                                       | 262/4993 [17:22<5:29:53,  4.18s/it]  5%|███▉                                                                       | 263/4993 [17:26<5:29:04,  4.17s/it]  5%|███▉                                                                       | 264/4993 [17:30<5:35:11,  4.25s/it]  5%|███▉                                                                       | 265/4993 [17:34<5:25:31,  4.13s/it]  5%|███▉                                                                       | 266/4993 [17:39<5:31:08,  4.20s/it]  5%|████                                                                       | 267/4993 [17:43<5:27:17,  4.16s/it]  5%|████                                                                       | 268/4993 [17:47<5:23:48,  4.11s/it]  5%|████                                                                       | 269/4993 [17:50<5:14:35,  4.00s/it]  5%|████                                                                       | 270/4993 [17:54<5:12:07,  3.97s/it]                                                                                                                     {'loss': 0.6326, 'grad_norm': 2.109375, 'learning_rate': 4.985296978906024e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 2150.44, 'epoch': 0.54}
+  5%|████                                                                       | 270/4993 [17:54<5:12:07,  3.97s/it]  5%|████                                                                       | 271/4993 [17:58<5:05:59,  3.89s/it]  5%|████                                                                       | 272/4993 [18:02<5:14:09,  3.99s/it]  5%|████                                                                       | 273/4993 [18:07<5:26:59,  4.16s/it]  5%|████                                                                       | 274/4993 [18:11<5:19:26,  4.06s/it]  6%|████▏                                                                      | 275/4993 [18:15<5:19:22,  4.06s/it]  6%|████▏                                                                      | 276/4993 [18:19<5:23:31,  4.12s/it]  6%|████▏                                                                      | 277/4993 [18:23<5:20:07,  4.07s/it]  6%|████▏                                                                      | 278/4993 [18:27<5:20:11,  4.07s/it]  6%|████▏                                                                      | 279/4993 [18:31<5:13:25,  3.99s/it]  6%|████▏                                                                      | 280/4993 [18:35<5:22:05,  4.10s/it]                                                                                                                     {'loss': 0.602, 'grad_norm': 1.9296875, 'learning_rate': 4.98350746924616e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1823.62, 'epoch': 0.56}
+  6%|████▏                                                                      | 280/4993 [18:35<5:22:05,  4.10s/it]  6%|████▏                                                                      | 281/4993 [18:39<5:09:55,  3.95s/it]  6%|████▏                                                                      | 282/4993 [18:43<5:09:55,  3.95s/it]  6%|████▎                                                                      | 283/4993 [18:46<5:02:55,  3.86s/it]  6%|████▎                                                                      | 284/4993 [18:50<5:09:41,  3.95s/it]  6%|█████▊                                                                                               | 285/4993 [18:54<5:10:40,  3.96s/it]  6%|████████▏                                                                                                                                       | 286/4993 [18:59<5:27:01,  4.17s/it]  6%|████████▎                                                                                                                                       | 287/4993 [19:03<5:18:29,  4.06s/it]  6%|████████▎                                                                                                                                       | 288/4993 [19:06<5:06:38,  3.91s/it]  6%|████████▎                                                                                                                                       | 289/4993 [19:10<5:06:43,  3.91s/it]  6%|████████▎                                                                                                                                       | 290/4993 [19:14<5:01:23,  3.85s/it]                                                                                                                                                                                          {'loss': 0.5902, 'grad_norm': 6.3125, 'learning_rate': 4.981615580018358e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 2014.42, 'epoch': 0.58}
+  6%|████████▎                                                                                                                                       | 290/4993 [19:14<5:01:23,  3.85s/it]  6%|████████▍                                                                                                                                       | 291/4993 [19:18<5:02:36,  3.86s/it]  6%|████████▍                                                                                                                                       | 292/4993 [19:22<5:04:40,  3.89s/it]  6%|████████▍                                                                                                                                       | 293/4993 [19:26<5:03:30,  3.87s/it]  6%|████████▍                                                                                                                                       | 294/4993 [19:29<5:00:36,  3.84s/it]  6%|████████▌                                                                                                                                       | 295/4993 [19:33<4:59:51,  3.83s/it]  6%|████████▌                                                                                                                                       | 296/4993 [19:37<5:02:51,  3.87s/it]  6%|████████▌                                                                                                                                       | 297/4993 [19:41<4:59:41,  3.83s/it]  6%|████████▌                                                                                                                                       | 298/4993 [19:45<5:10:07,  3.96s/it]  6%|████████▌                                                                                                                                       | 299/4993 [19:50<5:30:33,  4.23s/it]  6%|████████▋                                                                                                                                       | 300/4993 [19:54<5:14:51,  4.03s/it]                                                                                                                                                                                          {'loss': 0.5922, 'grad_norm': 1.9765625, 'learning_rate': 4.979621389213442e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 2014.15, 'epoch': 0.6}
+  6%|████████▋                                                                                                                                       | 300/4993 [19:54<5:14:51,  4.03s/it]  6%|████████▋                                                                                                                                       | 301/4993 [19:58<5:24:20,  4.15s/it]  6%|████████▋                                                                                                                                       | 302/4993 [20:02<5:14:58,  4.03s/it]  6%|████████▋                                                                                                                                       | 303/4993 [20:06<5:14:12,  4.02s/it]  6%|████████▊                                                                                                                                       | 304/4993 [20:10<5:18:27,  4.07s/it]  6%|████████▊                                                                                                                                       | 305/4993 [20:14<5:16:22,  4.05s/it]  6%|████████▊                                                                                                                                       | 306/4993 [20:18<5:10:37,  3.98s/it]  6%|████████▊                                                                                                                                       | 307/4993 [20:21<5:03:54,  3.89s/it]  6%|████████▉                                                                                                                                       | 308/4993 [20:26<5:10:04,  3.97s/it]  6%|████████▉                                                                                                                                       | 309/4993 [20:30<5:07:55,  3.94s/it]  6%|████████▉                                                                                                                                       | 310/4993 [20:34<5:10:51,  3.98s/it]                                                                                                                                                                                          {'loss': 0.6115, 'grad_norm': 1.4765625, 'learning_rate': 4.977524979039501e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1914.21, 'epoch': 0.62}
+  6%|████████▉                                                                                                                                       | 310/4993 [20:34<5:10:51,  3.98s/it]  6%|████████▉                                                                                                                                       | 311/4993 [20:37<5:04:09,  3.90s/it]  6%|████████▉                                                                                                                                       | 312/4993 [20:41<5:08:39,  3.96s/it]  6%|█████████                                                                                                                                       | 313/4993 [20:45<5:02:22,  3.88s/it]  6%|█████████                                                                                                                                       | 314/4993 [20:49<5:14:20,  4.03s/it]  6%|█████████                                                                                                                                       | 315/4993 [20:53<5:12:46,  4.01s/it]  6%|█████████                                                                                                                                       | 316/4993 [20:58<5:15:15,  4.04s/it]  6%|█████████▏                                                                                                                                      | 317/4993 [21:02<5:16:29,  4.06s/it]  6%|█████████▏                                                                                                                                      | 318/4993 [21:05<5:04:48,  3.91s/it]  6%|█████████▏                                                                                                                                      | 319/4993 [21:09<5:04:49,  3.91s/it]  6%|█████████▏                                                                                                                                      | 320/4993 [21:13<5:02:08,  3.88s/it]                                                                                                                                                                                          {'loss': 0.6504, 'grad_norm': 1.9609375, 'learning_rate': 4.975326435918485e-06, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1904.77, 'epoch': 0.64}
+  6%|█████████▏                                                                                                                                      | 320/4993 [21:13<5:02:08,  3.88s/it]  6%|█████████▎                                                                                                                                      | 321/4993 [21:17<4:59:01,  3.84s/it]  6%|█████████▎                                                                                                                                      | 322/4993 [21:21<5:00:54,  3.87s/it]  6%|█████████▎                                                                                                                                      | 323/4993 [21:25<5:04:49,  3.92s/it]  6%|█████████▎                                                                                                                                      | 324/4993 [21:29<5:05:17,  3.92s/it]  7%|█████████▎                                                                                                                                      | 325/4993 [21:33<5:06:15,  3.94s/it]  7%|█████████▍                                                                                                                                      | 326/4993 [21:36<4:59:23,  3.85s/it]  7%|█████████▍                                                                                                                                      | 327/4993 [21:40<5:09:28,  3.98s/it]  7%|█████████▍                                                                                                                                      | 328/4993 [21:44<5:02:01,  3.88s/it]  7%|█████████▍                                                                                                                                      | 329/4993 [21:49<5:25:20,  4.19s/it]  7%|█████████▌                                                                                                                                      | 330/4993 [21:53<5:20:36,  4.13s/it]                                                                                                                                                                                          {'loss': 0.6069, 'grad_norm': 2.328125, 'learning_rate': 4.9730258504826555e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1874.75, 'epoch': 0.66}
+  7%|█████████▌                                                                                                                                      | 330/4993 [21:53<5:20:36,  4.13s/it]  7%|█████████▌                                                                                                                                      | 331/4993 [21:57<5:16:32,  4.07s/it]  7%|█████████▌                                                                                                                                      | 332/4993 [22:01<5:19:22,  4.11s/it]  7%|█████████▌                                                                                                                                      | 333/4993 [22:05<5:20:55,  4.13s/it]  7%|█████████▋                                                                                                                                      | 334/4993 [22:09<5:18:12,  4.10s/it]  7%|█████████▋                                                                                                                                      | 335/4993 [22:13<5:06:56,  3.95s/it]  7%|█████████▋                                                                                                                                      | 336/4993 [22:17<5:02:04,  3.89s/it]  7%|█████████��                                                                                                                                      | 337/4993 [22:21<4:59:30,  3.86s/it]  7%|█████████▋                                                                                                                                      | 338/4993 [22:25<5:04:39,  3.93s/it]  7%|█████████▊                                                                                                                                      | 339/4993 [22:29<5:12:45,  4.03s/it]  7%|█████████▊                                                                                                                                      | 340/4993 [22:33<5:20:28,  4.13s/it]                                                                                                                                                                                          {'loss': 0.6144, 'grad_norm': 1.5625, 'learning_rate': 4.970623317570843e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1825.14, 'epoch': 0.68}
+  7%|█████████▊                                                                                                                                      | 340/4993 [22:33<5:20:28,  4.13s/it]  7%|█████████▊                                                                                                                                      | 341/4993 [22:38<5:26:25,  4.21s/it]  7%|█████████▊                                                                                                                                      | 342/4993 [22:42<5:25:41,  4.20s/it]  7%|█████████▉                                                                                                                                      | 343/4993 [22:46<5:23:37,  4.18s/it]  7%|█████████▉                                                                                                                                      | 344/4993 [22:50<5:19:21,  4.12s/it]  7%|█████████▉                                                                                                                                      | 345/4993 [22:54<5:21:57,  4.16s/it]  7%|█████████▉                                                                                                                                      | 346/4993 [22:59<5:27:51,  4.23s/it]  7%|██████████                                                                                                                                      | 347/4993 [23:03<5:30:08,  4.26s/it]  7%|██████████                                                                                                                                      | 348/4993 [23:07<5:20:12,  4.14s/it]  7%|██████████                                                                                                                                      | 349/4993 [23:11<5:20:09,  4.14s/it]  7%|██████████                                                                                                                                      | 350/4993 [23:15<5:10:47,  4.02s/it]                                                                                                                                                                                          {'loss': 0.6494, 'grad_norm': 1.96875, 'learning_rate': 4.968118936224538e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 2198.95, 'epoch': 0.7}
+  7%|██████████                                                                                                                                      | 350/4993 [23:15<5:10:47,  4.02s/it]  7%|██████████                                                                                                                                      | 351/4993 [23:19<5:16:42,  4.09s/it]  7%|██████████▏                                                                                                                                     | 352/4993 [23:23<5:08:16,  3.99s/it]  7%|██████████▏                                                                                                                                     | 353/4993 [23:26<4:59:27,  3.87s/it]  7%|██████████▏                                                                                                                                     | 354/4993 [23:30<4:54:06,  3.80s/it]  7%|██████████▏                                                                                                                                     | 355/4993 [23:34<5:00:19,  3.89s/it]  7%|██████████▎                                                                                                                                     | 356/4993 [23:38<4:58:54,  3.87s/it]  7%|██████████▎                                                                                                                                     | 357/4993 [23:41<4:53:18,  3.80s/it]  7%|██████████▎                                                                                                                                     | 358/4993 [23:45<4:51:39,  3.78s/it]  7%|██████████▎                                                                                                                                     | 359/4993 [23:49<5:04:31,  3.94s/it]  7%|██████████▍                                                                                                                                     | 360/4993 [23:53<5:04:26,  3.94s/it]                                                                                                                                                                                          {'loss': 0.6243, 'grad_norm': 2.03125, 'learning_rate': 4.965512809683808e-06, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1993.55, 'epoch': 0.72}
+  7%|██████████▍                                                                                                                                     | 360/4993 [23:53<5:04:26,  3.94s/it]  7%|██████████▍                                                                                                                                     | 361/4993 [23:58<5:12:54,  4.05s/it]  7%|██████████▍                                                                                                                                     | 362/4993 [24:02<5:15:01,  4.08s/it]  7%|██████████▍                                                                                                                                     | 363/4993 [24:06<5:04:50,  3.95s/it]  7%|██████████▍                                                                                                                                     | 364/4993 [24:10<5:05:34,  3.96s/it]  7%|██████████▌                                                                                                                                     | 365/4993 [24:13<4:57:14,  3.85s/it]  7%|██████████▌                                                                                                                                     | 366/4993 [24:18<5:13:05,  4.06s/it]  7%|██████████▌                                                                                                                                     | 367/4993 [24:22<5:18:13,  4.13s/it]  7%|██████████▌                                                                                                                                     | 368/4993 [24:26<5:23:59,  4.20s/it]  7%|██████████▋                                                                                                                                     | 369/4993 [24:30<5:14:55,  4.09s/it]  7%|██████████▋                                                                                                                                     | 370/4993 [24:34<5:19:14,  4.14s/it]                                                                                                                                                                                          {'loss': 0.5891, 'grad_norm': 1.671875, 'learning_rate': 4.962805045383043e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1810.23, 'epoch': 0.74}
+  7%|██████████▋                                                                                                                                     | 370/4993 [24:34<5:19:14,  4.14s/it]  7%|██████████▋                                                                                                                                     | 371/4993 [24:39<5:18:54,  4.14s/it]  7%|██████████▋                                                                                                                                     | 372/4993 [24:43<5:22:14,  4.18s/it]  7%|██████████▊                                                                                                                                     | 373/4993 [24:47<5:21:23,  4.17s/it]  7%|███��██████▊                                                                                                                                     | 374/4993 [24:51<5:11:29,  4.05s/it]  8%|██████████▊                                                                                                                                     | 375/4993 [24:54<4:58:21,  3.88s/it]  8%|██████████▊                                                                                                                                     | 376/4993 [24:58<5:06:30,  3.98s/it]  8%|██████████▊                                                                                                                                     | 377/4993 [25:02<5:03:47,  3.95s/it]  8%|██████████▉                                                                                                                                     | 378/4993 [25:07<5:13:36,  4.08s/it]  8%|██████████▉                                                                                                                                     | 379/4993 [25:10<5:06:18,  3.98s/it]  8%|██████████▉                                                                                                                                     | 380/4993 [25:15<5:13:45,  4.08s/it]                                                                                                                                                                                          {'loss': 0.6031, 'grad_norm': 1.8515625, 'learning_rate': 4.959995754946527e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1900.09, 'epoch': 0.76}
+  8%|██████████▉                                                                                                                                     | 380/4993 [25:15<5:13:45,  4.08s/it]  8%|██████████▉                                                                                                                                     | 381/4993 [25:19<5:10:47,  4.04s/it]  8%|███████████                                                                                                                                     | 382/4993 [25:23<5:07:08,  4.00s/it]  8%|███████████                                                                                                                                     | 383/4993 [25:26<4:59:06,  3.89s/it]  8%|███████████                                                                                                                                     | 384/4993 [25:30<4:59:06,  3.89s/it]  8%|███████████                                                                                                                                     | 385/4993 [25:34<4:55:25,  3.85s/it]  8%|███████████▏                                                                                                                                    | 386/4993 [25:38<5:07:06,  4.00s/it]  8%|███████████▏                                                                                                                                    | 387/4993 [25:43<5:17:55,  4.14s/it]  8%|███████████▏                                                                                                                                    | 388/4993 [25:46<5:08:57,  4.03s/it]  8%|███████████▏                                                                                                                                    | 389/4993 [25:50<5:07:58,  4.01s/it]  8%|███████████▏                                                                                                                                    | 390/4993 [25:54<5:01:59,  3.94s/it]                                                                                                                                                                                          {'loss': 0.6258, 'grad_norm': 2.015625, 'learning_rate': 4.9570850541838304e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1992.86, 'epoch': 0.78}
+  8%|███████████▏                                                                                                                                    | 390/4993 [25:54<5:01:59,  3.94s/it]  8%|███████████▎                                                                                                                                    | 391/4993 [25:58<4:57:56,  3.88s/it]  8%|███████████▎                                                                                                                                    | 392/4993 [26:02<5:09:32,  4.04s/it]  8%|███████████▎                                                                                                                                    | 393/4993 [26:06<5:07:04,  4.01s/it]  8%|███████████▎                                                                                                                                    | 394/4993 [26:10<5:09:28,  4.04s/it]  8%|███████████▍                                                                                                                                    | 395/4993 [26:14<5:03:09,  3.96s/it]  8%|███████████▍                                                                                                                                    | 396/4993 [26:18<5:03:51,  3.97s/it]  8%|███████████▍                                                                                                                                    | 397/4993 [26:22<5:11:58,  4.07s/it]  8%|███████████▍                                                                                                                                    | 398/4993 [26:26<5:09:15,  4.04s/it]  8%|███████████▌                                                                                                                                    | 399/4993 [26:30<5:02:29,  3.95s/it]  8%|███████████▌                                                                                                                                    | 400/4993 [26:34<5:01:16,  3.94s/it]                                                                                                                                                                                          {'loss': 0.6149, 'grad_norm': 2.03125, 'learning_rate': 4.954073063085046e-06, 'memory/max_active (GiB)': 40.32, 'memory/max_allocated (GiB)': 40.32, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1920.18, 'epoch': 0.8}
+  8%|███████████▌                                                                                                                                    | 400/4993 [26:34<5:01:16,  3.94s/it]  8%|███████████▌                                                                                                                                    | 401/4993 [26:38<5:03:13,  3.96s/it]  8%|███████████▌                                                                                                                                    | 402/4993 [26:43<5:15:04,  4.12s/it]  8%|███████████▌                                                                                                                                    | 403/4993 [26:46<5:07:48,  4.02s/it]  8%|███████████▋                                                                                                                                    | 404/4993 [26:50<5:04:20,  3.98s/it]  8%|███████████▋                                                                                                                                    | 405/4993 [26:54<5:06:14,  4.00s/it]  8%|███████████▋                                                                                                                                    | 406/4993 [26:59<5:29:12,  4.31s/it]  8%|███████████▋                                                                                                                                    | 407/4993 [27:03<5:16:12,  4.14s/it]  8%|███████████▊                                                                                                                                    | 408/4993 [27:07<5:14:40,  4.12s/it]  8%|███████████▊                                                                                                                                    | 409/4993 [27:11<5:19:02,  4.18s/it]  8%|███████████▊                                                                                                                                    | 410/4993 [27:15<5:08:44,  4.04s/it]                                                                                                                                                                                          {'loss': 0.623, 'grad_norm': 2.625, 'learning_rate': 4.9509599058158344e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 2131.28, 'epoch': 0.82}
+  8%|███████████▊                                                                                                                                    | 410/4993 [27:15<5:08:44,  4.04s/it]  8%|███████████▊                                                                                                                                    | 411/4993 [27:19<5:05:26,  4.00s/it]  8%|███████████▉                                                                                                                                    | 412/4993 [27:23<4:59:16,  3.92s/it]  8%|███████████▉                                                                                                                                    | 413/4993 [27:26<4:51:24,  3.82s/it]  8%|███████████▉                                                                                                                                    | 414/4993 [27:31<5:06:01,  4.01s/it]  8%|███████████▉                                                                                                                                    | 415/4993 [27:35<5:03:01,  3.97s/it]  8%|███████████▉                                                                                                                                    | 416/4993 [27:39<5:09:32,  4.06s/it]  8%|████████████                                                                                                                                    | 417/4993 [27:44<5:21:07,  4.21s/it]  8%|████████████                                                                                                                                    | 418/4993 [27:47<5:04:44,  4.00s/it]  8%|████████████                                                                                                                                    | 419/4993 [27:51<5:05:19,  4.01s/it]  8%|████████████                                                                                                                                    | 420/4993 [27:55<5:05:30,  4.01s/it]                                                                                                                                                                                          {'loss': 0.5619, 'grad_norm': 2.03125, 'learning_rate': 4.947745710712309e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1922.13, 'epoch': 0.84}
+  8%|████████████                                                                                                                                    | 420/4993 [27:55<5:05:30,  4.01s/it]  8%|████████████▏                                                                                                                                   | 421/4993 [27:59<5:06:20,  4.02s/it]  8%|████████████▏                                                                                                                                   | 422/4993 [28:03<5:06:25,  4.02s/it]  8%|████████████▏                                                                                                                                   | 423/4993 [28:07<5:01:26,  3.96s/it]  8%|████████████▏                                                                                                                                   | 424/4993 [28:11<5:12:15,  4.10s/it]  9%|████████████▎                                                                                                                                   | 425/4993 [28:16<5:11:16,  4.09s/it]  9%|████████████▎                                                                                                                                   | 426/4993 [28:19<5:04:16,  4.00s/it]  9%|████████████▎                                                                                                                                   | 427/4993 [28:24<5:10:20,  4.08s/it]  9%|████████████▎                                                                                                                                   | 428/4993 [28:28<5:11:23,  4.09s/it]  9%|████████████▎                                                                                                                                   | 429/4993 [28:32<5:09:39,  4.07s/it]  9%|████████████▍                                                                                                                                   | 430/4993 [28:36<5:09:48,  4.07s/it]                                                                                                                                                                                          {'loss': 0.618, 'grad_norm': 2.15625, 'learning_rate': 4.944430610275747e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1794.93, 'epoch': 0.86}
+  9%|████████████▍                                                                                                                                   | 430/4993 [28:36<5:09:48,  4.07s/it]  9%|████████████▍                                                                                                                                   | 431/4993 [28:40<5:06:59,  4.04s/it]  9%|████████████▍                                                                                                                                   | 432/4993 [28:43<4:57:02,  3.91s/it]  9%|████████████▍                                                                                                                                   | 433/4993 [28:48<5:03:10,  3.99s/it]  9%|████████████▌                                                                                                                                   | 434/4993 [28:52<5:03:59,  4.00s/it]  9%|████████████▌                                                                                                                                   | 435/4993 [28:56<5:06:36,  4.04s/it]  9%|████████████▌                                                                                                                                   | 436/4993 [28:59<4:56:01,  3.90s/it]  9%|████████████▌                                                                                                                                   | 437/4993 [29:03<4:54:07,  3.87s/it]  9%|████████████▋                                                                                                                                   | 438/4993 [29:07<5:05:48,  4.03s/it]  9%|████████████▋                                                                                                                                   | 439/4993 [29:12<5:08:53,  4.07s/it]  9%|████████████▋                                                                                                                                   | 440/4993 [29:15<4:59:41,  3.95s/it]                                                                                                                                                                                          {'loss': 0.6297, 'grad_norm': 2.09375, 'learning_rate': 4.9410147411671185e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1916.51, 'epoch': 0.88}
+  9%|████████████▋                                                                                                                                   | 440/4993 [29:15<4:59:41,  3.95s/it]  9%|████████████▋                                                                                                                                   | 441/4993 [29:19<4:58:55,  3.94s/it]  9%|████████████▋                                                                                                                                   | 442/4993 [29:23<5:01:32,  3.98s/it]  9%|████████████▊                                                                                                                                   | 443/4993 [29:28<5:10:41,  4.10s/it]  9%|████████████▊                                                                                                                                   | 444/4993 [29:32<5:15:00,  4.15s/it]  9%|████████████▊                                                                                                                                   | 445/4993 [29:36<5:06:19,  4.04s/it]  9%|████████████▊                                                                                                                                   | 446/4993 [29:40<5:09:24,  4.08s/it]  9%|████████████▉                                                                                                                                   | 447/4993 [29:44<5:11:55,  4.12s/it]  9%|████████████▉                                                                                                                                   | 448/4993 [29:48<5:12:14,  4.12s/it]  9%|████████████▉                                                                                                                                   | 449/4993 [29:52<5:14:22,  4.15s/it]  9%|████████████▉                                                                                                                                   | 450/4993 [29:57<5:22:32,  4.26s/it]                                                                                                                                                                                          {'loss': 0.6401, 'grad_norm': 1.75, 'learning_rate': 4.9374982442014665e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1912.52, 'epoch': 0.9}
+  9%|████████████▉                                                                                                                                   | 450/4993 [29:57<5:22:32,  4.26s/it]  9%|█████████████                                                                                                                                   | 451/4993 [30:01<5:20:42,  4.24s/it]  9%|█████████████                                                                                                                                   | 452/4993 [30:06<5:24:22,  4.29s/it]  9%|█████████████                                                                                                                                   | 453/4993 [30:09<5:14:14,  4.15s/it]  9%|█████████████                                                                                                                                   | 454/4993 [30:13<5:01:54,  3.99s/it]  9%|█████████████                                                                                                                                   | 455/4993 [30:17<4:57:49,  3.94s/it]  9%|█████████████▏                                                                                                                                  | 456/4993 [30:21<4:59:46,  3.96s/it]  9%|█████████████▏                                                                                                                                  | 457/4993 [30:24<4:52:18,  3.87s/it]  9%|█████████████▏                                                                                                                                  | 458/4993 [30:29<4:58:00,  3.94s/it]  9%|█████████████▏                                                                                                                                  | 459/4993 [30:33<5:00:13,  3.97s/it]  9%|█████████████▎                                                                                                                                  | 460/4993 [30:37<4:58:11,  3.95s/it]                                                                                                                                                                                          {'loss': 0.6099, 'grad_norm': 2.015625, 'learning_rate': 4.9338812643420905e-06, 'memory/max_active (GiB)': 40.32, 'memory/max_allocated (GiB)': 40.32, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1892.94, 'epoch': 0.92}
+  9%|█████████████▎                                                                                                                                  | 460/4993 [30:37<4:58:11,  3.95s/it]  9%|█████████████▎                                                                                                                                  | 461/4993 [30:40<4:57:23,  3.94s/it]  9%|█████████████▎                                                                                                                                  | 462/4993 [30:44<4:50:13,  3.84s/it]  9%|█████████████▎                                                                                                                                  | 463/4993 [30:48<4:52:53,  3.88s/it]  9%|█████████████▍                                                                                                                                  | 464/4993 [30:52<5:01:03,  3.99s/it]  9%|█████████████▍                                                                                                                                  | 465/4993 [30:56<4:58:00,  3.95s/it]  9%|█████████████▍                                                                                                                                  | 466/4993 [31:00<4:57:43,  3.95s/it]  9%|█████████████▍                                                                                                                                  | 467/4993 [31:04<4:58:33,  3.96s/it]  9%|█████████████▍                                                                                                                                  | 468/4993 [31:08<5:00:13,  3.98s/it]  9%|█████████████▌                                                                                                                                  | 469/4993 [31:12<4:56:07,  3.93s/it]  9%|█████████████▌                                                                                                                                  | 470/4993 [31:16<4:53:54,  3.90s/it]                                                                                                                                                                                          {'loss': 0.5881, 'grad_norm': 2.015625, 'learning_rate': 4.930163950694577e-06, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1880.14, 'epoch': 0.94}
+  9%|█████████████▌                                                                                                                                  | 470/4993 [31:16<4:53:54,  3.90s/it]  9%|█████████████▌                                                                                                                                  | 471/4993 [31:20<5:00:31,  3.99s/it]  9%|█████████████▌                                                                                                                                  | 472/4993 [31:24<4:58:44,  3.96s/it]  9%|█████████████▋                                                                                                                                  | 473/4993 [31:28<4:53:24,  3.89s/it]  9%|█████████████▋                                                                                                                                  | 474/4993 [31:31<4:48:52,  3.84s/it] 10%|█████████████▋                                                                                                                                  | 475/4993 [31:36<5:00:28,  3.99s/it] 10%|█████████████▋                                                                                                                                  | 476/4993 [31:40<5:04:06,  4.04s/it] 10%|█████████████▊                                                                                                                                  | 477/4993 [31:44<5:09:08,  4.11s/it] 10%|█████████████▊                                                                                                                                  | 478/4993 [31:48<5:09:48,  4.12s/it] 10%|█████████████▊                                                                                                                                  | 479/4993 [31:52<5:04:39,  4.05s/it] 10%|█████████████▊                                                                                                                                  | 480/4993 [31:56<5:09:57,  4.12s/it]                                                                                                                                                                                          {'loss': 0.6671, 'grad_norm': 2.078125, 'learning_rate': 4.926346456500648e-06, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1810.68, 'epoch': 0.96}
+ 10%|█████████████▊                                                                                                                                  | 480/4993 [31:56<5:09:57,  4.12s/it] 10%|█████████████▊                                                                                                                                  | 481/4993 [32:01<5:14:28,  4.18s/it] 10%|█████████████▉                                                                                                                                  | 482/4993 [32:05<5:07:22,  4.09s/it] 10%|█████████████▉                                                                                                                                  | 483/4993 [32:08<5:01:25,  4.01s/it] 10%|█████████████▉                                                                                                                                  | 484/4993 [32:13<5:06:18,  4.08s/it] 10%|█████████████▉                                                                                                                                  | 485/4993 [32:17<5:10:40,  4.13s/it] 10%|██████████████                                                                                                                                  | 486/4993 [32:20<4:59:13,  3.98s/it] 10%|██████████████                                                                                                                                  | 487/4993 [32:24<4:54:00,  3.91s/it] 10%|██████████████                                                                                                                                  | 488/4993 [32:28<5:00:18,  4.00s/it] 10%|██████████████                                                                                                                                  | 489/4993 [32:32<4:54:35,  3.92s/it] 10%|██████████████▏                                                                                                                                 | 490/4993 [32:36<4:52:48,  3.90s/it]                                                                                                                                                                                          {'loss': 0.6086, 'grad_norm': 2.15625, 'learning_rate': 4.922428939131849e-06, 'memory/max_active (GiB)': 40.36, 'memory/max_allocated (GiB)': 40.36, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1917.56, 'epoch': 0.98}
+ 10%|██████████████▏                                                                                                                                 | 490/4993 [32:36<4:52:48,  3.90s/it] 10%|██████████████▏                                                                                                                                 | 491/4993 [32:40<4:59:46,  4.00s/it] 10%|██████████████▏                                                                                                                                 | 492/4993 [32:44<4:51:31,  3.89s/it] 10%|██████████████▏                                                                                                                                 | 493/4993 [32:48<4:57:14,  3.96s/it] 10%|██████████████▏                                                                                                                                 | 494/4993 [32:52<4:54:27,  3.93s/it] 10%|██████████████▎                                                                                                                                 | 495/4993 [32:56<4:57:15,  3.97s/it] 10%|██████████████▎                                                                                                                                 | 496/4993 [33:00<4:54:12,  3.93s/it] 10%|██████████████▎                                                                                                                                 | 497/4993 [33:04<4:52:11,  3.90s/it] 10%|██████████████▎                                                                                                                                 | 498/4993 [33:07<4:49:44,  3.87s/it] 10%|██████████████▍                                                                                                                                 | 499/4993 [33:11<4:54:40,  3.93s/it] 10%|██████████████▍                                                                                                                                 | 500/4993 [33:13<3:51:03,  3.09s/it]                                                                                                                                                                                          {'loss': 0.6164, 'grad_norm': 4.78125, 'learning_rate': 4.918411560083058e-06, 'memory/max_active (GiB)': 40.32, 'memory/max_allocated (GiB)': 40.32, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 6555.81, 'epoch': 1.0}
+ 10%|██████████████▍                                                                                                                                 | 500/4993 [33:13<3:51:03,  3.09s/it][2025-12-23 14:59:34,242] [INFO] [axolotl.core.trainers.base._save:671] [PID:5529] Saving model checkpoint to ./outputs/qwen3-4b-instruct-ded-full-train/checkpoint-500
+ 10%|██████████████▎                                                                                                                                | 501/4993 [33:49<16:25:32, 13.16s/it] 10%|██████████████▍                                                                                                                                | 502/4993 [33:53<12:57:27, 10.39s/it] 10%|██████████████▍                                                                                                                                | 503/4993 [33:57<10:23:53,  8.34s/it] 10%|██████████████▌                                                                                                                                 | 504/4993 [34:01<8:53:38,  7.13s/it] 10%|██████████████▌                                                                                                                                 | 505/4993 [34:05<7:46:12,  6.23s/it] 10%|██████████████▌                                                                                                                                 | 506/4993 [34:09<6:58:56,  5.60s/it] 10%|██████████████▌                                                                                                                                 | 507/4993 [34:13<6:20:53,  5.09s/it] 10%|██████████████▋                                                                                                                                 | 508/4993 [34:18<6:08:39,  4.93s/it] 10%|██████████████▋                                                                                                                                 | 509/4993 [34:22<5:54:48,  4.75s/it] 10%|██████████████▋                                                                                                                                 | 510/4993 [34:26<5:37:48,  4.52s/it]                                                                                                                                                                                          {'loss': 0.608, 'grad_norm': 1.890625, 'learning_rate': 4.914294484965829e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1941.67, 'epoch': 1.02}
+ 10%|██████████████▋                                                                                                                                 | 510/4993 [34:26<5:37:48,  4.52s/it] 10%|██████████████▋                                                                                                                                 | 511/4993 [34:30<5:15:25,  4.22s/it] 10%|██████████████▊                                                                                                                                 | 512/4993 [34:34<5:09:45,  4.15s/it] 10%|██████████████▊                                                                                                                                 | 513/4993 [34:38<5:08:39,  4.13s/it] 10%|██████████████▊                                                                                                                                 | 514/4993 [34:41<5:00:48,  4.03s/it] 10%|██████████████▊                                                                                                                                 | 515/4993 [34:45<4:55:01,  3.95s/it] 10%|██████████████▉                                                                                                                                 | 516/4993 [34:49<4:47:08,  3.85s/it] 10%|██████████████▉                                                                                                                                 | 517/4993 [34:53<4:50:41,  3.90s/it] 10%|██████████████▉                                                                                                                                 | 518/4993 [34:57<4:44:57,  3.82s/it] 10%|██████████████▉                                                                                                                                 | 519/4993 [35:00<4:48:10,  3.86s/it] 10%|██████████████▉                                                                                                                                 | 520/4993 [35:05<4:53:17,  3.93s/it]                                                                                                                                                                                          {'loss': 0.5954, 'grad_norm': 2.078125, 'learning_rate': 4.910077883501565e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1717.71, 'epoch': 1.04}
+ 10%|██████████████▉                                                                                                                                 | 520/4993 [35:05<4:53:17,  3.93s/it] 10%|███████████████                                                                                                                                 | 521/4993 [35:09<4:56:48,  3.98s/it] 10%|███████████████                                                                                                                                 | 522/4993 [35:13<5:01:33,  4.05s/it] 10%|███████████████                                                                                                                                 | 523/4993 [35:17<4:59:49,  4.02s/it] 10%|███████████████                                                                                                                                 | 524/4993 [35:21<4:53:16,  3.94s/it] 11%|███████████████▏                                                                                                                                | 525/4993 [35:24<4:51:19,  3.91s/it] 11%|███████████████▏                                                                                                                                | 526/4993 [35:28<4:54:36,  3.96s/it] 11%|███████████████▏                                                                                                                                | 527/4993 [35:32<4:42:14,  3.79s/it] 11%|███████████████▏                                                                                                                                | 528/4993 [35:36<4:51:47,  3.92s/it] 11%|███████████████▎                                                                                                                                | 529/4993 [35:40<4:48:37,  3.88s/it] 11%|███████████████▎                                                                                                                                | 530/4993 [35:44<4:54:45,  3.96s/it]                                                                                                                                                                                          {'loss': 0.5894, 'grad_norm': 1.8828125, 'learning_rate': 4.90576192951452e-06, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1749.81, 'epoch': 1.06}
+ 11%|███████████████▎                                                                                                                                | 530/4993 [35:44<4:54:45,  3.96s/it] 11%|███████████████▎                                                                                                                                | 531/4993 [35:48<5:04:00,  4.09s/it] 11%|███████████████▎                                                                                                                                | 532/4993 [35:53<5:06:31,  4.12s/it] 11%|███████████████▎                                                                                                                                | 533/4993 [35:57<5:07:10,  4.13s/it] 11%|███████████████▍                                                                                                                                | 534/4993 [36:01<5:09:15,  4.16s/it] 11%|███████████████▍                                                                                                                                | 535/4993 [36:05<5:07:22,  4.14s/it] 11%|███████████████▍                                                                                                                                | 536/4993 [36:09<5:01:10,  4.05s/it] 11%|███████████████▍                                                                                                                                | 537/4993 [36:14<5:12:23,  4.21s/it] 11%|███████████████▌                                                                                                                                | 538/4993 [36:17<5:01:11,  4.06s/it] 11%|███████████████▌                                                                                                                                | 539/4993 [36:21<5:03:00,  4.08s/it] 11%|███████████████▌                                                                                                                                | 540/4993 [36:26<5:14:12,  4.23s/it]                                                                                                                                                                                          {'loss': 0.5975, 'grad_norm': 1.65625, 'learning_rate': 4.901346800924638e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1756.68, 'epoch': 1.08}
+ 11%|███████████████▌                                                                                                                                | 540/4993 [36:26<5:14:12,  4.23s/it] 11%|███████████████▌                                                                                                                                | 541/4993 [36:30<5:04:43,  4.11s/it] 11%|███████████████▋                                                                                                                                | 542/4993 [36:34<5:06:29,  4.13s/it] 11%|███████████████▋                                                                                                                                | 543/4993 [36:38<5:00:34,  4.05s/it] 11%|███████████████▋                                                                                                                                | 544/4993 [36:42<4:56:05,  3.99s/it] 11%|███████████████▋                                                                                                                                | 545/4993 [36:46<4:54:42,  3.98s/it] 11%|███████████████▋                                                                                                                                | 546/4993 [36:50<4:54:45,  3.98s/it] 11%|███████████████▊                                                                                                                                | 547/4993 [36:54<4:53:55,  3.97s/it] 11%|███████████████▊                                                                                                                                | 548/4993 [36:58<5:04:27,  4.11s/it] 11%|███████████████▊                                                                                                                                | 549/4993 [37:02<4:51:32,  3.94s/it] 11%|███████████████▊                                                                                                                                | 550/4993 [37:06<5:07:51,  4.16s/it]                                                                                                                                                                                          {'loss': 0.6167, 'grad_norm': 1.53125, 'learning_rate': 4.89683267974021e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1684.73, 'epoch': 1.1}
+ 11%|███████████████▊                                                                                                                                | 550/4993 [37:06<5:07:51,  4.16s/it] 11%|███████████████▉                                                                                                                                | 551/4993 [37:10<4:58:08,  4.03s/it] 11%|███████████████▉                                                                                                                                | 552/4993 [37:14<4:53:14,  3.96s/it] 11%|███████████████▉                                                                                                                                | 553/4993 [37:18<4:53:14,  3.96s/it] 11%|███████████████▉                                                                                                                                | 554/4993 [37:22<4:51:01,  3.93s/it] 11%|████████████████                                                                                                                                | 555/4993 [37:26<4:55:34,  4.00s/it] 11%|████████████████                                                                                                                                | 556/4993 [37:30<4:55:32,  4.00s/it] 11%|████████████████                                                                                                                                | 557/4993 [37:33<4:47:00,  3.88s/it] 11%|████████████████                                                                                                                                | 558/4993 [37:37<4:49:51,  3.92s/it] 11%|████████████████                                                                                                                                | 559/4993 [37:41<4:42:21,  3.82s/it] 11%|████████████████▏                                                                                                                               | 560/4993 [37:45<4:47:41,  3.89s/it]                                                                                                                                                                                          {'loss': 0.6223, 'grad_norm': 1.8828125, 'learning_rate': 4.8922197520503815e-06, 'memory/max_active (GiB)': 37.46, 'memory/max_allocated (GiB)': 37.46, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1737.18, 'epoch': 1.12}
+ 11%|████████████████▏                                                                                                                               | 560/4993 [37:45<4:47:41,  3.89s/it] 11%|████████████████▏                                                                                                                               | 561/4993 [37:49<4:45:43,  3.87s/it] 11%|████████████████▏                                                                                                                               | 562/4993 [37:52<4:38:25,  3.77s/it] 11%|████████████████▏                                                                                                                               | 563/4993 [37:56<4:40:05,  3.79s/it] 11%|████████████████▎                                                                                                                               | 564/4993 [38:00<4:44:16,  3.85s/it] 11%|████████████████▎                                                                                                                               | 565/4993 [38:04<4:45:11,  3.86s/it] 11%|████████████████▎                                                                                                                               | 566/4993 [38:08<4:39:44,  3.79s/it] 11%|████████████████▎                                                                                                                               | 567/4993 [38:12<4:49:36,  3.93s/it] 11%|████████████████▍                                                                                                                               | 568/4993 [38:16<4:44:46,  3.86s/it] 11%|████████████████▍                                                                                                                               | 569/4993 [38:20<4:51:18,  3.95s/it] 11%|████████████████▍                                                                                                                               | 570/4993 [38:24<5:01:02,  4.08s/it]                                                                                                                                                                                          {'loss': 0.6069, 'grad_norm': 1.9375, 'learning_rate': 4.88750820801747e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1704.6, 'epoch': 1.14}
+ 11%|████████████████▍                                                                                                                               | 570/4993 [38:24<5:01:02,  4.08s/it] 11%|████████████████▍                                                                                                                               | 571/4993 [38:28<5:03:16,  4.11s/it] 11%|████████████████▍                                                                                                                               | 572/4993 [38:32<4:59:11,  4.06s/it] 11%|████████████████▌                                                                                                                               | 573/4993 [38:37<5:07:33,  4.17s/it] 11%|████████████████▌                                                                                                                               | 574/4993 [38:41<5:07:17,  4.17s/it] 12%|█���██████████████▌                                                                                                                               | 575/4993 [38:45<5:04:09,  4.13s/it] 12%|████████████████▌                                                                                                                               | 576/4993 [38:49<4:55:12,  4.01s/it] 12%|████████████████▋                                                                                                                               | 577/4993 [38:53<4:51:37,  3.96s/it] 12%|████████████████▋                                                                                                                               | 578/4993 [38:56<4:48:58,  3.93s/it] 12%|████████████████▋                                                                                                                               | 579/4993 [39:00<4:47:17,  3.91s/it] 12%|████████████████▋                                                                                                                               | 580/4993 [39:04<4:55:24,  4.02s/it]                                                                                                                                                                                          {'loss': 0.5845, 'grad_norm': 1.84375, 'learning_rate': 4.882698241869139e-06, 'memory/max_active (GiB)': 40.32, 'memory/max_allocated (GiB)': 40.32, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1866.57, 'epoch': 1.16}
+ 12%|████████████████▋                                                                                                                               | 580/4993 [39:05<4:55:24,  4.02s/it] 12%|████████████████▊                                                                                                                               | 581/4993 [39:08<4:52:33,  3.98s/it] 12%|████████████████▊                                                                                                                               | 582/4993 [39:13<5:03:58,  4.13s/it] 12%|████████████████▊                                                                                                                               | 583/4993 [39:17<4:57:46,  4.05s/it] 12%|████████████████▊                                                                                                                               | 584/4993 [39:21<4:56:37,  4.04s/it] 12%|████████████████▊                                                                                                                               | 585/4993 [39:25<4:52:13,  3.98s/it] 12%|████████████████▉                                                                                                                               | 586/4993 [39:29<4:51:21,  3.97s/it] 12%|████████████████▉                                                                                                                               | 587/4993 [39:33<4:58:37,  4.07s/it] 12%|████████████████▉                                                                                                                               | 588/4993 [39:37<4:58:26,  4.07s/it] 12%|████████████████▉                                                                                                                               | 589/4993 [39:41<4:52:12,  3.98s/it] 12%|█████████████████                                                                                                                               | 590/4993 [39:45<5:05:23,  4.16s/it]                                                                                                                                                                                          {'loss': 0.5878, 'grad_norm': 1.5703125, 'learning_rate': 4.877790051890378e-06, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1767.51, 'epoch': 1.18}
+ 12%|█████████████████                                                                                                                               | 590/4993 [39:45<5:05:23,  4.16s/it] 12%|█████████████████                                                                                                                               | 591/4993 [39:49<5:00:00,  4.09s/it] 12%|█████████████████                                                                                                                               | 592/4993 [39:53<4:58:05,  4.06s/it] 12%|█████████████████                                                                                                                               | 593/4993 [39:58<5:06:29,  4.18s/it] 12%|█████████████████▏                                                                                                                              | 594/4993 [40:02<5:07:38,  4.20s/it] 12%|█████████████████▏                                                                                                                              | 595/4993 [40:06<5:05:12,  4.16s/it] 12%|█████████████████▏                                                                                                                              | 596/4993 [40:10<4:57:11,  4.06s/it] 12%|█████████████████▏                                                                                                                              | 597/4993 [40:14<4:53:00,  4.00s/it] 12%|█████████████████▏                                                                                                                              | 598/4993 [40:18<4:59:47,  4.09s/it] 12%|█████████████████▎                                                                                                                              | 599/4993 [40:22<4:50:47,  3.97s/it] 12%|█████████████████▎                                                                                                                              | 600/4993 [40:26<5:03:38,  4.15s/it]                                                                                                                                                                                          {'loss': 0.5826, 'grad_norm': 1.8046875, 'learning_rate': 4.872783840415334e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1892.01, 'epoch': 1.2}
+ 12%|█████████████████▎                                                                                                                              | 600/4993 [40:26<5:03:38,  4.15s/it] 12%|█████████████████▎                                                                                                                              | 601/4993 [40:30<4:59:38,  4.09s/it] 12%|█████████████████▎                                                                                                                              | 602/4993 [40:34<5:02:08,  4.13s/it] 12%|█████████████████▍                                                                                                                              | 603/4993 [40:38<4:58:18,  4.08s/it] 12%|█████████████████▍                                                                                                                              | 604/4993 [40:42<4:51:23,  3.98s/it] 12%|█████████████████▍                                                                                                                              | 605/4993 [40:46<4:56:20,  4.05s/it] 12%|█████████████████▍                                                                                                                              | 606/4993 [40:50<4:45:05,  3.90s/it] 12%|█████████████████▌                                                                                                                              | 607/4993 [40:54<5:00:50,  4.12s/it] 12%|█████████████████▌                                                                                                                              | 608/4993 [40:58<4:59:06,  4.09s/it] 12%|█████████████████▌                                                                                                                              | 609/4993 [41:02<4:56:52,  4.06s/it] 12%|█████████████████▌                                                                                                                              | 610/4993 [41:06<4:48:02,  3.94s/it]                                                                                                                                                                                          {'loss': 0.6046, 'grad_norm': 2.25, 'learning_rate': 4.867679813818973e-06, 'memory/max_active (GiB)': 39.54, 'memory/max_allocated (GiB)': 39.54, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 2010.07, 'epoch': 1.22}
+ 12%|█████████████████▌                                                                                                                              | 610/4993 [41:06<4:48:02,  3.94s/it] 12%|█████████████████▌                                                                                                                              | 611/4993 [41:10<4:45:13,  3.91s/it] 12%|█████████████████▋                                                                                                                              | 612/4993 [41:14<4:44:16,  3.89s/it] 12%|█████████████████▋                                                                                                                              | 613/4993 [41:18<4:46:25,  3.92s/it] 12%|█████████████████▋                                                                                                                              | 614/4993 [41:22<4:46:02,  3.92s/it] 12%|█████████████████▋                                                                                                                              | 615/4993 [41:26<5:00:49,  4.12s/it] 12%|█████████████████▊                                                                                                                              | 616/4993 [41:30<4:57:41,  4.08s/it] 12%|█████████████████▊                                                                                                                              | 617/4993 [41:34<4:50:55,  3.99s/it] 12%|█████████████████▊                                                                                                                              | 618/4993 [41:38<4:50:40,  3.99s/it] 12%|█████████████████▊                                                                                                                              | 619/4993 [41:42<4:57:20,  4.08s/it] 12%|█████████████████▉                                                                                                                              | 620/4993 [41:47<5:04:15,  4.17s/it]                                                                                                                                                                                          {'loss': 0.5885, 'grad_norm': 1.5078125, 'learning_rate': 4.862478182508571e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1793.58, 'epoch': 1.24}
+ 12%|█████████████████▉                                                                                                                              | 620/4993 [41:47<5:04:15,  4.17s/it] 12%|█████████████████▉                                                                                                                              | 621/4993 [41:50<4:53:12,  4.02s/it] 12%|█████████████████▉                                                                                                                              | 622/4993 [41:55<4:54:48,  4.05s/it] 12%|█████████████████▉                                                                                                                              | 623/4993 [41:59<4:57:24,  4.08s/it] 12%|█████████████████▉                                                                                                                              | 624/4993 [42:03<4:59:39,  4.12s/it] 13%|██████████████████                                                                                                                              | 625/4993 [42:06<4:48:05,  3.96s/it] 13%|██████████████████                                                                                                                              | 626/4993 [42:11<4:55:26,  4.06s/it] 13%|██████████████████                                                                                                                              | 627/4993 [42:15<4:57:13,  4.08s/it] 13%|██████████████████                                                                                                                              | 628/4993 [42:19<5:03:08,  4.17s/it] 13%|██████████████████▏                                                                                                                             | 629/4993 [42:23<4:59:06,  4.11s/it] 13%|██████████████████▏                                                                                                                             | 630/4993 [42:27<4:49:42,  3.98s/it]                                                                                                                                                                                          {'loss': 0.6014, 'grad_norm': 2.234375, 'learning_rate': 4.857179160915036e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 2164.9, 'epoch': 1.26}
+ 13%|██████████████████▏                                                                                                                             | 630/4993 [42:27<4:49:42,  3.98s/it] 13%|██████████████████▏                                                                                                                             | 631/4993 [42:31<4:47:15,  3.95s/it] 13%|██████████████████▏                                                                                                                             | 632/4993 [42:35<4:53:30,  4.04s/it] 13%|██████████████████▎                                                                                                                             | 633/4993 [42:39<5:01:31,  4.15s/it] 13%|██████████████████▎                                                                                                                             | 634/4993 [42:44<5:09:33,  4.26s/it] 13%|██████████████████▎                                                                                                                             | 635/4993 [42:48<4:55:34,  4.07s/it] 13%|██████████████████▎                                                                                                                             | 636/4993 [42:52<5:00:24,  4.14s/it] 13%|██████████████████▎                                                                                                                             | 637/4993 [42:56<4:51:48,  4.02s/it] 13%|██████████████████▍                                                                                                                             | 638/4993 [42:59<4:47:17,  3.96s/it] 13%|██████████████████▍                                                                                                                             | 639/4993 [43:04<4:54:14,  4.05s/it] 13%|██████████████████▍                                                                                                                             | 640/4993 [43:08<5:01:25,  4.15s/it]                                                                                                                                                                                          {'loss': 0.6005, 'grad_norm': 1.71875, 'learning_rate': 4.851782967484073e-06, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1917.04, 'epoch': 1.28}
+ 13%|██████████████████▍                                                                                                                             | 640/4993 [43:08<5:01:25,  4.15s/it] 13%|██████████████████▍                                                                                                                             | 641/4993 [43:12<5:00:36,  4.14s/it] 13%|██████████████████▌                                                                                                                             | 642/4993 [43:16<4:52:11,  4.03s/it] 13%|██████████████████▌                                                                                                                             | 643/4993 [43:20<4:48:08,  3.97s/it] 13%|██████████████████▌                                                                                                                             | 644/4993 [43:24<4:50:07,  4.00s/it] 13%|██████████████████▌                                                                                                                             | 645/4993 [43:28<4:57:00,  4.10s/it] 13%|██████████████████▋                                                                                                                             | 646/4993 [43:32<4:51:14,  4.02s/it] 13%|██████████████████▋                                                                                                                             | 647/4993 [43:36<4:51:21,  4.02s/it] 13%|██████████████████▋                                                                                                                             | 648/4993 [43:40<4:44:47,  3.93s/it] 13%|██████████████████▋                                                                                                                             | 649/4993 [43:44<4:47:10,  3.97s/it] 13%|██████████████████▋                                                                                                                             | 650/4993 [43:48<4:50:24,  4.01s/it]                                                                                                                                                                                          {'loss': 0.5956, 'grad_norm': 2.0625, 'learning_rate': 4.84628982466718e-06, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1757.35, 'epoch': 1.3}
+ 13%|██████████████████▋                                                                                                                             | 650/4993 [43:48<4:50:24,  4.01s/it] 13%|██████████████████▊                                                                                                                             | 651/4993 [43:52<4:56:50,  4.10s/it] 13%|██████████████████▊                                                                                                                             | 652/4993 [43:57<4:59:35,  4.14s/it] 13%|██████████████████▊                                                                                                                             | 653/4993 [44:01<5:01:29,  4.17s/it] 13%|██████████████████▊                                                                                                                             | 654/4993 [44:05<4:59:27,  4.14s/it] 13%|██████████████████▉                                                                                                                             | 655/4993 [44:09<4:58:51,  4.13s/it] 13%|██████████████████▉                                                                                                                             | 656/4993 [44:13<4:55:12,  4.08s/it] 13%|██████████████████▉                                                                                                                             | 657/4993 [44:17<5:01:45,  4.18s/it] 13%|██████████████████▉                                                                                                                             | 658/4993 [44:22<5:02:42,  4.19s/it] 13%|███████████████████                                                                                                                             | 659/4993 [44:26<4:58:24,  4.13s/it] 13%|███████████████████                                                                                                                             | 660/4993 [44:30<4:58:10,  4.13s/it]                                                                                                                                                                                          {'loss': 0.5969, 'grad_norm': 2.171875, 'learning_rate': 4.840699958912472e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1957.81, 'epoch': 1.32}
+ 13%|███████████████████                                                                                                                             | 660/4993 [44:30<4:58:10,  4.13s/it] 13%|███████████████████                                                                                                                             | 661/4993 [44:33<4:47:31,  3.98s/it] 13%|███████████████████                                                                                                                             | 662/4993 [44:37<4:41:12,  3.90s/it] 13%|███████████████████                                                                                                                             | 663/4993 [44:41<4:43:47,  3.93s/it] 13%|███████████████████▏                                                                                                                            | 664/4993 [44:45<4:48:47,  4.00s/it] 13%|███████████████████▏                                                                                                                            | 665/4993 [44:49<4:48:27,  4.00s/it] 13%|███████████████████▏                                                                                                                            | 666/4993 [44:54<4:55:50,  4.10s/it] 13%|███████████████████▏                                                                                                                            | 667/4993 [44:58<4:54:30,  4.08s/it] 13%|███████████████████▎                                                                                                                            | 668/4993 [45:02<4:52:53,  4.06s/it] 13%|███████████████████▎                                                                                                                            | 669/4993 [45:06<4:57:03,  4.12s/it] 13%|███████████████████▎                                                                                                                            | 670/4993 [45:10<4:57:38,  4.13s/it]                                                                                                                                                                                          {'loss': 0.6079, 'grad_norm': 2.265625, 'learning_rate': 4.835013600655352e-06, 'memory/max_active (GiB)': 42.85, 'memory/max_allocated (GiB)': 42.85, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1838.69, 'epoch': 1.34}
+ 13%|███████████████████▎                                                                                                                            | 670/4993 [45:10<4:57:38,  4.13s/it] 13%|███████████████████▎                                                                                                                            | 671/4993 [45:14<4:52:17,  4.06s/it] 13%|███████████████████▍                                                                                                                            | 672/4993 [45:18<4:48:51,  4.01s/it] 13%|███████████████████▍                                                                                                                            | 673/4993 [45:22<4:54:02,  4.08s/it] 13%|███████████████████▍                                                                                                                            | 674/4993 [45:26<4:41:25,  3.91s/it] 14%|███████████████████▍                                                                                                                            | 675/4993 [45:30<4:45:28,  3.97s/it] 14%|███████████████████▍                                                                                                                            | 676/4993 [45:33<4:37:51,  3.86s/it] 14%|███████████████████▌                                                                                                                            | 677/4993 [45:38<4:47:33,  4.00s/it] 14%|███████████████████▌                                                                                                                            | 678/4993 [45:42<4:56:53,  4.13s/it] 14%|███████████████████▌                                                                                                                            | 679/4993 [45:46<4:44:53,  3.96s/it] 14%|███████████████████▌                                                                                                                            | 680/4993 [45:49<4:41:03,  3.91s/it]                                                                                                                                                                                          {'loss': 0.6137, 'grad_norm': 2.234375, 'learning_rate': 4.829230984309006e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1725.03, 'epoch': 1.36}
+ 14%|█��█████████████████▌                                                                                                                            | 680/4993 [45:49<4:41:03,  3.91s/it] 14%|███████████████████▋                                                                                                                            | 681/4993 [45:54<4:46:09,  3.98s/it] 14%|███████████████████▋                                                                                                                            | 682/4993 [45:58<4:49:15,  4.03s/it] 14%|███████████████████▋                                                                                                                            | 683/4993 [46:02<4:46:35,  3.99s/it] 14%|███████████████████▋                                                                                                                            | 684/4993 [46:06<4:45:34,  3.98s/it] 14%|███████████████████▊                                                                                                                            | 685/4993 [46:09<4:45:36,  3.98s/it] 14%|███████████████████▊                                                                                                                            | 686/4993 [46:13<4:39:06,  3.89s/it] 14%|███████████████████▊                                                                                                                            | 687/4993 [46:17<4:41:59,  3.93s/it] 14%|███████████████████▊                                                                                                                            | 688/4993 [46:21<4:36:51,  3.86s/it] 14%|███████████████████▊                                                                                                                            | 689/4993 [46:25<4:32:45,  3.80s/it] 14%|███████████████████▉                                                                                                                            | 690/4993 [46:28<4:33:58,  3.82s/it]                                                                                                                                                                                          {'loss': 0.6162, 'grad_norm': 2.359375, 'learning_rate': 4.823352348254743e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1770.57, 'epoch': 1.38}
+ 14%|███████████████████▉                                                                                                                            | 690/4993 [46:28<4:33:58,  3.82s/it] 14%|███████████████████▉                                                                                                                            | 691/4993 [46:32<4:35:25,  3.84s/it] 14%|███████████████████▉                                                                                                                            | 692/4993 [46:36<4:30:29,  3.77s/it] 14%|███████████████████▉                                                                                                                            | 693/4993 [46:40<4:40:00,  3.91s/it] 14%|████████████████████                                                                                                                            | 694/4993 [46:44<4:39:58,  3.91s/it] 14%|████████████████████                                                                                                                            | 695/4993 [46:48<4:32:52,  3.81s/it] 14%|████████████████████                                                                                                                            | 696/4993 [46:52<4:41:48,  3.93s/it] 14%|████████████████████                                                                                                                            | 697/4993 [46:56<4:41:53,  3.94s/it] 14%|████████████████████▏                                                                                                                           | 698/4993 [46:59<4:36:08,  3.86s/it] 14%|████████████████████▏                                                                                                                           | 699/4993 [47:04<4:40:36,  3.92s/it] 14%|████████████████████▏                                                                                                                           | 700/4993 [47:08<4:43:30,  3.96s/it]                                                                                                                                                                                          {'loss': 0.5937, 'grad_norm': 1.9765625, 'learning_rate': 4.81737793483217e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1811.09, 'epoch': 1.4}
+ 14%|████████████████████▏                                                                                                                           | 700/4993 [47:08<4:43:30,  3.96s/it] 14%|████████████████████▏                                                                                                                           | 701/4993 [47:12<4:47:15,  4.02s/it] 14%|████████████████████▏                                                                                                                           | 702/4993 [47:16<4:49:05,  4.04s/it] 14%|████████████████████▎                                                                                                                           | 703/4993 [47:20<4:50:06,  4.06s/it] 14%|████████████████████▎                                                                                                                           | 704/4993 [47:24<4:46:11,  4.00s/it] 14%|████████████████████▎                                                                                                                           | 705/4993 [47:28<4:46:59,  4.02s/it] 14%|████████████████████▎                                                                                                                           | 706/4993 [47:32<4:46:33,  4.01s/it] 14%|████████████████████▍                                                                                                                           | 707/4993 [47:36<4:58:25,  4.18s/it] 14%|████████████████████▍                                                                                                                           | 708/4993 [47:40<4:50:43,  4.07s/it] 14%|████████████████████▍                                                                                                                           | 709/4993 [47:44<4:44:40,  3.99s/it] 14%|████████████████████▍                                                                                                                           | 710/4993 [47:48<4:46:15,  4.01s/it]                                                                                                                                                                                          {'loss': 0.6061, 'grad_norm': 1.6953125, 'learning_rate': 4.8113079903291955e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1895.1, 'epoch': 1.42}
+ 14%|████████████████████▍                                                                                                                           | 710/4993 [47:48<4:46:15,  4.01s/it] 14%|████████████████████▌                                                                                                                           | 711/4993 [47:52<4:35:09,  3.86s/it] 14%|████████████████████▌                                                                                                                           | 712/4993 [47:56<4:36:23,  3.87s/it] 14%|████████████████████▌                                                                                                                           | 713/4993 [48:00<4:43:03,  3.97s/it] 14%|████████████████████▌                                                                                                                           | 714/4993 [48:04<4:53:29,  4.12s/it] 14%|████████████████████▌                                                                                                                           | 715/4993 [48:08<4:44:22,  3.99s/it] 14%|██████████████████��█▋                                                                                                                           | 716/4993 [48:12<4:38:39,  3.91s/it] 14%|████████████████████▋                                                                                                                           | 717/4993 [48:16<4:48:19,  4.05s/it] 14%|████████████████████▋                                                                                                                           | 718/4993 [48:20<4:47:20,  4.03s/it] 14%|████████████████████▋                                                                                                                           | 719/4993 [48:24<4:51:58,  4.10s/it] 14%|████████████████████▊                                                                                                                           | 720/4993 [48:28<4:46:29,  4.02s/it]                                                                                                                                                                                          {'loss': 0.6152, 'grad_norm': 2.015625, 'learning_rate': 4.805142764971883e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1999.75, 'epoch': 1.44}
+ 14%|████████████████████▊                                                                                                                           | 720/4993 [48:28<4:46:29,  4.02s/it] 14%|████████████████████▊                                                                                                                           | 721/4993 [48:32<4:41:31,  3.95s/it] 14%|████████████████████▊                                                                                                                           | 722/4993 [48:36<4:39:26,  3.93s/it] 14%|████████████████████▊                                                                                                                           | 723/4993 [48:39<4:35:59,  3.88s/it] 15%|████████████████████▉                                                                                                                           | 724/4993 [48:44<4:41:33,  3.96s/it] 15%|████████████████████▉                                                                                                                           | 725/4993 [48:47<4:33:31,  3.85s/it] 15%|████████████████████▉                                                                                                                           | 726/4993 [48:51<4:32:20,  3.83s/it] 15%|████████████████████▉                                                                                                                           | 727/4993 [48:55<4:30:35,  3.81s/it] 15%|████████████████████▉                                                                                                                           | 728/4993 [48:58<4:22:42,  3.70s/it] 15%|█████████████████████                                                                                                                           | 729/4993 [49:02<4:25:51,  3.74s/it] 15%|█████████████████████                                                                                                                           | 730/4993 [49:06<4:28:11,  3.77s/it]                                                                                                                                                                                          {'loss': 0.6129, 'grad_norm': 2.171875, 'learning_rate': 4.798882512914132e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1768.76, 'epoch': 1.46}
+ 15%|█████████████████████                                                                                                                           | 730/4993 [49:06<4:28:11,  3.77s/it] 15%|█████████████████████                                                                                                                           | 731/4993 [49:10<4:41:57,  3.97s/it] 15%|█████████████████████                                                                                                                           | 732/4993 [49:14<4:36:22,  3.89s/it] 15%|█████████████████████▏                                                                                                                          | 733/4993 [49:18<4:35:56,  3.89s/it] 15%|█████████████████████▏                                                                                                                          | 734/4993 [49:22<4:38:00,  3.92s/it] 15%|█████████████████████▏                                                                                                                          | 735/4993 [49:26<4:47:20,  4.05s/it] 15%|█████████████████████▏                                                                                                                          | 736/4993 [49:30<4:45:08,  4.02s/it] 15%|█████████████████████▎                                                                                                                          | 737/4993 [49:34<4:47:53,  4.06s/it] 15%|█████████████████████▎                                                                                                                          | 738/4993 [49:38<4:49:36,  4.08s/it] 15%|█████████████████████▎                                                                                                                          | 739/4993 [49:42<4:37:34,  3.92s/it] 15%|█████████████████████▎                                                                                                                          | 740/4993 [49:46<4:35:35,  3.89s/it]                                                                                                                                                                                          {'loss': 0.6168, 'grad_norm': 2.34375, 'learning_rate': 4.7925274922272035e-06, 'memory/max_active (GiB)': 44.5, 'memory/max_allocated (GiB)': 44.5, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1990.48, 'epoch': 1.48}
+ 15%|█████████████████████▎                                                                                                                          | 740/4993 [49:46<4:35:35,  3.89s/it] 15%|█████████████████████▎                                                                                                                          | 741/4993 [49:50<4:45:18,  4.03s/it] 15%|█████████████████████▍                                                                                                                          | 742/4993 [49:54<4:46:06,  4.04s/it] 15%|█████████████████████▍                                                                                                                          | 743/4993 [49:58<4:43:30,  4.00s/it] 15%|█████████████████████▍                                                                                                                          | 744/4993 [50:02<4:38:44,  3.94s/it] 15%|█████████████████████▍                                                                                                                          | 745/4993 [50:06<4:35:48,  3.90s/it] 15%|█████████████████████▌                                                                                                                          | 746/4993 [50:10<4:42:14,  3.99s/it] 15%|█████████████████████▌                                                                                                                          | 747/4993 [50:14<4:46:38,  4.05s/it] 15%|█████████████████████▌                                                                                                                          | 748/4993 [50:18<4:49:44,  4.10s/it] 15%|█████████████████████▌                                                                                                                          | 749/4993 [50:22<4:41:02,  3.97s/it] 15%|█████████████████████▋                                                                                                                          | 750/4993 [50:26<4:31:40,  3.84s/it]                                                                                                                                                                                          {'loss': 0.5956, 'grad_norm': 2.046875, 'learning_rate': 4.786077964889076e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 2020.54, 'epoch': 1.5}
+ 15%|█████████████████████▋                                                                                                                          | 750/4993 [50:26<4:31:40,  3.84s/it] 15%|█████████████████████▋                                                                                                                          | 751/4993 [50:30<4:35:23,  3.90s/it] 15%|█████████████████████▋                                                                                                                          | 752/4993 [50:33<4:32:40,  3.86s/it] 15%|█████████████████████▋                                                                                                                          | 753/4993 [50:37<4:36:46,  3.92s/it] 15%|█████████████████████▋                                                                                                                          | 754/4993 [50:42<4:46:07,  4.05s/it] 15%|█████████████████████▊                                                                                                                          | 755/4993 [50:45<4:39:23,  3.96s/it] 15%|█████████████████████▊                                                                                                                          | 756/4993 [50:49<4:40:07,  3.97s/it] 15%|█████████████████████▊                                                                                                                          | 757/4993 [50:53<4:38:31,  3.95s/it] 15%|█████████████████████▊                                                                                                                          | 758/4993 [50:57<4:40:59,  3.98s/it] 15%|█████████████████████▉                                                                                                                          | 759/4993 [51:01<4:39:02,  3.95s/it] 15%|█████████████████████▉                                                                                                                          | 760/4993 [51:05<4:33:42,  3.88s/it]                                                                                                                                                                                          {'loss': 0.6193, 'grad_norm': 2.203125, 'learning_rate': 4.779534196773654e-06, 'memory/max_active (GiB)': 42.85, 'memory/max_allocated (GiB)': 42.85, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1967.72, 'epoch': 1.52}
+ 15%|█████████████████████▉                                                                                                                          | 760/4993 [51:05<4:33:42,  3.88s/it] 15%|█████████████████████▉                                                                                                                          | 761/4993 [51:09<4:38:25,  3.95s/it] 15%|█████████████████████▉                                                                                                                          | 762/4993 [51:13<4:41:21,  3.99s/it] 15%|██████████████████████                                                                                                                          | 763/4993 [51:17<4:42:51,  4.01s/it] 15%|██████████████████████                                                                                                                          | 764/4993 [51:21<4:44:10,  4.03s/it] 15%|██████████████████████                                                                                                                          | 765/4993 [51:25<4:43:44,  4.03s/it] 15%|██████████████████████                                                                                                                          | 766/4993 [51:30<4:45:41,  4.06s/it] 15%|██████████████████████                                                                                                                          | 767/4993 [51:33<4:44:05,  4.03s/it] 15%|██████████████████████▏                                                                                                                         | 768/4993 [51:37<4:40:21,  3.98s/it] 15%|██████████████████████▏                                                                                                                         | 769/4993 [51:41<4:40:13,  3.98s/it] 15%|██████████████████████▏                                                                                                                         | 770/4993 [51:45<4:37:53,  3.95s/it]                                                                                                                                                                                          {'loss': 0.588, 'grad_norm': 1.8828125, 'learning_rate': 4.772896457639799e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 2032.92, 'epoch': 1.54}
+ 15%|██████████████████████▏                                                                                                                         | 770/4993 [51:45<4:37:53,  3.95s/it] 15%|██████████████████████▏                                                                                                                         | 771/4993 [51:49<4:34:41,  3.90s/it] 15%|██████████████████████▎                                                                                                                         | 772/4993 [51:53<4:33:53,  3.89s/it] 15%|██████████████████████▎                                                                                                                         | 773/4993 [51:57<4:30:26,  3.85s/it] 16%|██████████████████████▎                                                                                                                         | 774/4993 [52:01<4:41:49,  4.01s/it] 16%|██████████████████████▎                                                                                                                         | 775/4993 [52:05<4:38:56,  3.97s/it] 16%|██████████████████████▍                                                                                                                         | 776/4993 [52:09<4:39:49,  3.98s/it] 16%|██████████████████████▍                                                                                                                         | 777/4993 [52:14<4:55:22,  4.20s/it] 16%|██████████████████████▍                                                                                                                         | 778/4993 [52:17<4:48:26,  4.11s/it] 16%|██████████████████████▍                                                                                                                         | 779/4993 [52:21<4:40:00,  3.99s/it] 16%|██████████████████████▍                                                                                                                         | 780/4993 [52:25<4:42:24,  4.02s/it]                                                                                                                                                                                          {'loss': 0.5867, 'grad_norm': 1.921875, 'learning_rate': 4.766165021120217e-06, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1843.74, 'epoch': 1.56}
+ 16%|██████████████████████▍                                                                                                                         | 780/4993 [52:25<4:42:24,  4.02s/it] 16%|██████████████████████▌                                                                                                                         | 781/4993 [52:29<4:38:23,  3.97s/it] 16%|██████████████████████▌                                                                                                                         | 782/4993 [52:33<4:35:22,  3.92s/it] 16%|██████████████████████▌                                                                                                                         | 783/4993 [52:37<4:35:35,  3.93s/it] 16%|██████████████████████▌                                                                                                                         | 784/4993 [52:41<4:35:40,  3.93s/it] 16%|██████████████████████▋                                                                                                                         | 785/4993 [52:45<4:32:21,  3.88s/it] 16%|██████████████████████▋                                                                                                                         | 786/4993 [52:49<4:34:41,  3.92s/it] 16%|██████████████████████▋                                                                                                                         | 787/4993 [52:53<4:42:57,  4.04s/it] 16%|██████████████████████▋                                                                                                                         | 788/4993 [52:57<4:37:42,  3.96s/it] 16%|██████████████████████▊                                                                                                                         | 789/4993 [53:00<4:28:07,  3.83s/it] 16%|██████████████████████▊                                                                                                                         | 790/4993 [53:04<4:31:37,  3.88s/it]                                                                                                                                                                                          {'loss': 0.6096, 'grad_norm': 1.9453125, 'learning_rate': 4.759340164710171e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1819.06, 'epoch': 1.58}
+ 16%|██████████████████████▊                                                                                                                         | 790/4993 [53:04<4:31:37,  3.88s/it] 16%|██████████████████████▊                                                                                                                         | 791/4993 [53:08<4:22:40,  3.75s/it] 16%|██████████████████████▊                                                                                                                         | 792/4993 [53:12<4:29:56,  3.86s/it] 16%|██████████████████████▊                                                                                                                         | 793/4993 [53:16<4:30:20,  3.86s/it] 16%|██████████████████████▉                                                                                                                         | 794/4993 [53:20<4:37:56,  3.97s/it] 16%|██████████████████████▉                                                                                                                         | 795/4993 [53:24<4:33:34,  3.91s/it] 16%|██████████████████████▉                                                                                                                         | 796/4993 [53:28<4:33:19,  3.91s/it] 16%|██████████████████████▉                                                                                                                         | 797/4993 [53:31<4:32:19,  3.89s/it] 16%|███████████████████████                                                                                                                         | 798/4993 [53:35<4:36:18,  3.95s/it] 16%|███████████████████████                                                                                                                         | 799/4993 [53:40<4:42:29,  4.04s/it] 16%|███████████████████████                                                                                                                         | 800/4993 [53:44<4:40:01,  4.01s/it]                                                                                                                                                                                          {'loss': 0.5601, 'grad_norm': 1.8828125, 'learning_rate': 4.752422169756048e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1951.07, 'epoch': 1.6}
+ 16%|███████████████████████                                                                                                                         | 800/4993 [53:44<4:40:01,  4.01s/it] 16%|██████��████████████████                                                                                                                         | 801/4993 [53:47<4:36:20,  3.96s/it] 16%|███████████████████████▏                                                                                                                        | 802/4993 [53:52<4:54:05,  4.21s/it] 16%|███████████████████████▏                                                                                                                        | 803/4993 [53:56<4:43:59,  4.07s/it] 16%|███████████████████████▏                                                                                                                        | 804/4993 [54:01<4:53:17,  4.20s/it] 16%|███████████████████████▏                                                                                                                        | 805/4993 [54:05<4:48:56,  4.14s/it] 16%|███████████████████████▏                                                                                                                        | 806/4993 [54:08<4:40:44,  4.02s/it] 16%|███████████████████████▎                                                                                                                        | 807/4993 [54:12<4:38:27,  3.99s/it] 16%|███████████████████████▎                                                                                                                        | 808/4993 [54:16<4:40:13,  4.02s/it] 16%|███████████████████████▎                                                                                                                        | 809/4993 [54:20<4:30:59,  3.89s/it] 16%|███████████████████████▎                                                                                                                        | 810/4993 [54:24<4:27:44,  3.84s/it]                                                                                                                                                                                          {'loss': 0.5606, 'grad_norm': 2.078125, 'learning_rate': 4.7454113214437565e-06, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 2188.51, 'epoch': 1.62}
+ 16%|███████████████████████▎                                                                                                                        | 810/4993 [54:24<4:27:44,  3.84s/it] 16%|███████████████████████▍                                                                                                                        | 811/4993 [54:28<4:31:12,  3.89s/it] 16%|███████████████████████▍                                                                                                                        | 812/4993 [54:31<4:28:11,  3.85s/it] 16%|███████████████████████▍                                                                                                                        | 813/4993 [54:36<4:39:30,  4.01s/it] 16%|███████████████████████▍                                                                                                                        | 814/4993 [54:40<4:35:19,  3.95s/it] 16%|███████████████████████▌                                                                                                                        | 815/4993 [54:43<4:32:55,  3.92s/it] 16%|███████████████████████▌                                                                                                                        | 816/4993 [54:47<4:27:27,  3.84s/it] 16%|███████████████████████▌                                                                                                                        | 817/4993 [54:51<4:33:40,  3.93s/it] 16%|███████████████████████▌                                                                                                                        | 818/4993 [54:55<4:31:30,  3.90s/it] 16%|███████████████████████▌                                                                                                                        | 819/4993 [54:59<4:36:39,  3.98s/it] 16%|███��███████████████████▋                                                                                                                        | 820/4993 [55:03<4:38:23,  4.00s/it]                                                                                                                                                                                          {'loss': 0.6086, 'grad_norm': 1.96875, 'learning_rate': 4.738307908786971e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1902.91, 'epoch': 1.64}
+ 16%|███████████████████████▋                                                                                                                        | 820/4993 [55:03<4:38:23,  4.00s/it] 16%|███████████████████████▋                                                                                                                        | 821/4993 [55:08<5:03:26,  4.36s/it] 16%|███████████████████████▋                                                                                                                        | 822/4993 [55:13<5:10:42,  4.47s/it] 16%|███████████████████████▋                                                                                                                        | 823/4993 [55:17<5:00:06,  4.32s/it] 17%|███████████████████████▊                                                                                                                        | 824/4993 [55:21<4:56:18,  4.26s/it] 17%|███████████████████████▊                                                                                                                        | 825/4993 [55:25<4:47:39,  4.14s/it] 17%|███████████████████████▊                                                                                                                        | 826/4993 [55:29<4:44:03,  4.09s/it] 17%|███████████████████████▊                                                                                                                        | 827/4993 [55:33<4:41:55,  4.06s/it] 17%|███████████████████████▉                                                                                                                        | 828/4993 [55:37<4:31:58,  3.92s/it] 17%|███████████████████████▉                                                                                                                        | 829/4993 [55:41<4:41:20,  4.05s/it] 17%|███████████████████████▉                                                                                                                        | 830/4993 [55:45<4:35:56,  3.98s/it]                                                                                                                                                                                          {'loss': 0.5808, 'grad_norm': 2.296875, 'learning_rate': 4.731112224615219e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 2215.75, 'epoch': 1.66}
+ 17%|███████████████████████▉                                                                                                                        | 830/4993 [55:45<4:35:56,  3.98s/it] 17%|███████████████████████▉                                                                                                                        | 831/4993 [55:48<4:27:27,  3.86s/it] 17%|███████████████████████▉                                                                                                                        | 832/4993 [55:52<4:21:13,  3.77s/it] 17%|████████████████████████                                                                                                                        | 833/4993 [55:56<4:30:40,  3.90s/it] 17%|████████████████████████                                                                                                                        | 834/4993 [56:00<4:34:00,  3.95s/it] 17%|████████████████████████                                                                                                                        | 835/4993 [56:04<4:39:10,  4.03s/it] 17%|████████████��███████████                                                                                                                        | 836/4993 [56:09<4:39:40,  4.04s/it] 17%|████████████████████████▏                                                                                                                       | 837/4993 [56:13<4:43:32,  4.09s/it] 17%|████████████████████████▏                                                                                                                       | 838/4993 [56:17<4:46:31,  4.14s/it] 17%|████████████████████████▏                                                                                                                       | 839/4993 [56:21<4:37:39,  4.01s/it] 17%|████████████████████████▏                                                                                                                       | 840/4993 [56:24<4:32:13,  3.93s/it]                                                                                                                                                                                          {'loss': 0.5802, 'grad_norm': 2.015625, 'learning_rate': 4.72382456556181e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1997.25, 'epoch': 1.68}
+ 17%|████████████████████████▏                                                                                                                       | 840/4993 [56:25<4:32:13,  3.93s/it] 17%|████████████████████████▎                                                                                                                       | 841/4993 [56:29<4:42:32,  4.08s/it] 17%|████████████████████████▎                                                                                                                       | 842/4993 [56:33<4:34:12,  3.96s/it] 17%|████████████████████████▎                                                                                                                       | 843/4993 [56:36<4:30:05,  3.90s/it] 17%|████████████████████████▎                                                                                                                       | 844/4993 [56:40<4:31:42,  3.93s/it] 17%|████████████████████████▎                                                                                                                       | 845/4993 [56:44<4:24:38,  3.83s/it] 17%|████████████████████████▍                                                                                                                       | 846/4993 [56:48<4:31:57,  3.93s/it] 17%|████████████████████████▍                                                                                                                       | 847/4993 [56:53<4:43:00,  4.10s/it] 17%|████████████████████████▍                                                                                                                       | 848/4993 [56:56<4:34:33,  3.97s/it] 17%|████████████████████████▍                                                                                                                       | 849/4993 [57:00<4:39:11,  4.04s/it] 17%|████████████████████████▌                                                                                                                       | 850/4993 [57:04<4:29:04,  3.90s/it]                                                                                                                                                                                          {'loss': 0.5685, 'grad_norm': 2.25, 'learning_rate': 4.716445232051604e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 2011.95, 'epoch': 1.7}
+ 17%|████████████████████████▌                                                                                                                       | 850/4993 [57:04<4:29:04,  3.90s/it] 17%|████████████████████████▌                                                                                                                       | 851/4993 [57:08<4:29:53,  3.91s/it] 17%|████████████████████████▌                                                                                                                       | 852/4993 [57:12<4:30:28,  3.92s/it] 17%|████████████████████████▌                                                                                                                       | 853/4993 [57:16<4:28:20,  3.89s/it] 17%|████████████████████████▋                                                                                                                       | 854/4993 [57:20<4:26:34,  3.86s/it] 17%|████████████████████████▋                                                                                                                       | 855/4993 [57:24<4:30:06,  3.92s/it] 17%|████████████████████████▋                                                                                                                       | 856/4993 [57:28<4:30:37,  3.93s/it] 17%|████████████████████████▋                                                                                                                       | 857/4993 [57:32<4:33:44,  3.97s/it] 17%|████████████████████████▋                                                                                                                       | 858/4993 [57:36<4:32:04,  3.95s/it] 17%|████████████████████████▊                                                                                                                       | 859/4993 [57:40<4:35:08,  3.99s/it] 17%|████████████████████████▊                                                                                                                       | 860/4993 [57:44<4:39:55,  4.06s/it]                                                                                                                                                                                          {'loss': 0.6156, 'grad_norm': 2.1875, 'learning_rate': 4.708974528288629e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1714.9, 'epoch': 1.72}
+ 17%|████████████████████████▊                                                                                                                       | 860/4993 [57:44<4:39:55,  4.06s/it] 17%|████████████████████████▊                                                                                                                       | 861/4993 [57:47<4:26:25,  3.87s/it] 17%|████████████████████████▊                                                                                                                       | 862/4993 [57:51<4:29:52,  3.92s/it] 17%|████████████████████████▉                                                                                                                       | 863/4993 [57:56<4:36:39,  4.02s/it] 17%|████████████████████████▉                                                                                                                       | 864/4993 [58:00<4:39:36,  4.06s/it] 17%|████████████████████████▉                                                                                                                       | 865/4993 [58:03<4:29:50,  3.92s/it] 17%|████████████████████████▉                                                                                                                       | 866/4993 [58:08<4:35:54,  4.01s/it] 17%|█████████████████████████                                                                                                                       | 867/4993 [58:11<4:32:47,  3.97s/it] 17%|█████████████████████████                                                                                                                       | 868/4993 [58:16<4:36:14,  4.02s/it] 17%|█████████████████████████                                                                                                                       | 869/4993 [58:19<4:28:50,  3.91s/it] 17%|█████████████████████████                                                                                                                       | 870/4993 [58:23<4:25:34,  3.86s/it]                                                                                                                                                                                          {'loss': 0.5925, 'grad_norm': 2.046875, 'learning_rate': 4.70141276224354e-06, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1979.76, 'epoch': 1.74}
+ 17%|█████████████████████████                                                                                                                       | 870/4993 [58:23<4:25:34,  3.86s/it] 17%|█████████████████████████                                                                                                                       | 871/4993 [58:26<4:18:48,  3.77s/it] 17%|█████████████████████████▏                                                                                                                      | 872/4993 [58:31<4:27:20,  3.89s/it] 17%|█████████████████████████▏                                                                                                                      | 873/4993 [58:34<4:21:20,  3.81s/it] 18%|█████████████████████████▏                                                                                                                      | 874/4993 [58:38<4:26:29,  3.88s/it] 18%|█████████████████████████▏                                                                                                                      | 875/4993 [58:43<4:34:17,  4.00s/it] 18%|█████████████████████████▎                                                                                                                      | 876/4993 [58:46<4:27:00,  3.89s/it] 18%|█████████████████████████▎                                                                                                                      | 877/4993 [58:51<4:35:01,  4.01s/it] 18%|█████████████████████████▎                                                                                                                      | 878/4993 [58:54<4:31:13,  3.95s/it] 18%|█████████████████████████▎                                                                                                                      | 879/4993 [58:58<4:29:10,  3.93s/it] 18%|█████████████████████████▍                                                                                                                      | 880/4993 [59:02<4:36:03,  4.03s/it]                                                                                                                                                                                          {'loss': 0.5994, 'grad_norm': 2.453125, 'learning_rate': 4.693760245640925e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1805.27, 'epoch': 1.76}
+ 18%|█████████████████████████▍                                                                                                                      | 880/4993 [59:02<4:36:03,  4.03s/it] 18%|█████████████████████████▍                                                                                                                      | 881/4993 [59:06<4:27:08,  3.90s/it] 18%|█████████████████████████▍                                                                                                                      | 882/4993 [59:10<4:32:05,  3.97s/it] 18%|█████████████████████████▍                                                                                                                      | 883/4993 [59:15<4:39:35,  4.08s/it] 18%|█████████████████████████▍                                                                                                                      | 884/4993 [59:18<4:35:21,  4.02s/it] 18%|█████████████████████████▌                                                                                                                      | 885/4993 [59:22<4:29:17,  3.93s/it] 18%|█████████████████████████▌                                                                                                                      | 886/4993 [59:26<4:26:41,  3.90s/it] 18%|█████████████████████████▌                                                                                                                      | 887/4993 [59:30<4:23:24,  3.85s/it] 18%|█████████████████████████▌                                                                                                                      | 888/4993 [59:33<4:19:46,  3.80s/it] 18%|█████████████████████████▋                                                                                                                      | 889/4993 [59:37<4:17:32,  3.77s/it] 18%|█████████████████████████▋                                                                                                                      | 890/4993 [59:41<4:13:36,  3.71s/it]                                                                                                                                                                                          {'loss': 0.5897, 'grad_norm': 2.53125, 'learning_rate': 4.686017293946452e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 2097.53, 'epoch': 1.78}
+ 18%|█████████████████████████▋                                                                                                                      | 890/4993 [59:41<4:13:36,  3.71s/it] 18%|█████████████████████████▋                                                                                                                      | 891/4993 [59:45<4:21:21,  3.82s/it] 18%|█████████████████████████▋                                                                                                                      | 892/4993 [59:49<4:31:49,  3.98s/it] 18%|█████████████████████████▊                                                                                                                      | 893/4993 [59:53<4:37:48,  4.07s/it] 18%|█████████████████████████▊                                                                                                                      | 894/4993 [59:58<4:48:43,  4.23s/it] 18%|█████████████████████████▍                                                                                                                    | 895/4993 [1:00:02<4:47:56,  4.22s/it] 18%|█████████████████████████▍                                                                                                                    | 896/4993 [1:00:06<4:40:25,  4.11s/it] 18%|█████████████████████████▌                                                                                                                    | 897/4993 [1:00:10<4:37:34,  4.07s/it] 18%|█████████████████████████▌                                                                                                                    | 898/4993 [1:00:14<4:32:18,  3.99s/it] 18%|█████████████████████████▌                                                                                                                    | 899/4993 [1:00:18<4:36:39,  4.05s/it] 18%|█████████████████████████▌                                                                                                                    | 900/4993 [1:00:22<4:34:39,  4.03s/it]                                                                                                                                                                                          {'loss': 0.6047, 'grad_norm': 1.90625, 'learning_rate': 4.6781842263538655e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 2108.28, 'epoch': 1.8}
+ 18%|█████████████████████████▌                                                                                                                    | 900/4993 [1:00:22<4:34:39,  4.03s/it] 18%|█████████████████████████▌                                                                                                                    | 901/4993 [1:00:26<4:38:05,  4.08s/it] 18%|█████████████████████████▋                                                                                                                    | 902/4993 [1:00:30<4:37:36,  4.07s/it] 18%|█████████████████████████▋                                                                                                                    | 903/4993 [1:00:34<4:37:02,  4.06s/it] 18%|█████████████████████████▋                                                                                                                    | 904/4993 [1:00:38<4:26:48,  3.92s/it] 18%|█████████████████████████▋                                                                                                                    | 905/4993 [1:00:42<4:30:51,  3.98s/it] 18%|█████████████████████████▊                                                                                                                    | 906/4993 [1:00:46<4:27:14,  3.92s/it] 18%|█████████████████████████▊                                                                                                                    | 907/4993 [1:00:49<4:21:28,  3.84s/it] 18%|█████████████████████████▊                                                                                                                    | 908/4993 [1:00:53<4:17:29,  3.78s/it] 18%|█████████████████████████▊                                                                                                                    | 909/4993 [1:00:57<4:19:47,  3.82s/it] 18%|█████████████████████████▉                                                                                                                    | 910/4993 [1:01:01<4:21:05,  3.84s/it]                                                                                                                                                                                          {'loss': 0.6173, 'grad_norm': 1.8515625, 'learning_rate': 4.670261365771829e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1860.52, 'epoch': 1.82}
+ 18%|█████████████████████████▉                                                                                                                    | 910/4993 [1:01:01<4:21:05,  3.84s/it] 18%|█████████████████████████▉                                                                                                                    | 911/4993 [1:01:05<4:26:32,  3.92s/it] 18%|█████████████████████████▉                                                                                                                    | 912/4993 [1:01:09<4:24:57,  3.90s/it] 18%|█████████████████████████▉                                                                                                                    | 913/4993 [1:01:12<4:17:38,  3.79s/it] 18%|█████████████████████████▉                                                                                                                    | 914/4993 [1:01:16<4:19:55,  3.82s/it] 18%|██████████████████████████                                                                                                                    | 915/4993 [1:01:20<4:27:13,  3.93s/it] 18%|██████████████████████████                                                                                                                    | 916/4993 [1:01:24<4:25:40,  3.91s/it] 18%|██████████████████████████                                                                                                                    | 917/4993 [1:01:29<4:33:38,  4.03s/it] 18%|██████████████████████████                                                                                                                    | 918/4993 [1:01:33<4:33:11,  4.02s/it] 18%|██████████████████████████▏                                                                                                                   | 919/4993 [1:01:37<4:33:28,  4.03s/it] 18%|██████████████████████████▏                                                                                                                   | 920/4993 [1:01:40<4:30:39,  3.99s/it]                                                                                                                                                                                          {'loss': 0.6048, 'grad_norm': 2.09375, 'learning_rate': 4.66224903881061e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1990.14, 'epoch': 1.84}
+ 18%|██████████████████████████▏                                                                                                                   | 920/4993 [1:01:41<4:30:39,  3.99s/it] 18%|██████████████████████████▏                                                                                                                   | 921/4993 [1:01:45<4:31:40,  4.00s/it] 18%|██████████████████████████▏                                                                                                                   | 922/4993 [1:01:48<4:29:10,  3.97s/it] 18%|██████████████████████████▏                                                                                                                   | 923/4993 [1:01:52<4:28:06,  3.95s/it] 19%|██████████████████████████▎                                                                                                                   | 924/4993 [1:01:57<4:34:34,  4.05s/it] 19%|██████████████████████████▎                                                                                                                   | 925/4993 [1:02:01<4:34:47,  4.05s/it] 19%|██████████████████████████▎                                                                                                                   | 926/4993 [1:02:05<4:41:40,  4.16s/it] 19%|██████████████████████████▎                                                                                                                   | 927/4993 [1:02:09<4:31:20,  4.00s/it] 19%|██████████████████████████▍                                                                                                                   | 928/4993 [1:02:13<4:35:12,  4.06s/it] 19%|██████████████████████████▍                                                                                                                   | 929/4993 [1:02:17<4:39:23,  4.12s/it] 19%|██████████████████████████▍                                                                                                                   | 930/4993 [1:02:21<4:30:59,  4.00s/it]                                                                                                                                                                                          {'loss': 0.6052, 'grad_norm': 1.9609375, 'learning_rate': 4.654147575768623e-06, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 2087.55, 'epoch': 1.86}
+ 19%|██████████████████████████▍                                                                                                                   | 930/4993 [1:02:21<4:30:59,  4.00s/it] 19%|██████████████████████████▍                                                                                                                   | 931/4993 [1:02:25<4:26:29,  3.94s/it] 19%|██████████████████████████▌                                                                                                                   | 932/4993 [1:02:29<4:35:52,  4.08s/it] 19%|██████████████████████████▌                                                                                                                   | 933/4993 [1:02:33<4:31:31,  4.01s/it] 19%|██████████████████████████▌                                                                                                                   | 934/4993 [1:02:37<4:34:12,  4.05s/it] 19%|██████████████████████████▌                                                                                                                   | 935/4993 [1:02:41<4:24:13,  3.91s/it] 19%|██████████████████████████▌                                                                                                                   | 936/4993 [1:02:45<4:26:10,  3.94s/it] 19%|██████████████████████████▋                                                                                                                   | 937/4993 [1:02:48<4:22:56,  3.89s/it] 19%|██████████████████████████▋                                                                                                                   | 938/4993 [1:02:52<4:25:53,  3.93s/it] 19%|██████████████████████████▋                                                                                                                   | 939/4993 [1:02:57<4:31:23,  4.02s/it] 19%|██████████████████████████▋                                                                                                                   | 940/4993 [1:03:01<4:31:35,  4.02s/it]                                                                                                                                                                                          {'loss': 0.5778, 'grad_norm': 1.859375, 'learning_rate': 4.645957310618803e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1791.64, 'epoch': 1.88}
+ 19%|██████████████████████████▋                                                                                                                   | 940/4993 [1:03:01<4:31:35,  4.02s/it] 19%|██████████████████████████▊                                                                                                                   | 941/4993 [1:03:05<4:28:10,  3.97s/it] 19%|██████████████████████████▊                                                                                                                   | 942/4993 [1:03:09<4:34:31,  4.07s/it] 19%|██████████████████████████▊                                                                                                                   | 943/4993 [1:03:13<4:27:10,  3.96s/it] 19%|██████████████████████████▊                                                                                                                   | 944/4993 [1:03:16<4:22:48,  3.89s/it] 19%|██████████████████████████▉                                                                                                                   | 945/4993 [1:03:20<4:22:36,  3.89s/it] 19%|██████████████████████████▉                                                                                                                   | 946/4993 [1:03:24<4:21:10,  3.87s/it] 19%|██████████████████████████▉                                                                                                                   | 947/4993 [1:03:28<4:29:11,  3.99s/it] 19%|██████████████████████████▉                                                                                                                   | 948/4993 [1:03:32<4:32:38,  4.04s/it] 19%|██████████████████████████▉                                                                                                                   | 949/4993 [1:03:36<4:31:43,  4.03s/it] 19%|███████████████████████████                                                                                                                   | 950/4993 [1:03:40<4:29:30,  4.00s/it]                                                                                                                                                                                          {'loss': 0.6077, 'grad_norm': 2.1875, 'learning_rate': 4.637678580994849e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1930.23, 'epoch': 1.9}
+ 19%|███████████████████████████                                                                                                                   | 950/4993 [1:03:40<4:29:30,  4.00s/it] 19%|███████████████████████████                                                                                                                   | 951/4993 [1:03:44<4:27:32,  3.97s/it] 19%|███████████████████████████                                                                                                                   | 952/4993 [1:03:48<4:26:58,  3.96s/it] 19%|███████████████████████████                                                                                                                   | 953/4993 [1:03:52<4:31:26,  4.03s/it] 19%|███████████████████████████▏                                                                                                                  | 954/4993 [1:03:56<4:31:55,  4.04s/it] 19%|███████████████████████████▏                                                                                                                  | 955/4993 [1:04:00<4:23:55,  3.92s/it] 19%|███████████████████████████▏                                                                                                                  | 956/4993 [1:04:05<4:34:03,  4.07s/it] 19%|███████████████████████████▏                                                                                                                  | 957/4993 [1:04:08<4:26:52,  3.97s/it] 19%|███████████████████████████▏                                                                                                                  | 958/4993 [1:04:12<4:22:30,  3.90s/it] 19%|███████████████████████████▎                                                                                                                  | 959/4993 [1:04:16<4:14:53,  3.79s/it] 19%|███████████████████████████▎                                                                                                                  | 960/4993 [1:04:20<4:21:26,  3.89s/it]                                                                                                                                                                                          {'loss': 0.5875, 'grad_norm': 2.15625, 'learning_rate': 4.629311728177296e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1811.82, 'epoch': 1.92}
+ 19%|███████████████████████████▎                                                                                                                  | 960/4993 [1:04:20<4:21:26,  3.89s/it] 19%|███████████████████████████▎                                                                                                                  | 961/4993 [1:04:24<4:22:50,  3.91s/it] 19%|███████████████████████████▎                                                                                                                  | 962/4993 [1:04:27<4:16:30,  3.82s/it] 19%|███████████████████████████▍                                                                                                                  | 963/4993 [1:04:31<4:12:12,  3.75s/it] 19%|███████████████████████████▍                                                                                                                  | 964/4993 [1:04:35<4:23:43,  3.93s/it] 19%|███████████████████████████▍                                                                                                                  | 965/4993 [1:04:39<4:25:36,  3.96s/it] 19%|███████████████████████████▍                                                                                                                  | 966/4993 [1:04:44<4:33:58,  4.08s/it] 19%|███████████████████████████▌                                                                                                                  | 967/4993 [1:04:48<4:35:34,  4.11s/it] 19%|███████████████████████████▌                                                                                                                  | 968/4993 [1:04:52<4:32:53,  4.07s/it] 19%|███████████████████████████▌                                                                                                                  | 969/4993 [1:04:56<4:29:50,  4.02s/it] 19%|███████████████████████████▌                                                                                                                  | 970/4993 [1:05:00<4:28:35,  4.01s/it]                                                                                                                                                                                          {'loss': 0.6043, 'grad_norm': 2.140625, 'learning_rate': 4.620857097079452e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1824.77, 'epoch': 1.94}
+ 19%|███████████████████████████▌                                                                                                                  | 970/4993 [1:05:00<4:28:35,  4.01s/it] 19%|███████████████████████████▌                                                                                                                  | 971/4993 [1:05:03<4:21:34,  3.90s/it] 19%|███████████████████████████▋                                                                                                                  | 972/4993 [1:05:07<4:18:53,  3.86s/it] 19%|███████████████████████████▋                                                                                                                  | 973/4993 [1:05:11<4:25:59,  3.97s/it] 20%|███████████████████████████▋                                                                                                                  | 974/4993 [1:05:15<4:18:09,  3.85s/it] 20%|███████████████████████████▋                                                                                                                  | 975/4993 [1:05:19<4:20:31,  3.89s/it] 20%|███████████████████████████▊                                                                                                                  | 976/4993 [1:05:23<4:31:10,  4.05s/it] 20%|███████████████████████████▊                                                                                                                  | 977/4993 [1:05:27<4:29:50,  4.03s/it] 20%|███████████████████████████▊                                                                                                                  | 978/4993 [1:05:31<4:31:46,  4.06s/it] 20%|███████████████████████████▊                                                                                                                  | 979/4993 [1:05:35<4:31:58,  4.07s/it] 20%|███████████████████████████▊                                                                                                                  | 980/4993 [1:05:39<4:27:07,  3.99s/it]                                                                                                                                                                                          {'loss': 0.5843, 'grad_norm': 2.15625, 'learning_rate': 4.6123150362331795e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 2151.49, 'epoch': 1.96}
+ 20%|███████████████████████████▊                                                                                                                  | 980/4993 [1:05:39<4:27:07,  3.99s/it] 20%|███████████████████████████▉                                                                                                                  | 981/4993 [1:05:43<4:24:52,  3.96s/it] 20%|███████████████████████████▉                                                                                                                  | 982/4993 [1:05:47<4:24:49,  3.96s/it] 20%|███████████████████████████▉                                                                                                                  | 983/4993 [1:05:51<4:25:24,  3.97s/it] 20%|███████████████████████████▉                                                                                                                  | 984/4993 [1:05:55<4:30:07,  4.04s/it] 20%|████████████████████████████                                                                                                                  | 985/4993 [1:05:59<4:26:38,  3.99s/it] 20%|████████████████████████████                                                                                                                  | 986/4993 [1:06:03<4:25:37,  3.98s/it] 20%|████████████████████████████                                                                                                                  | 987/4993 [1:06:07<4:30:53,  4.06s/it] 20%|████████████████████████████                                                                                                                  | 988/4993 [1:06:12<4:40:06,  4.20s/it] 20%|████████████████████████████▏                                                                                                                 | 989/4993 [1:06:16<4:35:50,  4.13s/it] 20%|████████████████████████████▏                                                                                                                 | 990/4993 [1:06:20<4:33:58,  4.11s/it]                                                                                                                                                                                          {'loss': 0.5756, 'grad_norm': 1.640625, 'learning_rate': 4.6036858977745215e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1887.69, 'epoch': 1.98}
+ 20%|████████████████████████████▏                                                                                                                 | 990/4993 [1:06:20<4:33:58,  4.11s/it] 20%|████████████████████████████▏                                                                                                                 | 991/4993 [1:06:24<4:36:25,  4.14s/it] 20%|████████████████████████████▏                                                                                                                 | 992/4993 [1:06:28<4:30:42,  4.06s/it] 20%|████████████████████████████▏                                                                                                                 | 993/4993 [1:06:32<4:30:27,  4.06s/it] 20%|████████████████████████████▎                                                                                                                 | 994/4993 [1:06:36<4:26:04,  3.99s/it] 20%|████████████████████████████▎                                                                                                                 | 995/4993 [1:06:40<4:27:19,  4.01s/it] 20%|████████████████████████████▎                                                                                                                 | 996/4993 [1:06:44<4:21:39,  3.93s/it] 20%|████████████████████████████▎                                                                                                                 | 997/4993 [1:06:48<4:24:12,  3.97s/it] 20%|████████████████████████████▍                                                                                                                 | 998/4993 [1:06:51<4:16:00,  3.84s/it] 20%|████████████████████████████▍                                                                                                                 | 999/4993 [1:06:55<4:15:23,  3.84s/it] 20%|████████████████████████████▏                                                                                                                | 1000/4993 [1:06:56<3:22:46,  3.05s/it]                                                                                                                                                                                          {'loss': 0.6069, 'grad_norm': 4.0, 'learning_rate': 4.594970037429191e-06, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 6274.33, 'epoch': 2.0}
+ 20%|████████████████████████████▏                                                                                                                | 1000/4993 [1:06:56<3:22:46,  3.05s/it][2025-12-23 15:33:17,991] [INFO] [axolotl.core.trainers.base._save:671] [PID:5529] Saving model checkpoint to ./outputs/qwen3-4b-instruct-ded-full-train/checkpoint-1000
+ 20%|█████��██████████████████████                                                                                                                | 1001/4993 [1:07:32<14:12:48, 12.82s/it] 20%|████████████████████████████                                                                                                                | 1002/4993 [1:07:36<11:24:31, 10.29s/it] 20%|████████████████████████████▎                                                                                                                | 1003/4993 [1:07:40<9:17:59,  8.39s/it] 20%|████████████████████████████▎                                                                                                                | 1004/4993 [1:07:44<7:43:53,  6.98s/it] 20%|████████████████████████████▍                                                                                                                | 1005/4993 [1:07:48<6:50:26,  6.18s/it] 20%|████████████████████████████▍                                                                                                                | 1006/4993 [1:07:52<6:07:49,  5.54s/it] 20%|████████████████████████████▍                                                                                                                | 1007/4993 [1:07:56<5:32:16,  5.00s/it] 20%|████████████████████████████▍                                                                                                                | 1008/4993 [1:08:00<5:10:55,  4.68s/it] 20%|████████████████████████████▍                                                                                                                | 1009/4993 [1:08:04<4:58:46,  4.50s/it] 20%|████████████████████████████▌                                                                                                                | 1010/4993 [1:08:08<4:44:30,  4.29s/it]                                                                                                                                                                                          {'loss': 0.5863, 'grad_norm': 1.859375, 'learning_rate': 4.58616781449791e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 2022.99, 'epoch': 2.02}
+ 20%|████████████████████████████▌                                                                                                                | 1010/4993 [1:08:08<4:44:30,  4.29s/it] 20%|████████████████████████████▌                                                                                                                | 1011/4993 [1:08:12<4:35:50,  4.16s/it] 20%|████████████████████████████▌                                                                                                                | 1012/4993 [1:08:16<4:33:51,  4.13s/it] 20%|████████████████████████████▌                                                                                                                | 1013/4993 [1:08:20<4:34:29,  4.14s/it] 20%|████████████████████████████▋                                                                                                                | 1014/4993 [1:08:24<4:32:12,  4.10s/it] 20%|████████████████████████████▋                                                                                                                | 1015/4993 [1:08:28<4:26:24,  4.02s/it] 20%|████████████████████████████▋                                                                                                                | 1016/4993 [1:08:32<4:32:53,  4.12s/it] 20%|████████████████████████████▋                                                                                                                | 1017/4993 [1:08:36<4:37:00,  4.18s/it] 20%|████████████████████████████▋                                                                                                                | 1018/4993 [1:08:41<4:33:54,  4.13s/it] 20%|██████████████████���█████████▊                                                                                                                | 1019/4993 [1:08:44<4:27:26,  4.04s/it] 20%|████████████████████████████▊                                                                                                                | 1020/4993 [1:08:49<4:30:16,  4.08s/it]                                                                                                                                                                                          {'loss': 0.6162, 'grad_norm': 1.71875, 'learning_rate': 4.577279591841586e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1922.52, 'epoch': 2.04}
+ 20%|████████████████████████████▊                                                                                                                | 1020/4993 [1:08:49<4:30:16,  4.08s/it] 20%|████████████████████████████▊                                                                                                                | 1021/4993 [1:08:53<4:35:08,  4.16s/it] 20%|████████████████████████████▊                                                                                                                | 1022/4993 [1:08:57<4:29:07,  4.07s/it] 20%|████████████████████████████▉                                                                                                                | 1023/4993 [1:09:00<4:22:24,  3.97s/it] 21%|████████████████████████████▉                                                                                                                | 1024/4993 [1:09:04<4:20:40,  3.94s/it] 21%|████████████████████████████▉                                                                                                                | 1025/4993 [1:09:08<4:22:25,  3.97s/it] 21%|████████████████████████████▉                                                                                                                | 1026/4993 [1:09:12<4:15:31,  3.86s/it] 21%|█████████████████████████████                                                                                                                | 1027/4993 [1:09:16<4:15:36,  3.87s/it] 21%|█████████████████████████████                                                                                                                | 1028/4993 [1:09:20<4:17:11,  3.89s/it] 21%|█████████████████████████████                                                                                                                | 1029/4993 [1:09:24<4:25:29,  4.02s/it] 21%|█████████████████████████████                                                                                                                | 1030/4993 [1:09:28<4:26:07,  4.03s/it]                                                                                                                                                                                          {'loss': 0.5919, 'grad_norm': 2.328125, 'learning_rate': 4.5683057358663615e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1742.86, 'epoch': 2.06}
+ 21%|█████████████████████████████                                                                                                                | 1030/4993 [1:09:28<4:26:07,  4.03s/it] 21%|█████████████████████████████                                                                                                                | 1031/4993 [1:09:32<4:23:20,  3.99s/it] 21%|█████████████████████████████▏                                                                                                               | 1032/4993 [1:09:36<4:19:03,  3.92s/it] 21%|█████████████████████████████▏                                                                                                               | 1033/4993 [1:09:40<4:28:27,  4.07s/it] 21%|█████████████████████████████▏                                                                                                               | 1034/4993 [1:09:45<4:35:36,  4.18s/it] 21%|█████████████████████████████▏                                                                                                               | 1035/4993 [1:09:48<4:18:19,  3.92s/it] 21%|█████████████████████████████▎                                                                                                               | 1036/4993 [1:09:52<4:20:21,  3.95s/it] 21%|█████████████████████████████▎                                                                                                               | 1037/4993 [1:09:56<4:15:45,  3.88s/it] 21%|█████████████████████████████▎                                                                                                               | 1038/4993 [1:10:00<4:18:33,  3.92s/it] 21%|█████████████████████████████▎                                                                                                               | 1039/4993 [1:10:03<4:12:15,  3.83s/it] 21%|█████████████████████████████▎                                                                                                               | 1040/4993 [1:10:07<4:14:31,  3.86s/it]                                                                                                                                                                                          {'loss': 0.5987, 'grad_norm': 1.90625, 'learning_rate': 4.559246616508512e-06, 'memory/max_active (GiB)': 40.36, 'memory/max_allocated (GiB)': 40.36, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1938.15, 'epoch': 2.08}
+ 21%|█████████████████████████████▎                                                                                                               | 1040/4993 [1:10:07<4:14:31,  3.86s/it] 21%|█████████████████████████████▍                                                                                                               | 1041/4993 [1:10:11<4:17:20,  3.91s/it] 21%|█████████████████████████████▍                                                                                                               | 1042/4993 [1:10:15<4:18:52,  3.93s/it] 21%|█████████████████████████████▍                                                                                                               | 1043/4993 [1:10:19<4:18:42,  3.93s/it] 21%|█████████████████████████████▍                                                                                                               | 1044/4993 [1:10:23<4:12:35,  3.84s/it] 21%|█████████████████████████████▌                                                                                                               | 1045/4993 [1:10:27<4:14:08,  3.86s/it] 21%|█████████████████████████████▌                                                                                                               | 1046/4993 [1:10:30<4:08:25,  3.78s/it] 21%|█████████████████████████████▌                                                                                                               | 1047/4993 [1:10:34<4:14:57,  3.88s/it] 21%|█████████████████████████████▌                                                                                                               | 1048/4993 [1:10:39<4:21:43,  3.98s/it] 21%|█████████████████████████████▌                                                                                                               | 1049/4993 [1:10:43<4:24:14,  4.02s/it] 21%|█████████████████████████████▋                                                                                                               | 1050/4993 [1:10:47<4:19:45,  3.95s/it]                                                                                                                                                                                          {'loss': 0.5894, 'grad_norm': 2.015625, 'learning_rate': 4.550102607219189e-06, 'memory/max_active (GiB)': 40.36, 'memory/max_allocated (GiB)': 40.36, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1937.02, 'epoch': 2.1}
+ 21%|█████████████████████████████▋                                                                                                               | 1050/4993 [1:10:47<4:19:45,  3.95s/it] 21%|█████████████████████████████▋                                                                                                               | 1051/4993 [1:10:51<4:26:03,  4.05s/it] 21%|█████████████████████████████▋                                                                                                               | 1052/4993 [1:10:55<4:26:07,  4.05s/it] 21%|█████████████████████████████▋                                                                                                               | 1053/4993 [1:10:59<4:21:07,  3.98s/it] 21%|█████████████████████████████▊                                                                                                               | 1054/4993 [1:11:02<4:13:44,  3.87s/it] 21%|█████████████████████████████▊                                                                                                               | 1055/4993 [1:11:06<4:13:43,  3.87s/it] 21%|█████████████████████████████▊                                                                                                               | 1056/4993 [1:11:10<4:08:45,  3.79s/it] 21%|█████████████████████████████▊                                                                                                               | 1057/4993 [1:11:13<4:04:51,  3.73s/it] 21%|█████████████████████████████▉                                                                                                               | 1058/4993 [1:11:17<4:09:09,  3.80s/it] 21%|█████████████████████████████▉                                                                                                               | 1059/4993 [1:11:21<4:15:20,  3.89s/it] 21%|█████████████████████████████▉                                                                                                               | 1060/4993 [1:11:25<4:17:30,  3.93s/it]                                                                                                                                                                                          {'loss': 0.5835, 'grad_norm': 1.90625, 'learning_rate': 4.540874084949027e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1853.9, 'epoch': 2.12}
+ 21%|█████████████████████████████▉                                                                                                               | 1060/4993 [1:11:25<4:17:30,  3.93s/it] 21%|█████████████████████████████▉                                                                                                               | 1061/4993 [1:11:29<4:17:23,  3.93s/it] 21%|█████████████████████████████▉                                                                                                               | 1062/4993 [1:11:33<4:21:00,  3.98s/it] 21%|██████████████████████████████                                                                                                               | 1063/4993 [1:11:38<4:23:57,  4.03s/it] 21%|██████████████████████████████                                                                                                               | 1064/4993 [1:11:42<4:25:10,  4.05s/it] 21%|██████████████████████████████                                                                                                               | 1065/4993 [1:11:46<4:21:10,  3.99s/it] 21%|██████████████████████████████                                                                                                               | 1066/4993 [1:11:49<4:16:28,  3.92s/it] 21%|██████████████████████████████▏                                                                                                              | 1067/4993 [1:11:53<4:12:43,  3.86s/it] 21%|██████████████████████████████▏                                                                                                              | 1068/4993 [1:11:57<4:12:44,  3.86s/it] 21%|██████████████████████████████▏                                                                                                              | 1069/4993 [1:12:01<4:18:35,  3.95s/it] 21%|██████████████████████████████▏                                                                                                              | 1070/4993 [1:12:05<4:13:22,  3.88s/it]                                                                                                                                                                                          {'loss': 0.6021, 'grad_norm': 3.046875, 'learning_rate': 4.53156143013261e-06, 'memory/max_active (GiB)': 40.36, 'memory/max_allocated (GiB)': 40.36, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1886.95, 'epoch': 2.14}
+ 21%|██████████████████████████████▏                                                                                                              | 1070/4993 [1:12:05<4:13:22,  3.88s/it] 21%|██████████████████████████████▏                                                                                                              | 1071/4993 [1:12:09<4:26:16,  4.07s/it] 21%|██████████████████████████████▎                                                                                                              | 1072/4993 [1:12:13<4:17:55,  3.95s/it] 21%|██████████████████████████████▎                                                                                                              | 1073/4993 [1:12:17<4:17:27,  3.94s/it] 22%|██████████████████████████████▎                                                                                                              | 1074/4993 [1:12:20<4:09:15,  3.82s/it] 22%|██████████████████████████████▎                                                                                                              | 1075/4993 [1:12:24<4:07:46,  3.79s/it] 22%|██████████████████████████████▍                                                                                                              | 1076/4993 [1:12:28<4:15:58,  3.92s/it] 22%|██████████████████████████████▍                                                                                                              | 1077/4993 [1:12:32<4:15:29,  3.91s/it] 22%|██████████████████████████████▍                                                                                                              | 1078/4993 [1:12:36<4:17:02,  3.94s/it] 22%|██████████████████████████████▍                                                                                                              | 1079/4993 [1:12:40<4:14:41,  3.90s/it] 22%|██████████████████████████████▍                                                                                                              | 1080/4993 [1:12:44<4:20:06,  3.99s/it]                                                                                                                                                                                          {'loss': 0.6076, 'grad_norm': 1.875, 'learning_rate': 4.522165026672778e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 48.33, 'tokens_per_second_per_gpu': 1789.59, 'epoch': 2.16}
+ 22%|██████████████████████████████▍                                                                                                              | 1080/4993 [1:12:44<4:20:06,  3.99s/it] 22%|██████████████████████████████▌                                                                                                              | 1081/4993 [1:12:49<4:26:48,  4.09s/it] 22%|██████████████████████████████▌                                                                                                              | 1082/4993 [1:12:53<4:31:46,  4.17s/it] 22%|██████████████████████████████▌                                                                                                              | 1083/4993 [1:12:57<4:32:21,  4.18s/it] 22%|██████████████████████████████▌                                                                                                              | 1084/4993 [1:13:01<4:29:10,  4.13s/it] 22%|██████████████████████████████▋                                                                                                              | 1085/4993 [1:13:05<4:30:36,  4.15s/it] 22%|██████████████████████████████▋                                                                                                              | 1086/4993 [1:13:10<4:39:01,  4.28s/it] 22%|██████████████████████████████▋                                                                                                              | 1087/4993 [1:13:14<4:35:24,  4.23s/it] 22%|██████████████████████████████▋                                                                                                              | 1088/4993 [1:13:18<4:34:28,  4.22s/it] 22%|██████████████████████████████▊                                                                                                              | 1089/4993 [1:13:23<4:38:57,  4.29s/it] 22%|██████████████████████████████▊                                                                                                              | 1090/4993 [1:13:27<4:31:36,  4.18s/it]                                                                                                                                                                                          {'loss': 0.5878, 'grad_norm': 2.09375, 'learning_rate': 4.512685261924808e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2078.45, 'epoch': 2.18}
+ 22%|██████████████████████████████▊                                                                                                              | 1090/4993 [1:13:27<4:31:36,  4.18s/it] 22%|██████████████████████████████▊                                                                                                              | 1091/4993 [1:13:31<4:29:17,  4.14s/it] 22%|██████████████████████████████▊                                                                                                              | 1092/4993 [1:13:35<4:25:35,  4.08s/it] 22%|██████████████████████████████▊                                                                                                              | 1093/4993 [1:13:38<4:17:27,  3.96s/it] 22%|██████████████████████████████▉                                                                                                              | 1094/4993 [1:13:42<4:19:14,  3.99s/it] 22%|██████████████████████████████▉                                                                                                              | 1095/4993 [1:13:47<4:22:27,  4.04s/it] 22%|██████████████████████████████▉                                                                                                              | 1096/4993 [1:13:51<4:22:14,  4.04s/it] 22%|██████████████████████████████▉                                                                                                              | 1097/4993 [1:13:55<4:20:40,  4.01s/it] 22%|███████████████████████████████                                                                                                              | 1098/4993 [1:13:59<4:24:17,  4.07s/it] 22%|███████████████████████████████                                                                                                              | 1099/4993 [1:14:03<4:27:45,  4.13s/it] 22%|███████████████████████████████                                                                                                              | 1100/4993 [1:14:07<4:33:31,  4.22s/it]                                                                                                                                                                                          {'loss': 0.5764, 'grad_norm': 1.8515625, 'learning_rate': 4.503122526680449e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1757.09, 'epoch': 2.2}
+ 22%|███████████████████████████████                                                                                                              | 1100/4993 [1:14:07<4:33:31,  4.22s/it] 22%|███████████████████████████████                                                                                                              | 1101/4993 [1:14:12<4:36:53,  4.27s/it] 22%|███████████████████████████████                                                                                                              | 1102/4993 [1:14:16<4:27:21,  4.12s/it] 22%|███████████████████████████████▏                                                                                                             | 1103/4993 [1:14:20<4:27:21,  4.12s/it] 22%|███████████████████████████████▏                                                                                                             | 1104/4993 [1:14:24<4:27:48,  4.13s/it] 22%|███████████████████████████████▏                                                                                                             | 1105/4993 [1:14:28<4:25:38,  4.10s/it] 22%|███████████████████████████████▏                                                                                                             | 1106/4993 [1:14:32<4:19:44,  4.01s/it] 22%|███████████████████████████████▎                                                                                                             | 1107/4993 [1:14:36<4:21:13,  4.03s/it] 22%|███████████████████████████████▎                                                                                                             | 1108/4993 [1:14:40<4:15:03,  3.94s/it] 22%|███████████████████████████████▎                                                                                                             | 1109/4993 [1:14:43<4:11:50,  3.89s/it] 22%|███████████████████████████████▎                                                                                                             | 1110/4993 [1:14:47<4:15:15,  3.94s/it]                                                                                                                                                                                          {'loss': 0.6218, 'grad_norm': 1.9296875, 'learning_rate': 4.493477215151802e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1856.3, 'epoch': 2.22}
+ 22%|███████████████████████████████▎                                                                                                             | 1110/4993 [1:14:47<4:15:15,  3.94s/it] 22%|███████████████████████████████▎                                                                                                             | 1111/4993 [1:14:52<4:19:28,  4.01s/it] 22%|███████████████████████████████▍                                                                                                             | 1112/4993 [1:14:56<4:23:26,  4.07s/it] 22%|███████████████████████████████▍                                                                                                             | 1113/4993 [1:15:00<4:20:37,  4.03s/it] 22%|███████████████████████████████▍                                                                                                             | 1114/4993 [1:15:04<4:25:25,  4.11s/it] 22%|███████████████████████████████▍                                                                                                             | 1115/4993 [1:15:08<4:19:04,  4.01s/it] 22%|███████████████████████████████▌                                                                                                             | 1116/4993 [1:15:12<4:16:19,  3.97s/it] 22%|███████████████████████████████▌                                                                                                             | 1117/4993 [1:15:16<4:25:26,  4.11s/it] 22%|███████████████████████████████▌                                                                                                             | 1118/4993 [1:15:20<4:25:44,  4.11s/it] 22%|███████████████████████████████▌                                                                                                             | 1119/4993 [1:15:25<4:40:34,  4.35s/it] 22%|███████████████████████████████▋                                                                                                             | 1120/4993 [1:15:29<4:30:30,  4.19s/it]                                                                                                                                                                                          {'loss': 0.5529, 'grad_norm': 2.046875, 'learning_rate': 4.4837497249550766e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2078.35, 'epoch': 2.24}
+ 22%|███████████████████████████████▋                                                                                                             | 1120/4993 [1:15:29<4:30:30,  4.19s/it] 22%|███████████████████████████████▋                                                                                                             | 1121/4993 [1:15:33<4:25:29,  4.11s/it] 22%|███████████████████████████████▋                                                                                                             | 1122/4993 [1:15:37<4:19:02,  4.02s/it] 22%|███████████████████████████████▋                                                                                                             | 1123/4993 [1:15:41<4:24:04,  4.09s/it] 23%|███████████████████████████████▋                                                                                                             | 1124/4993 [1:15:45<4:25:06,  4.11s/it] 23%|███████████████████████████████▊                                                                                                             | 1125/4993 [1:15:49<4:17:15,  3.99s/it] 23%|███████████████████████████████▊                                                                                                             | 1126/4993 [1:15:52<4:11:20,  3.90s/it] 23%|███████████████████████████████▊                                                                                                             | 1127/4993 [1:15:56<4:10:11,  3.88s/it] 23%|███████████████████████████████▊                                                                                                             | 1128/4993 [1:16:00<4:13:03,  3.93s/it] 23%|███████████████████████████████▉                                                                                                             | 1129/4993 [1:16:04<4:13:29,  3.94s/it] 23%|███████████████████████████████▉                                                                                                             | 1130/4993 [1:16:08<4:11:01,  3.90s/it]                                                                                                                                                                                          {'loss': 0.5954, 'grad_norm': 2.09375, 'learning_rate': 4.473940457094199e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1877.27, 'epoch': 2.26}
+ 23%|███████████████████████████████▉                                                                                                             | 1130/4993 [1:16:08<4:11:01,  3.90s/it] 23%|███████████████████████████████▉                                                                                                             | 1131/4993 [1:16:12<4:14:59,  3.96s/it] 23%|███████████████████████████████▉                                                                                                             | 1132/4993 [1:16:16<4:13:25,  3.94s/it] 23%|███████████████████████████████▉                                                                                                             | 1133/4993 [1:16:20<4:16:27,  3.99s/it] 23%|████████████████████████████████                                                                                                             | 1134/4993 [1:16:24<4:14:24,  3.96s/it] 23%|████████████████████████████████                                                                                                             | 1135/4993 [1:16:28<4:18:23,  4.02s/it] 23%|████████████████████████████████                                                                                                             | 1136/4993 [1:16:32<4:19:22,  4.03s/it] 23%|████████████████████████████████                                                                                                             | 1137/4993 [1:16:36<4:14:36,  3.96s/it] 23%|████████████████████████████████▏                                                                                                            | 1138/4993 [1:16:40<4:20:52,  4.06s/it] 23%|████████████████████████████████▏                                                                                                            | 1139/4993 [1:16:44<4:15:34,  3.98s/it] 23%|████████████████████████████████▏                                                                                                            | 1140/4993 [1:16:48<4:11:32,  3.92s/it]                                                                                                                                                                                          {'loss': 0.5904, 'grad_norm': 2.21875, 'learning_rate': 4.464049815944278e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2050.1, 'epoch': 2.28}
+ 23%|████████████████████████████████▏                                                                                                            | 1140/4993 [1:16:48<4:11:32,  3.92s/it] 23%|████████████████████████████████▏                                                                                                            | 1141/4993 [1:16:52<4:10:04,  3.90s/it] 23%|████████████████████████████████▏                                                                                                            | 1142/4993 [1:16:56<4:10:10,  3.90s/it] 23%|████████████████████████████████▎                                                                                                            | 1143/4993 [1:17:00<4:11:40,  3.92s/it] 23%|████████████████████████████████▎                                                                                                            | 1144/4993 [1:17:04<4:20:31,  4.06s/it] 23%|████████████████████████████████▎                                                                                                            | 1145/4993 [1:17:08<4:23:35,  4.11s/it] 23%|████████████████████████████████▎                                                                                                            | 1146/4993 [1:17:12<4:22:41,  4.10s/it] 23%|████████████████████████████████▍                                                                                                            | 1147/4993 [1:17:17<4:25:29,  4.14s/it] 23%|██████████████████████��█████████▍                                                                                                            | 1148/4993 [1:17:20<4:16:33,  4.00s/it] 23%|████████████████████████████████▍                                                                                                            | 1149/4993 [1:17:25<4:25:58,  4.15s/it] 23%|████████████████████████████████▍                                                                                                            | 1150/4993 [1:17:28<4:15:47,  3.99s/it]                                                                                                                                                                                          {'loss': 0.5651, 'grad_norm': 2.640625, 'learning_rate': 4.4540782092349385e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2098.11, 'epoch': 2.3}
+ 23%|████████████████████████████████▍                                                                                                            | 1150/4993 [1:17:28<4:15:47,  3.99s/it] 23%|████████████████████████████████▌                                                                                                            | 1151/4993 [1:17:32<4:13:42,  3.96s/it] 23%|████████████████████████████████▌                                                                                                            | 1152/4993 [1:17:36<4:09:10,  3.89s/it] 23%|████████████████████████████████▌                                                                                                            | 1153/4993 [1:17:40<4:12:13,  3.94s/it] 23%|████████████████████████████████▌                                                                                                            | 1154/4993 [1:17:44<4:08:53,  3.89s/it] 23%|████████████████████████████████▌                                                                                                            | 1155/4993 [1:17:48<4:14:19,  3.98s/it] 23%|████████████████████████████████▋                                                                                                            | 1156/4993 [1:17:52<4:14:41,  3.98s/it] 23%|████████████████████████████████▋                                                                                                            | 1157/4993 [1:17:56<4:13:31,  3.97s/it] 23%|████████████████████████████████▋                                                                                                            | 1158/4993 [1:18:00<4:06:44,  3.86s/it] 23%|████████████████████████████████▋                                                                                                            | 1159/4993 [1:18:03<4:02:20,  3.79s/it] 23%|████████████████████████████████▊                                                                                                            | 1160/4993 [1:18:07<4:09:52,  3.91s/it]                                                                                                                                                                                          {'loss': 0.6135, 'grad_norm': 2.09375, 'learning_rate': 4.444026048033512e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1750.99, 'epoch': 2.32}
+ 23%|████████████████████████████████▊                                                                                                            | 1160/4993 [1:18:07<4:09:52,  3.91s/it] 23%|████████████████████████████████▊                                                                                                            | 1161/4993 [1:18:11<4:13:20,  3.97s/it] 23%|████████████████████████████████▊                                                                                                            | 1162/4993 [1:18:15<4:07:28,  3.88s/it] 23%|████████████████████████████████▊                                                                                                            | 1163/4993 [1:18:19<4:09:46,  3.91s/it] 23%|████████████████████████████████▊                                                                                                            | 1164/4993 [1:18:23<4:01:50,  3.79s/it] 23%|████████████████████████████████▉                                                                                                            | 1165/4993 [1:18:26<4:02:25,  3.80s/it] 23%|████████████████████████████████▉                                                                                                            | 1166/4993 [1:18:31<4:07:56,  3.89s/it] 23%|████████████████████████████████▉                                                                                                            | 1167/4993 [1:18:34<4:08:54,  3.90s/it] 23%|████████████████████████████████▉                                                                                                            | 1168/4993 [1:18:39<4:14:11,  3.99s/it] 23%|█████████████████████████████████                                                                                                            | 1169/4993 [1:18:43<4:18:03,  4.05s/it] 23%|█████████████████████████████████                                                                                                            | 1170/4993 [1:18:47<4:19:09,  4.07s/it]                                                                                                                                                                                          {'loss': 0.5685, 'grad_norm': 2.125, 'learning_rate': 4.433893746728088e-06, 'memory/max_active (GiB)': 44.5, 'memory/max_allocated (GiB)': 44.5, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1865.92, 'epoch': 2.34}
+ 23%|█████████████████████████████████                                                                                                            | 1170/4993 [1:18:47<4:19:09,  4.07s/it] 23%|█████████████████████████████████                                                                                                            | 1171/4993 [1:18:51<4:23:07,  4.13s/it] 23%|█████████████████████████████████                                                                                                            | 1172/4993 [1:18:55<4:20:03,  4.08s/it] 23%|█████████████████████████████████                                                                                                            | 1173/4993 [1:18:59<4:23:40,  4.14s/it] 24%|█████████████████████████████████▏                                                                                                           | 1174/4993 [1:19:04<4:24:10,  4.15s/it] 24%|█████████████████████████████████▏                                                                                                           | 1175/4993 [1:19:08<4:25:53,  4.18s/it] 24%|█████████████████████████████████▏                                                                                                           | 1176/4993 [1:19:12<4:14:53,  4.01s/it] 24%|█████████████████████████████████▏                                                                                                           | 1177/4993 [1:19:15<4:12:20,  3.97s/it] 24%|█████████████████████████████████▎                                                                                                           | 1178/4993 [1:19:20<4:15:51,  4.02s/it] 24%|█████████████████████████████████▎                                                                                                           | 1179/4993 [1:19:23<4:11:08,  3.95s/it] 24%|█████████████████████████████████▎                                                                                                           | 1180/4993 [1:19:27<4:09:53,  3.93s/it]                                                                                                                                                                                          {'loss': 0.5681, 'grad_norm': 1.953125, 'learning_rate': 4.423681723010439e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2041.45, 'epoch': 2.36}
+ 24%|█████████████████████████████████▎                                                                                                           | 1180/4993 [1:19:27<4:09:53,  3.93s/it] 24%|█████████████████████████████████▎                                                                                                           | 1181/4993 [1:19:31<4:05:27,  3.86s/it] 24%|█████████████████████████████████▍                                                                                                           | 1182/4993 [1:19:35<4:17:57,  4.06s/it] 24%|█████████████████████████████████▍                                                                                                           | 1183/4993 [1:19:39<4:07:36,  3.90s/it] 24%|█████████████████████████████████▍                                                                                                           | 1184/4993 [1:19:43<4:07:22,  3.90s/it] 24%|█████████████████████████████████▍                                                                                                           | 1185/4993 [1:19:46<4:01:44,  3.81s/it] 24%|█████████████████████████████████▍                                                                                                           | 1186/4993 [1:19:50<4:02:36,  3.82s/it] 24%|█████████████████████████████████▌                                                                                                           | 1187/4993 [1:19:54<4:05:57,  3.88s/it] 24%|█████████████████████████████████▌                                                                                                           | 1188/4993 [1:19:58<4:03:53,  3.85s/it] 24%|█████████████████████████████████▌                                                                                                           | 1189/4993 [1:20:02<4:08:21,  3.92s/it] 24%|█████████████████████████████████▌                                                                                                           | 1190/4993 [1:20:06<4:03:41,  3.84s/it]                                                                                                                                                                                          {'loss': 0.6094, 'grad_norm': 2.171875, 'learning_rate': 4.413390397858792e-06, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1948.4, 'epoch': 2.38}
+ 24%|█████████████████████████████████▌                                                                                                           | 1190/4993 [1:20:06<4:03:41,  3.84s/it] 24%|█████████████████████████████████▋                                                                                                           | 1191/4993 [1:20:09<3:57:06,  3.74s/it] 24%|█████████████████████████████████▋                                                                                                           | 1192/4993 [1:20:14<4:11:04,  3.96s/it] 24%|█████████████████████████████████▋                                                                                                           | 1193/4993 [1:20:18<4:10:29,  3.96s/it] 24%|█████████████████████████████████▋                                                                                                           | 1194/4993 [1:20:22<4:09:37,  3.94s/it] 24%|█████████████████████████████████▋                                                                                                           | 1195/4993 [1:20:25<4:03:15,  3.84s/it] 24%|█████████████████████████████████▊                                                                                                           | 1196/4993 [1:20:29<4:08:24,  3.93s/it] 24%|█████████████████████████████████▊                                                                                                           | 1197/4993 [1:20:33<4:07:36,  3.91s/it] 24%|█████████████████████████████████▊                                                                                                           | 1198/4993 [1:20:38<4:13:31,  4.01s/it] 24%|█████████████████████████████████▊                                                                                                           | 1199/4993 [1:20:41<4:03:50,  3.86s/it] 24%|█████████████████████████████████▉                                                                                                           | 1200/4993 [1:20:45<4:02:28,  3.84s/it]                                                                                                                                                                                          {'loss': 0.559, 'grad_norm': 1.84375, 'learning_rate': 4.403020195520481e-06, 'memory/max_active (GiB)': 40.36, 'memory/max_allocated (GiB)': 40.36, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1864.12, 'epoch': 2.4}
+ 24%|█████████████████████████████████▉                                                                                                           | 1200/4993 [1:20:45<4:02:28,  3.84s/it] 24%|█████████████████████████████████▉                                                                                                           | 1201/4993 [1:20:49<4:06:06,  3.89s/it] 24%|█████████████████████████████████▉                                                                                                           | 1202/4993 [1:20:53<4:04:38,  3.87s/it] 24%|█████████████████████████████████▉                                                                                                           | 1203/4993 [1:20:57<4:09:07,  3.94s/it] 24%|██████████████████████████████████                                                                                                           | 1204/4993 [1:21:01<4:23:10,  4.17s/it] 24%|██████████████████████████████████                                                                                                           | 1205/4993 [1:21:05<4:18:39,  4.10s/it] 24%|██████████████████████████████████                                                                                                           | 1206/4993 [1:21:09<4:14:08,  4.03s/it] 24%|██████████████████████████████████                                                                                                           | 1207/4993 [1:21:13<4:11:02,  3.98s/it] 24%|██████████████████████████████████                                                                                                           | 1208/4993 [1:21:17<4:08:22,  3.94s/it] 24%|██████████████████████████████████▏                                                                                                          | 1209/4993 [1:21:21<4:03:42,  3.86s/it] 24%|██████████████████████████████████▏                                                                                                          | 1210/4993 [1:21:25<4:06:56,  3.92s/it]                                                                                                                                                                                          {'loss': 0.578, 'grad_norm': 1.921875, 'learning_rate': 4.392571543494456e-06, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1868.35, 'epoch': 2.42}
+ 24%|██████████████████████████████████▏                                                                                                          | 1210/4993 [1:21:25<4:06:56,  3.92s/it] 24%|██████████████████████████████████▏                                                                                                          | 1211/4993 [1:21:29<4:15:30,  4.05s/it] 24%|██████████████████████████████████▏                                                                                                          | 1212/4993 [1:21:33<4:10:19,  3.97s/it] 24%|██████████████████████████████████▎                                                                                                          | 1213/4993 [1:21:37<4:07:09,  3.92s/it] 24%|██████████████████████████████████▎                                                                                                          | 1214/4993 [1:21:41<4:12:17,  4.01s/it] 24%|██████████████████████████████████▎                                                                                                          | 1215/4993 [1:21:45<4:11:24,  3.99s/it] 24%|██████████████████████████████████▎                                                                                                          | 1216/4993 [1:21:49<4:15:13,  4.05s/it] 24%|██████████████████████████████████▎                                                                                                          | 1217/4993 [1:21:53<4:17:04,  4.08s/it] 24%|██████████████████████████████████▍                                                                                                          | 1218/4993 [1:21:57<4:13:22,  4.03s/it] 24%|██████████████████████████████████▍                                                                                                          | 1219/4993 [1:22:01<4:06:37,  3.92s/it] 24%|██████████████████████████████████▍                                                                                                          | 1220/4993 [1:22:05<4:06:54,  3.93s/it]                                                                                                                                                                                          {'loss': 0.591, 'grad_norm': 2.125, 'learning_rate': 4.382044872513661e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1912.59, 'epoch': 2.44}
+ 24%|██████████████████████████████████▍                                                                                                          | 1220/4993 [1:22:05<4:06:54,  3.93s/it] 24%|██████████████████████████████████▍                                                                                                          | 1221/4993 [1:22:09<4:12:26,  4.02s/it] 24%|██████████████████████████████████▌                                                                                                          | 1222/4993 [1:22:13<4:10:36,  3.99s/it] 24%|██████████████████████████████████▌                                                                                                          | 1223/4993 [1:22:17<4:10:49,  3.99s/it] 25%|██████████████████████████████████▌                                                                                                          | 1224/4993 [1:22:21<4:04:40,  3.89s/it] 25%|██████████████████████████████████▌                                                                                                          | 1225/4993 [1:22:24<3:58:53,  3.80s/it] 25%|██████████████████████████████████▌                                                                                                          | 1226/4993 [1:22:28<3:56:05,  3.76s/it] 25%|████████████████████��█████████████▋                                                                                                          | 1227/4993 [1:22:32<4:05:40,  3.91s/it] 25%|██████████████████████████████████▋                                                                                                          | 1228/4993 [1:22:36<4:07:28,  3.94s/it] 25%|██████████████████████████████████▋                                                                                                          | 1229/4993 [1:22:40<4:09:52,  3.98s/it] 25%|██████████████████████████████████▋                                                                                                          | 1230/4993 [1:22:44<4:15:48,  4.08s/it]                                                                                                                                                                                          {'loss': 0.6233, 'grad_norm': 1.96875, 'learning_rate': 4.371440616527273e-06, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1799.11, 'epoch': 2.46}
+ 25%|██████████████████████████████████▋                                                                                                          | 1230/4993 [1:22:44<4:15:48,  4.08s/it] 25%|██████████████████████████████████▊                                                                                                          | 1231/4993 [1:22:48<4:06:43,  3.93s/it] 25%|██████████████████████████████████▊                                                                                                          | 1232/4993 [1:22:52<4:06:57,  3.94s/it] 25%|██████████████████████████████████▊                                                                                                          | 1233/4993 [1:22:56<4:02:18,  3.87s/it] 25%|██████████████████████████████████▊                                                                                                          | 1234/4993 [1:22:59<4:00:25,  3.84s/it] 25%|██████████████████████████████████▉                                                                                                          | 1235/4993 [1:23:03<3:52:07,  3.71s/it] 25%|██████████████████████████████████▉                                                                                                          | 1236/4993 [1:23:07<3:53:56,  3.74s/it] 25%|██████████████████████████████████▉                                                                                                          | 1237/4993 [1:23:10<3:51:41,  3.70s/it] 25%|██████████████████████████████████▉                                                                                                          | 1238/4993 [1:23:14<3:50:50,  3.69s/it] 25%|██████████████████████████████████▉                                                                                                          | 1239/4993 [1:23:18<4:01:01,  3.85s/it] 25%|███████████████████████████████████                                                                                                          | 1240/4993 [1:23:22<3:58:42,  3.82s/it]                                                                                                                                                                                          {'loss': 0.5926, 'grad_norm': 2.078125, 'learning_rate': 4.360759212682818e-06, 'memory/max_active (GiB)': 40.32, 'memory/max_allocated (GiB)': 40.32, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1783.49, 'epoch': 2.48}
+ 25%|███████████████████████████████████                                                                                                          | 1240/4993 [1:23:22<3:58:42,  3.82s/it] 25%|███████████████████████████████████                                                                                                          | 1241/4993 [1:23:26<4:07:56,  3.97s/it] 25%|███████████████████████████████████                                                                                                          | 1242/4993 [1:23:30<4:03:22,  3.89s/it] 25%|███████████████████████████████████                                                                                                          | 1243/4993 [1:23:34<4:05:00,  3.92s/it] 25%|███████████████████████████████████▏                                                                                                         | 1244/4993 [1:23:38<4:01:13,  3.86s/it] 25%|███████████████████████████████████▏                                                                                                         | 1245/4993 [1:23:41<4:01:05,  3.86s/it] 25%|███████████████████████████████████▏                                                                                                         | 1246/4993 [1:23:45<4:03:48,  3.90s/it] 25%|███████████████████████████████████▏                                                                                                         | 1247/4993 [1:23:49<3:59:19,  3.83s/it] 25%|███████████████████████████████████▏                                                                                                         | 1248/4993 [1:23:53<4:00:34,  3.85s/it] 25%|███████████████████████████████████▎                                                                                                         | 1249/4993 [1:23:57<4:03:30,  3.90s/it] 25%|███████████████████████████████████▎                                                                                                         | 1250/4993 [1:24:01<3:57:41,  3.81s/it]                                                                                                                                                                                          {'loss': 0.5744, 'grad_norm': 2.171875, 'learning_rate': 4.350001101308149e-06, 'memory/max_active (GiB)': 40.32, 'memory/max_allocated (GiB)': 40.32, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2040.99, 'epoch': 2.5}
+ 25%|███████████████████████████████████▎                                                                                                         | 1250/4993 [1:24:01<3:57:41,  3.81s/it] 25%|███████████████████████████████████▎                                                                                                         | 1251/4993 [1:24:04<3:57:18,  3.81s/it] 25%|███████████████████████████████████▎                                                                                                         | 1252/4993 [1:24:08<3:59:41,  3.84s/it] 25%|███████████████████████████████████▍                                                                                                         | 1253/4993 [1:24:12<4:03:23,  3.90s/it] 25%|███████████████████████████████████▍                                                                                                         | 1254/4993 [1:24:17<4:11:39,  4.04s/it] 25%|███████████████████████████████████▍                                                                                                         | 1255/4993 [1:24:21<4:14:29,  4.08s/it] 25%|███████████████████████████████████▍                                                                                                         | 1256/4993 [1:24:25<4:11:17,  4.03s/it] 25%|███████████████████████████████████▍                                                                                                         | 1257/4993 [1:24:29<4:05:05,  3.94s/it] 25%|███████████████████████████████████▌                                                                                                         | 1258/4993 [1:24:32<4:02:34,  3.90s/it] 25%|███████████████████████████████████▌                                                                                                         | 1259/4993 [1:24:36<3:54:18,  3.77s/it] 25%|███████████████████████████████████▌                                                                                                         | 1260/4993 [1:24:40<4:04:03,  3.92s/it]                                                                                                                                                                                          {'loss': 0.5957, 'grad_norm': 1.78125, 'learning_rate': 4.339166725893295e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1696.61, 'epoch': 2.52}
+ 25%|███████████████████████████████████▌                                                                                                         | 1260/4993 [1:24:40<4:04:03,  3.92s/it] 25%|███████████████████████████████████▌                                                                                                         | 1261/4993 [1:24:44<4:03:09,  3.91s/it] 25%|███████████████████████████████████▋                                                                                                         | 1262/4993 [1:24:48<3:58:12,  3.83s/it] 25%|███████████████████████████████████▋                                                                                                         | 1263/4993 [1:24:51<3:54:34,  3.77s/it] 25%|███████████████████████████████████▋                                                                                                         | 1264/4993 [1:24:55<3:52:45,  3.75s/it] 25%|███████████████████████████████████▋                                                                                                         | 1265/4993 [1:24:59<3:53:44,  3.76s/it] 25%|███████████████████████████████████▊                                                                                                         | 1266/4993 [1:25:03<3:57:10,  3.82s/it] 25%|███████████████████████████████████▊                                                                                                         | 1267/4993 [1:25:07<3:57:15,  3.82s/it] 25%|███████████████████████████████████▊                                                                                                         | 1268/4993 [1:25:11<4:02:24,  3.90s/it] 25%|███████████████████████████████████▊                                                                                                         | 1269/4993 [1:25:15<4:03:37,  3.93s/it] 25%|███████████████████████████████████▊                                                                                                         | 1270/4993 [1:25:19<4:03:08,  3.92s/it]                                                                                                                                                                                          {'loss': 0.575, 'grad_norm': 1.7578125, 'learning_rate': 4.328256533072171e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1880.59, 'epoch': 2.54}
+ 25%|███████████████████████████████████▊                                                                                                         | 1270/4993 [1:25:19<4:03:08,  3.92s/it] 25%|███████████████████████████████████▉                                                                                                         | 1271/4993 [1:25:23<4:05:19,  3.95s/it] 25%|███████████████████████████████████▉                                                                                                         | 1272/4993 [1:25:27<4:07:52,  4.00s/it] 25%|███████████████████████████████████▉                                                                                                         | 1273/4993 [1:25:31<4:15:49,  4.13s/it] 26%|███████████████████████████████████▉                                                                                                         | 1274/4993 [1:25:35<4:14:24,  4.10s/it] 26%|████████████████████████████████████                                                                                                         | 1275/4993 [1:25:39<4:18:14,  4.17s/it] 26%|████████████████████████████████████                                                                                                         | 1276/4993 [1:25:43<4:10:18,  4.04s/it] 26%|████████████████████████████████████                                                                                                         | 1277/4993 [1:25:47<4:05:02,  3.96s/it] 26%|████████████████████████████████████                                                                                                         | 1278/4993 [1:25:51<3:58:41,  3.86s/it] 26%|████████████████████████████████████                                                                                                         | 1279/4993 [1:25:54<3:52:47,  3.76s/it] 26%|████████████████████████████████████▏                                                                                                        | 1280/4993 [1:25:58<3:54:07,  3.78s/it]                                                                                                                                                                                          {'loss': 0.5896, 'grad_norm': 2.640625, 'learning_rate': 4.317270972604179e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1887.6, 'epoch': 2.56}
+ 26%|████████████████████████████████████▏                                                                                                        | 1280/4993 [1:25:58<3:54:07,  3.78s/it] 26%|████████████████████████████████████▏                                                                                                        | 1281/4993 [1:26:02<3:56:03,  3.82s/it] 26%|████████████████████████████████████▏                                                                                                        | 1282/4993 [1:26:06<4:02:16,  3.92s/it] 26%|████████████████████████████████████▏                                                                                                        | 1283/4993 [1:26:10<4:08:46,  4.02s/it] 26%|████████████████████████████████████▎                                                                                                        | 1284/4993 [1:26:14<4:03:40,  3.94s/it] 26%|████████████████████████████████████▎                                                                                                        | 1285/4993 [1:26:18<3:57:34,  3.84s/it] 26%|████████████████████████████████████▎                                                                                                        | 1286/4993 [1:26:22<3:59:38,  3.88s/it] 26%|████████████████████████████████████▎                                                                                                        | 1287/4993 [1:26:25<3:58:33,  3.86s/it] 26%|████████████████████████████████████▎                                                                                                        | 1288/4993 [1:26:29<3:55:31,  3.81s/it] 26%|████████████████████████████████████▍                                                                                                        | 1289/4993 [1:26:33<3:51:23,  3.75s/it] 26%|█████████████████████████████████��██▍                                                                                                        | 1290/4993 [1:26:37<3:57:00,  3.84s/it]                                                                                                                                                                                          {'loss': 0.6052, 'grad_norm': 2.03125, 'learning_rate': 4.306210497355656e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1885.33, 'epoch': 2.58}
+ 26%|████████████████████████████████████▍                                                                                                        | 1290/4993 [1:26:37<3:57:00,  3.84s/it] 26%|████████████████████████████████████▍                                                                                                        | 1291/4993 [1:26:41<4:00:47,  3.90s/it] 26%|████████████████████████████████████▍                                                                                                        | 1292/4993 [1:26:45<4:01:08,  3.91s/it] 26%|████████████████████████████████████▌                                                                                                        | 1293/4993 [1:26:49<4:09:22,  4.04s/it] 26%|████████████████████████████████████▌                                                                                                        | 1294/4993 [1:26:53<4:07:12,  4.01s/it] 26%|████████████████████████████████████▌                                                                                                        | 1295/4993 [1:26:58<4:18:53,  4.20s/it] 26%|████████████████████████████████████▌                                                                                                        | 1296/4993 [1:27:01<4:06:05,  3.99s/it] 26%|████████████████████████████████████▋                                                                                                        | 1297/4993 [1:27:06<4:16:39,  4.17s/it] 26%|████████████████████████████████████▋                                                                                                        | 1298/4993 [1:27:10<4:15:46,  4.15s/it] 26%|████████████████████████████████████▋                                                                                                        | 1299/4993 [1:27:14<4:11:02,  4.08s/it] 26%|████████████████████████████████████▋                                                                                                        | 1300/4993 [1:27:18<4:07:32,  4.02s/it]                                                                                                                                                                                          {'loss': 0.5373, 'grad_norm': 1.8828125, 'learning_rate': 4.2950755632812126e-06, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2015.68, 'epoch': 2.6}
+ 26%|████████████████████████████████████▋                                                                                                        | 1300/4993 [1:27:18<4:07:32,  4.02s/it] 26%|████████████████████████████████████▋                                                                                                        | 1301/4993 [1:27:22<4:15:50,  4.16s/it] 26%|████████████████████████████████████▊                                                                                                        | 1302/4993 [1:27:26<4:12:35,  4.11s/it] 26%|████████████████████████████████████▊                                                                                                        | 1303/4993 [1:27:30<4:11:33,  4.09s/it] 26%|████████████████████████████████████▊                                                                                                        | 1304/4993 [1:27:34<4:10:50,  4.08s/it] 26%|████████████████████████████████████▊                                                                                                        | 1305/4993 [1:27:38<4:07:01,  4.02s/it] 26%|████████████████████████████████████▉                                                                                                        | 1306/4993 [1:27:42<4:03:40,  3.97s/it] 26%|████████████████████████████████████▉                                                                                                        | 1307/4993 [1:27:47<4:15:44,  4.16s/it] 26%|████████████████████████████████████▉                                                                                                        | 1308/4993 [1:27:50<4:07:53,  4.04s/it] 26%|████████████████████████████████████▉                                                                                                        | 1309/4993 [1:27:54<4:08:14,  4.04s/it] 26%|████████████████████████████████████▉                                                                                                        | 1310/4993 [1:27:58<4:01:03,  3.93s/it]                                                                                                                                                                                          {'loss': 0.5608, 'grad_norm': 2.140625, 'learning_rate': 4.283866629404931e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2110.19, 'epoch': 2.62}
+ 26%|████████████████████████████████████▉                                                                                                        | 1310/4993 [1:27:58<4:01:03,  3.93s/it] 26%|█████████████████████████████████████                                                                                                        | 1311/4993 [1:28:02<3:59:10,  3.90s/it] 26%|█████████████████████████████████████                                                                                                        | 1312/4993 [1:28:06<3:57:48,  3.88s/it] 26%|█████████████████████████████████████                                                                                                        | 1313/4993 [1:28:10<4:03:16,  3.97s/it] 26%|█████████████████████████████████████                                                                                                        | 1314/4993 [1:28:14<4:00:53,  3.93s/it] 26%|█████████████████████████████████████▏                                                                                                       | 1315/4993 [1:28:18<4:00:29,  3.92s/it] 26%|█████████████████████████████████████▏                                                                                                       | 1316/4993 [1:28:22<4:03:53,  3.98s/it] 26%|█████████████████████████████████████▏                                                                                                       | 1317/4993 [1:28:26<4:03:12,  3.97s/it] 26%|█████████████████████████████████████▏                                                                                                       | 1318/4993 [1:28:30<4:03:42,  3.98s/it] 26%|█████████████████████████████████████▏                                                                                                       | 1319/4993 [1:28:33<3:58:00,  3.89s/it] 26%|█████████████████████████████████████▎                                                                                                       | 1320/4993 [1:28:37<4:00:05,  3.92s/it]                                                                                                                                                                                          {'loss': 0.597, 'grad_norm': 2.203125, 'learning_rate': 4.272584157801446e-06, 'memory/max_active (GiB)': 40.36, 'memory/max_allocated (GiB)': 40.36, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1839.87, 'epoch': 2.64}
+ 26%|█████████████████████████████████████▎                                                                                                       | 1320/4993 [1:28:37<4:00:05,  3.92s/it] 26%|█████████████████████████████████████▎                                                                                                       | 1321/4993 [1:28:42<4:07:13,  4.04s/it] 26%|█████████████████████████████████████▎                                                                                                       | 1322/4993 [1:28:46<4:08:31,  4.06s/it] 26%|█████████████████████████████████████▎                                                                                                       | 1323/4993 [1:28:50<4:16:15,  4.19s/it] 27%|█████████████████████████████████████▍                                                                                                       | 1324/4993 [1:28:54<4:14:47,  4.17s/it] 27%|█████████████████████████████████████▍                                                                                                       | 1325/4993 [1:28:58<4:08:15,  4.06s/it] 27%|█████████████████████████████████████▍                                                                                                       | 1326/4993 [1:29:02<4:04:15,  4.00s/it] 27%|█████████████████████████████████████▍                                                                                                       | 1327/4993 [1:29:06<4:04:32,  4.00s/it] 27%|█████████████████████████████████████▌                                                                                                       | 1328/4993 [1:29:10<3:55:26,  3.85s/it] 27%|█████████████████████████████████████▌                                                                                                       | 1329/4993 [1:29:14<3:57:49,  3.89s/it] 27%|█████████████████████████████████████▌                                                                                                       | 1330/4993 [1:29:17<3:52:19,  3.81s/it]                                                                                                                                                                                          {'loss': 0.5984, 'grad_norm': 2.296875, 'learning_rate': 4.261228613576897e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2167.45, 'epoch': 2.66}
+ 27%|█████████████████████████████████████▌                                                                                                       | 1330/4993 [1:29:17<3:52:19,  3.81s/it] 27%|█████████████████████████████████████▌                                                                                                       | 1331/4993 [1:29:21<3:55:21,  3.86s/it] 27%|█████████████████████████████████████▌                                                                                                       | 1332/4993 [1:29:25<4:00:13,  3.94s/it] 27%|█████████████████████████████████████▋                                                                                                       | 1333/4993 [1:29:29<3:58:41,  3.91s/it] 27%|█████████████████████████████████████▋                                                                                                       | 1334/4993 [1:29:33<3:58:15,  3.91s/it] 27%|█████████████████████████████████████▋                                                                                                       | 1335/4993 [1:29:37<4:01:22,  3.96s/it] 27%|█████████████████████████████████████▋                                                                                                       | 1336/4993 [1:29:41<4:06:01,  4.04s/it] 27%|█████████████████████████████████████▊                                                                                                       | 1337/4993 [1:29:45<4:01:04,  3.96s/it] 27%|█████████████████████████████████████▊                                                                                                       | 1338/4993 [1:29:49<3:59:31,  3.93s/it] 27%|█████████████████████████████████████▊                                                                                                       | 1339/4993 [1:29:53<3:54:33,  3.85s/it] 27%|█████████████████████████████████████▊                                                                                                       | 1340/4993 [1:29:57<3:58:11,  3.91s/it]                                                                                                                                                                                          {'loss': 0.5953, 'grad_norm': 1.921875, 'learning_rate': 4.249800464849751e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1909.77, 'epoch': 2.68}
+ 27%|█████████████████████████████████████▊                                                                                                       | 1340/4993 [1:29:57<3:58:11,  3.91s/it] 27%|█████████████████████████████████████▊                                                                                                       | 1341/4993 [1:30:01<4:01:07,  3.96s/it] 27%|█████████████████████████████████████▉                                                                                                       | 1342/4993 [1:30:05<4:02:22,  3.98s/it] 27%|█████████████████████████████████████▉                                                                                                       | 1343/4993 [1:30:09<4:01:49,  3.98s/it] 27%|█████████████████████████████████████▉                                                                                                       | 1344/4993 [1:30:13<3:59:16,  3.93s/it] 27%|█████████████████████████████████████▉                                                                                                       | 1345/4993 [1:30:17<3:58:56,  3.93s/it] 27%|██████████████████████████████████████                                                                                                       | 1346/4993 [1:30:21<4:01:25,  3.97s/it] 27%|██████████████████████████████████████                                                                                                       | 1347/4993 [1:30:24<3:57:54,  3.92s/it] 27%|██████████████████████████████████████                                                                                                       | 1348/4993 [1:30:28<3:57:38,  3.91s/it] 27%|██████████████████████████████████████                                                                                                       | 1349/4993 [1:30:32<3:58:26,  3.93s/it] 27%|██████████████████████████████████████                                                                                                       | 1350/4993 [1:30:36<3:59:07,  3.94s/it]                                                                                                                                                                                          {'loss': 0.5952, 'grad_norm': 2.796875, 'learning_rate': 4.2383001827315076e-06, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1905.06, 'epoch': 2.7}
+ 27%|██████████████████████████████████████                                                                                                       | 1350/4993 [1:30:36<3:59:07,  3.94s/it] 27%|██████████████████████████████████████▏                                                                                                      | 1351/4993 [1:30:40<3:54:08,  3.86s/it] 27%|██████████████████████████████████████▏                                                                                                      | 1352/4993 [1:30:44<3:56:10,  3.89s/it] 27%|██████████████████████████████████████▏                                                                                                      | 1353/4993 [1:30:48<4:02:10,  3.99s/it] 27%|██████████████████████████████████████▏                                                                                                      | 1354/4993 [1:30:52<4:00:53,  3.97s/it] 27%|██████████████████████████████████████▎                                                                                                      | 1355/4993 [1:30:56<4:00:38,  3.97s/it] 27%|██████████████████████████████████████▎                                                                                                      | 1356/4993 [1:30:59<3:50:09,  3.80s/it] 27%|██████████████████████████████████████▎                                                                                                      | 1357/4993 [1:31:03<3:46:04,  3.73s/it] 27%|██████████████████████████████████████▎                                                                                                      | 1358/4993 [1:31:07<3:57:44,  3.92s/it] 27%|██████████████████████████████████████▍                                                                                                      | 1359/4993 [1:31:12<4:03:46,  4.02s/it] 27%|██████████████████████████████████████▍                                                                                                      | 1360/4993 [1:31:16<4:11:16,  4.15s/it]                                                                                                                                                                                          {'loss': 0.5694, 'grad_norm': 1.9765625, 'learning_rate': 4.226728241307278e-06, 'memory/max_active (GiB)': 42.85, 'memory/max_allocated (GiB)': 42.85, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1756.77, 'epoch': 2.72}
+ 27%|██████████████████████████████████████▍                                                                                                      | 1360/4993 [1:31:16<4:11:16,  4.15s/it] 27%|██████████████████████████████████████▍                                                                                                      | 1361/4993 [1:31:20<4:06:35,  4.07s/it] 27%|██████████████████████████████████████▍                                                                                                      | 1362/4993 [1:31:24<4:06:44,  4.08s/it] 27%|██████████████████████████████████████▍                                                                                                      | 1363/4993 [1:31:28<4:13:49,  4.20s/it] 27%|██████████████████████████████████████▌                                                                                                      | 1364/4993 [1:31:32<4:09:26,  4.12s/it] 27%|██████████████████████████████████████▌                                                                                                      | 1365/4993 [1:31:36<4:07:32,  4.09s/it] 27%|██████████████████████████████████████▌                                                                                                      | 1366/4993 [1:31:40<4:02:00,  4.00s/it] 27%|██████████████████████████████████████▌                                                                                                      | 1367/4993 [1:31:44<4:03:14,  4.02s/it] 27%|██████████████████████████████████████▋                                                                                                      | 1368/4993 [1:31:48<3:59:02,  3.96s/it] 27%|██████████████████████████████████████▋                                                                                                      | 1369/4993 [1:31:53<4:08:35,  4.12s/it] 27%|██████████████████████████████████████▋                                                                                                      | 1370/4993 [1:31:56<4:01:15,  4.00s/it]                                                                                                                                                                                          {'loss': 0.5398, 'grad_norm': 2.03125, 'learning_rate': 4.215085117616242e-06, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2241.55, 'epoch': 2.74}
+ 27%|██████████████████████████████████████▋                                                                                                      | 1370/4993 [1:31:56<4:01:15,  4.00s/it] 27%|██████████████████████████████████████▋                                                                                                      | 1371/4993 [1:32:00<4:02:14,  4.01s/it] 27%|██████████████████████████████████████▋                                                                                                      | 1372/4993 [1:32:04<4:03:07,  4.03s/it] 27%|██████████████████████████████████████▊                                                                                                      | 1373/4993 [1:32:09<4:13:42,  4.21s/it] 28%|██████████████████████████████████████▊                                                                                                      | 1374/4993 [1:32:13<4:11:51,  4.18s/it] 28%|██████████████████████████████████████▊                                                                                                      | 1375/4993 [1:32:17<4:06:26,  4.09s/it] 28%|██████████████████████████████████████▊                                                                                                      | 1376/4993 [1:32:21<4:06:25,  4.09s/it] 28%|██████████████████████████████████████▉                                                                                                      | 1377/4993 [1:32:25<3:58:41,  3.96s/it] 28%|██████████████████████████████████████▉                                                                                                      | 1378/4993 [1:32:29<4:00:01,  3.98s/it] 28%|██████████████████████████████████████▉                                                                                                      | 1379/4993 [1:32:33<3:58:01,  3.95s/it] 28%|██████████████████████████████████████▉                                                                                                      | 1380/4993 [1:32:37<3:55:19,  3.91s/it]                                                                                                                                                                                          {'loss': 0.5716, 'grad_norm': 1.875, 'learning_rate': 4.203371291631979e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1990.82, 'epoch': 2.76}
+ 28%|██████████████████████████████████████▉                                                                                                      | 1380/4993 [1:32:37<3:55:19,  3.91s/it] 28%|██████████████████████████████████████▉                                                                                                      | 1381/4993 [1:32:41<4:05:07,  4.07s/it] 28%|███████████████████████████████████████                                                                                                      | 1382/4993 [1:32:45<4:05:00,  4.07s/it] 28%|███████████████████████████████████████                                                                                                      | 1383/4993 [1:32:49<4:02:18,  4.03s/it] 28%|███████████████████████████████████████                                                                                                      | 1384/4993 [1:32:53<3:54:34,  3.90s/it] 28%|███████████████████████████████████████                                                                                                      | 1385/4993 [1:32:56<3:50:19,  3.83s/it] 28%|███████████████████████████████████████▏                                                                                                     | 1386/4993 [1:33:00<3:54:06,  3.89s/it] 28%|███████████████████████████████████████▏                                                                                                     | 1387/4993 [1:33:04<3:56:02,  3.93s/it] 28%|███████████████████████████████████████▏                                                                                                     | 1388/4993 [1:33:08<3:52:54,  3.88s/it] 28%|███████████████████████████████████████▏                                                                                                     | 1389/4993 [1:33:12<3:48:28,  3.80s/it] 28%|███████████████████████████████████████▎                                                                                                     | 1390/4993 [1:33:15<3:44:58,  3.75s/it]                                                                                                                                                                                          {'loss': 0.5896, 'grad_norm': 2.140625, 'learning_rate': 4.191587246242686e-06, 'memory/max_active (GiB)': 39.53, 'memory/max_allocated (GiB)': 39.53, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2003.16, 'epoch': 2.78}
+ 28%|███████████████████████████████████████▎                                                                                                     | 1390/4993 [1:33:15<3:44:58,  3.75s/it] 28%|███████████████████████████████████████▎                                                                                                     | 1391/4993 [1:33:19<3:41:36,  3.69s/it] 28%|███████████████████████████████████████▎                                                                                                     | 1392/4993 [1:33:23<3:48:08,  3.80s/it] 28%|███████████████████████████████████████▎                                                                                                     | 1393/4993 [1:33:27<3:53:02,  3.88s/it] 28%|███████████████████████████████████████▎                                                                                                     | 1394/4993 [1:33:31<3:59:36,  3.99s/it] 28%|███████████████████████████████████████▍                                                                                                     | 1395/4993 [1:33:36<4:09:27,  4.16s/it] 28%|███████████████████████████████████████▍                                                                                                     | 1396/4993 [1:33:40<4:03:17,  4.06s/it] 28%|███████████████████████████████████████▍                                                                                                     | 1397/4993 [1:33:44<4:02:19,  4.04s/it] 28%|███████████████████████████████████████▍                                                                                                     | 1398/4993 [1:33:48<4:08:52,  4.15s/it] 28%|███████████████████████████████████████▌                                                                                                     | 1399/4993 [1:33:52<4:10:25,  4.18s/it] 28%|███████████████████████████████████████▌                                                                                                     | 1400/4993 [1:33:56<4:05:12,  4.09s/it]                                                                                                                                                                                          {'loss': 0.5634, 'grad_norm': 2.09375, 'learning_rate': 4.179733467231269e-06, 'memory/max_active (GiB)': 40.36, 'memory/max_allocated (GiB)': 40.36, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2105.93, 'epoch': 2.8}
+ 28%|███████████████████████████████████████▌                                                                                                     | 1400/4993 [1:33:56<4:05:12,  4.09s/it] 28%|███████████████████████████████████████▌                                                                                                     | 1401/4993 [1:34:00<4:03:59,  4.08s/it] 28%|███████████████████████████████████████▌                                                                                                     | 1402/4993 [1:34:04<3:54:13,  3.91s/it] 28%|███████████████████████████████████████▌                                                                                                     | 1403/4993 [1:34:08<4:04:02,  4.08s/it] 28%|███████████████████████████████████████▋                                                                                                     | 1404/4993 [1:34:12<4:07:24,  4.14s/it] 28%|███████████████████████████████████████▋                                                                                                     | 1405/4993 [1:34:17<4:05:35,  4.11s/it] 28%|███████████████████████████████████████▋                                                                                                     | 1406/4993 [1:34:20<4:00:32,  4.02s/it] 28%|███████████████████████████████████████▋                                                                                                     | 1407/4993 [1:34:25<4:10:10,  4.19s/it] 28%|███████████████████████████████████████▊                                                                                                     | 1408/4993 [1:34:29<4:08:31,  4.16s/it] 28%|███████████████████████████████████████▊                                                                                                     | 1409/4993 [1:34:33<4:03:43,  4.08s/it] 28%|███████████████████████████████████████▊                                                                                                     | 1410/4993 [1:34:37<3:57:13,  3.97s/it]                                                                                                                                                                                          {'loss': 0.6001, 'grad_norm': 2.328125, 'learning_rate': 4.167810443255319e-06, 'memory/max_active (GiB)': 44.5, 'memory/max_allocated (GiB)': 44.5, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2098.83, 'epoch': 2.82}
+ 28%|███████████████████████████████████████▊                                                                                                     | 1410/4993 [1:34:37<3:57:13,  3.97s/it] 28%|███████████████████████████████████████▊                                                                                                     | 1411/4993 [1:34:41<3:56:12,  3.96s/it] 28%|███████████████████████████████████████▊                                                                                                     | 1412/4993 [1:34:45<4:00:12,  4.02s/it] 28%|███████████████████████████████████████▉                                                                                                     | 1413/4993 [1:34:49<3:55:56,  3.95s/it] 28%|███████████████████████████████████████▉                                                                                                     | 1414/4993 [1:34:52<3:52:44,  3.90s/it] 28%|███████████████████████████████████████▉                                                                                                     | 1415/4993 [1:34:57<4:03:01,  4.08s/it] 28%|███████████████████████████████████████▉                                                                                                     | 1416/4993 [1:35:00<3:56:08,  3.96s/it] 28%|████████████████████████████████████████                                                                                                     | 1417/4993 [1:35:05<3:58:26,  4.00s/it] 28%|████████████████████████████████████████                                                                                                     | 1418/4993 [1:35:09<4:04:27,  4.10s/it] 28%|████████████████████████████████████████                                                                                                     | 1419/4993 [1:35:12<3:53:46,  3.92s/it] 28%|████████████████████████████████████████                                                                                                     | 1420/4993 [1:35:16<3:54:09,  3.93s/it]                                                                                                                                                                                          {'loss': 0.5936, 'grad_norm': 2.28125, 'learning_rate': 4.155818665826963e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1943.31, 'epoch': 2.84}
+ 28%|████████████████████████████████████████                                                                                                     | 1420/4993 [1:35:16<3:54:09,  3.93s/it] 28%|████████████████████████████████████████▏                                                                                                    | 1421/4993 [1:35:20<3:57:19,  3.99s/it] 28%|████████████████████████████████████████▏                                                                                                    | 1422/4993 [1:35:24<3:55:57,  3.96s/it] 28%|████████████████████████████████████████▏                                                                                                    | 1423/4993 [1:35:28<3:54:59,  3.95s/it] 29%|████████████████████████████████████████▏                                                                                                    | 1424/4993 [1:35:33<4:03:35,  4.10s/it] 29%|████████████████████████████████████████▏                                                                                                    | 1425/4993 [1:35:37<3:58:57,  4.02s/it] 29%|████████████████████████████████████████▎                                                                                                    | 1426/4993 [1:35:41<4:08:18,  4.18s/it] 29%|████████████████████████████████████████▎                                                                                                    | 1427/4993 [1:35:45<4:05:30,  4.13s/it] 29%|████████████████████████████████████████▎                                                                                                    | 1428/4993 [1:35:49<3:58:49,  4.02s/it] 29%|████████████████████████████████████████▎                                                                                                    | 1429/4993 [1:35:53<3:52:26,  3.91s/it] 29%|████████████████████████████████████████▍                                                                                                    | 1430/4993 [1:35:57<3:53:34,  3.93s/it]                                                                                                                                                                                          {'loss': 0.5832, 'grad_norm': 2.46875, 'learning_rate': 4.143758629292608e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1879.4, 'epoch': 2.86}
+ 29%|████████████████████████████████████████▍                                                                                                    | 1430/4993 [1:35:57<3:53:34,  3.93s/it] 29%|████████████████████████████████████████▍                                                                                                    | 1431/4993 [1:36:01<3:55:26,  3.97s/it] 29%|████████████████████████████████████████▍                                                                                                    | 1432/4993 [1:36:05<4:01:17,  4.07s/it] 29%|████████████████████████████████████████▍                                                                                                    | 1433/4993 [1:36:08<3:50:49,  3.89s/it] 29%|████████████████████████████████████████▍                                                                                                    | 1434/4993 [1:36:12<3:46:13,  3.81s/it] 29%|████████████████████████████████████████▌                                                                                                    | 1435/4993 [1:36:16<3:52:26,  3.92s/it] 29%|████████████████████████████████████████▌                                                                                                    | 1436/4993 [1:36:20<3:47:13,  3.83s/it] 29%|████████████████████████████████████████▌                                                                                                    | 1437/4993 [1:36:24<3:48:40,  3.86s/it] 29%|████████████████████████████████████████▌                                                                                                    | 1438/4993 [1:36:28<3:47:55,  3.85s/it] 29%|████████████████████████████████████████▋                                                                                                    | 1439/4993 [1:36:32<3:52:03,  3.92s/it] 29%|████████████████████████████████████████▋                                                                                                    | 1440/4993 [1:36:35<3:48:51,  3.86s/it]                                                                                                                                                                                          {'loss': 0.5968, 'grad_norm': 2.265625, 'learning_rate': 4.131630830812558e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1965.51, 'epoch': 2.88}
+ 29%|████████████████████████████████████████▋                                                                                                    | 1440/4993 [1:36:35<3:48:51,  3.86s/it] 29%|████████████████████████████████████████▋                                                                                                    | 1441/4993 [1:36:40<3:58:38,  4.03s/it] 29%|████████████████████████████████████████▋                                                                                                    | 1442/4993 [1:36:44<4:05:22,  4.15s/it] 29%|████████████████████████████████████████▋                                                                                                    | 1443/4993 [1:36:48<3:59:48,  4.05s/it] 29%|████████████████████████████████████████▊                                                                                                    | 1444/4993 [1:36:52<4:02:47,  4.10s/it] 29%|████████████████████████████████████████▊                                                                                                    | 1445/4993 [1:36:56<4:01:04,  4.08s/it] 29%|████████████████████████████████████████▊                                                                                                    | 1446/4993 [1:37:01<4:05:05,  4.15s/it] 29%|████████████████████████████████████████▊                                                                                                    | 1447/4993 [1:37:04<3:56:55,  4.01s/it] 29%|████████████████████████████████████████▉                                                                                                    | 1448/4993 [1:37:09<4:03:17,  4.12s/it] 29%|████████████████████████████████████████▉                                                                                                    | 1449/4993 [1:37:13<4:06:25,  4.17s/it] 29%|████████████████████████████████████████▉                                                                                                    | 1450/4993 [1:37:17<4:04:03,  4.13s/it]                                                                                                                                                                                          {'loss': 0.6046, 'grad_norm': 2.328125, 'learning_rate': 4.119435770340521e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1965.28, 'epoch': 2.9}
+ 29%|████████████████████████████████████████▉                                                                                                    | 1450/4993 [1:37:17<4:04:03,  4.13s/it] 29%|████████████████████████████████████████▉                                                                                                    | 1451/4993 [1:37:21<4:02:15,  4.10s/it] 29%|█████████████████████████████████████████                                                                                                    | 1452/4993 [1:37:25<3:55:54,  4.00s/it] 29%|█████████████████████████████████████████                                                                                                    | 1453/4993 [1:37:29<3:59:44,  4.06s/it] 29%|█████████████████████████████████████████                                                                                                    | 1454/4993 [1:37:33<3:59:21,  4.06s/it] 29%|█████████████████████████████████████████                                                                                                    | 1455/4993 [1:37:37<4:02:23,  4.11s/it] 29%|█████████████████████████████████████████                                                                                                    | 1456/4993 [1:37:41<3:57:11,  4.02s/it] 29%|█████████████████████████████████████████▏                                                                                                   | 1457/4993 [1:37:45<4:00:06,  4.07s/it] 29%|█████████████████████████████████████████▏                                                                                                   | 1458/4993 [1:37:49<4:00:38,  4.08s/it] 29%|█████████████████████████████████████████▏                                                                                                   | 1459/4993 [1:37:53<3:52:51,  3.95s/it] 29%|█████████████████████████████████████████▏                                                                                                   | 1460/4993 [1:37:57<3:57:14,  4.03s/it]                                                                                                                                                                                          {'loss': 0.568, 'grad_norm': 1.828125, 'learning_rate': 4.107173950602999e-06, 'memory/max_active (GiB)': 39.54, 'memory/max_allocated (GiB)': 39.54, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1813.65, 'epoch': 2.92}
+ 29%|█████████████████████████████████████████▏                                                                                                   | 1460/4993 [1:37:57<3:57:14,  4.03s/it] 29%|█████████████████████████████████████████▎                                                                                                   | 1461/4993 [1:38:01<3:54:43,  3.99s/it] 29%|█████████████████████████████████████████▎                                                                                                   | 1462/4993 [1:38:05<3:52:13,  3.95s/it] 29%|█████████████████████████████████████████▎                                                                                                   | 1463/4993 [1:38:09<3:51:01,  3.93s/it] 29%|█████████████████████████████████████████▎                                                                                                   | 1464/4993 [1:38:13<3:47:47,  3.87s/it] 29%|█████████████████████████████████████████▎                                                                                                   | 1465/4993 [1:38:17<3:54:57,  4.00s/it] 29%|█████████████████████████████████████████▍                                                                                                   | 1466/4993 [1:38:21<3:58:16,  4.05s/it] 29%|█████████████████████████████████████████▍                                                                                                   | 1467/4993 [1:38:26<4:06:38,  4.20s/it] 29%|█████████████████████████████████████████▍                                                                                                   | 1468/4993 [1:38:29<3:59:12,  4.07s/it] 29%|█████████████████████████████████████████▍                                                                                                   | 1469/4993 [1:38:33<3:55:09,  4.00s/it] 29%|█████████████████████████████████████████▌                                                                                                   | 1470/4993 [1:38:37<3:54:20,  3.99s/it]                                                                                                                                                                                          {'loss': 0.5636, 'grad_norm': 2.03125, 'learning_rate': 4.094845877078564e-06, 'memory/max_active (GiB)': 40.32, 'memory/max_allocated (GiB)': 40.32, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1971.08, 'epoch': 2.94}
+ 29%|█████████████████████████████████████████▌                                                                                                   | 1470/4993 [1:38:37<3:54:20,  3.99s/it] 29%|█████████████████████████████████████████▌                                                                                                   | 1471/4993 [1:38:41<3:53:31,  3.98s/it] 29%|█████████████████████████████████████████▌                                                                                                   | 1472/4993 [1:38:45<3:47:49,  3.88s/it] 30%|█████████████████████████████████████████▌                                                                                                   | 1473/4993 [1:38:48<3:44:35,  3.83s/it] 30%|█████████████████████████████████████████▋                                                                                                   | 1474/4993 [1:38:52<3:43:50,  3.82s/it] 30%|█████████████████████████████████████████▋                                                                                                   | 1475/4993 [1:38:56<3:50:34,  3.93s/it] 30%|█████████████████████████████████████████▋                                                                                                   | 1476/4993 [1:39:01<3:52:14,  3.96s/it] 30%|█████████████████████████████████████████▋                                                                                                   | 1477/4993 [1:39:05<4:02:51,  4.14s/it] 30%|█████████████████████████████████████████▋                                                                                                   | 1478/4993 [1:39:10<4:08:11,  4.24s/it] 30%|█████████████████████████████████████████▊                                                                                                   | 1479/4993 [1:39:14<4:11:56,  4.30s/it] 30%|█████████████████████████████████████████▊                                                                                                   | 1480/4993 [1:39:18<4:02:55,  4.15s/it]                                                                                                                                                                                          {'loss': 0.5881, 'grad_norm': 2.125, 'learning_rate': 4.082452057977018e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2219.49, 'epoch': 2.96}
+ 30%|█████████████████████████████████████████▊                                                                                                   | 1480/4993 [1:39:18<4:02:55,  4.15s/it] 30%|█████████████████████████████████████████▊                                                                                                   | 1481/4993 [1:39:22<4:01:05,  4.12s/it] 30%|█████████████████████████████████████████▊                                                                                                   | 1482/4993 [1:39:26<4:06:01,  4.20s/it] 30%|█████████████████████████████████████████▉                                                                                                   | 1483/4993 [1:39:30<3:57:26,  4.06s/it] 30%|█████████████████████████████████████████▉                                                                                                   | 1484/4993 [1:39:34<3:57:34,  4.06s/it] 30%|█████████████████████████████████████████▉                                                                                                   | 1485/4993 [1:39:38<4:01:26,  4.13s/it] 30%|█████████████████████████████████████████▉                                                                                                   | 1486/4993 [1:39:42<3:53:30,  4.00s/it] 30%|█████████████████████████████████████████▉                                                                                                   | 1487/4993 [1:39:46<3:52:24,  3.98s/it] 30%|██████████████████████████████████████████                                                                                                   | 1488/4993 [1:39:50<3:50:50,  3.95s/it] 30%|██████████████████████████████████████████                                                                                                   | 1489/4993 [1:39:54<3:54:52,  4.02s/it] 30%|██████████████████████████████████████████                                                                                                   | 1490/4993 [1:39:58<3:51:06,  3.96s/it]                                                                                                                                                                                          {'loss': 0.5955, 'grad_norm': 1.9921875, 'learning_rate': 4.069993004218444e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2026.86, 'epoch': 2.98}
+ 30%|██████████████████████████████████████████                                                                                                   | 1490/4993 [1:39:58<3:51:06,  3.96s/it] 30%|██████████████████████████████████████████                                                                                                   | 1491/4993 [1:40:02<4:02:35,  4.16s/it] 30%|██████████████████████████████████████████▏                                                                                                  | 1492/4993 [1:40:06<3:59:40,  4.11s/it] 30%|██████████████████████████████████████████▏                                                                                                  | 1493/4993 [1:40:10<3:50:53,  3.96s/it] 30%|██████████████████████████████████████████▏                                                                                                  | 1494/4993 [1:40:14<3:52:38,  3.99s/it] 30%|██████████████████████████████████████████▏                                                                                                  | 1495/4993 [1:40:18<3:51:37,  3.97s/it] 30%|██████████████████████████████████████████▏                                                                                                  | 1496/4993 [1:40:22<3:58:28,  4.09s/it] 30%|██████████████████████████████████████████▎                                                                                                  | 1497/4993 [1:40:26<3:52:55,  4.00s/it] 30%|██████████████████████████████████████████▎                                                                                                  | 1498/4993 [1:40:30<3:52:13,  3.99s/it] 30%|██████████████████████████████████████████▎                                                                                                  | 1499/4993 [1:40:34<3:53:29,  4.01s/it] 30%|██████████████████████████████████████████▎                                                                                                  | 1500/4993 [1:40:35<3:02:49,  3.14s/it]                                                                                                                                                                                          {'loss': 0.5774, 'grad_norm': 4.25, 'learning_rate': 4.057469229412147e-06, 'memory/max_active (GiB)': 42.85, 'memory/max_allocated (GiB)': 42.85, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 7347.73, 'epoch': 3.0}
+ 30%|██████████████████████████████████████████▎                                                                                                  | 1500/4993 [1:40:35<3:02:49,  3.14s/it][2025-12-23 16:06:56,973] [INFO] [axolotl.core.trainers.base._save:671] [PID:5529] Saving model checkpoint to ./outputs/qwen3-4b-instruct-ded-full-train/checkpoint-1500
+ 30%|█████████��████████████████████████████████                                                                                                  | 1501/4993 [1:41:13<13:03:01, 13.45s/it] 30%|██████████████████████████████████████████                                                                                                  | 1502/4993 [1:41:17<10:22:26, 10.70s/it] 30%|██████████████████████████████████████████▍                                                                                                  | 1503/4993 [1:41:21<8:21:54,  8.63s/it] 30%|██████████████████████████████████████████▍                                                                                                  | 1504/4993 [1:41:25<6:59:43,  7.22s/it] 30%|██████████████████████████████████████████▌                                                                                                  | 1505/4993 [1:41:29<6:00:14,  6.20s/it] 30%|██████████████████████████████████████████▌                                                                                                  | 1506/4993 [1:41:33<5:28:33,  5.65s/it] 30%|██████████████████████████████████████████▌                                                                                                  | 1507/4993 [1:41:37<4:59:27,  5.15s/it] 30%|██████████████████████████████████████████▌                                                                                                  | 1508/4993 [1:41:41<4:40:18,  4.83s/it] 30%|██████████████████████████████████████████▌                                                                                                  | 1509/4993 [1:41:45<4:25:31,  4.57s/it] 30%|██████████████████████████████████████████▋                                                                                                  | 1510/4993 [1:41:49<4:22:46,  4.53s/it]                                                                                                                                                                                          {'loss': 0.5891, 'grad_norm': 2.171875, 'learning_rate': 4.044881249835475e-06, 'memory/max_active (GiB)': 40.36, 'memory/max_allocated (GiB)': 40.36, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1696.0, 'epoch': 3.02}
+ 30%|██████████████████████████████████████████▋                                                                                                  | 1510/4993 [1:41:50<4:22:46,  4.53s/it] 30%|██████████████████████████████████████████▋                                                                                                  | 1511/4993 [1:41:54<4:16:04,  4.41s/it] 30%|██████████████████████████████████████████▋                                                                                                  | 1512/4993 [1:41:58<4:07:10,  4.26s/it] 30%|██████████████████████████████████████████▋                                                                                                  | 1513/4993 [1:42:01<3:58:38,  4.11s/it] 30%|██████████████████████████████████████████▊                                                                                                  | 1514/4993 [1:42:05<3:59:00,  4.12s/it] 30%|██████████████████████████████████████████▊                                                                                                  | 1515/4993 [1:42:10<3:58:06,  4.11s/it] 30%|██████████████████████████████████████████▊                                                                                                  | 1516/4993 [1:42:14<3:59:59,  4.14s/it] 30%|██████████████████████████████████████████▊                                                                                                  | 1517/4993 [1:42:18<3:55:54,  4.07s/it] 30%|██████████████████████████████████████████▊                                                                                                  | 1518/4993 [1:42:21<3:48:43,  3.95s/it] 30%|██████████████████████████████████████████▉                                                                                                  | 1519/4993 [1:42:25<3:50:50,  3.99s/it] 30%|██████████████████████████████████████████▉                                                                                                  | 1520/4993 [1:42:29<3:51:44,  4.00s/it]                                                                                                                                                                                          {'loss': 0.5979, 'grad_norm': 1.953125, 'learning_rate': 4.032229584412542e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1872.73, 'epoch': 3.04}
+ 30%|██████████████████████████████████████████▉                                                                                                  | 1520/4993 [1:42:29<3:51:44,  4.00s/it] 30%|██████████████████████████████████████████▉                                                                                                  | 1521/4993 [1:42:34<4:03:50,  4.21s/it] 30%|██████████████████████████████████████████▉                                                                                                  | 1522/4993 [1:42:38<3:59:37,  4.14s/it] 31%|███████████████████████████████████████████                                                                                                  | 1523/4993 [1:42:42<3:56:00,  4.08s/it] 31%|███████████████████████████████████████████                                                                                                  | 1524/4993 [1:42:46<3:56:46,  4.10s/it] 31%|███████████████████████████████████████████                                                                                                  | 1525/4993 [1:42:50<3:56:08,  4.09s/it] 31%|███████████████████████████████████████████                                                                                                  | 1526/4993 [1:42:54<3:56:08,  4.09s/it] 31%|███████████████████████████████████████████                                                                                                  | 1527/4993 [1:42:59<3:58:30,  4.13s/it] 31%|███████████████████████████████████████████▏                                                                                                 | 1528/4993 [1:43:02<3:52:42,  4.03s/it] 31%|███████████████████████████████████████████▏                                                                                                 | 1529/4993 [1:43:06<3:53:26,  4.04s/it] 31%|███████████████████████████████████████████▏                                                                                                 | 1530/4993 [1:43:11<3:58:50,  4.14s/it]                                                                                                                                                                                          {'loss': 0.6065, 'grad_norm': 2.15625, 'learning_rate': 4.019514754692832e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1804.33, 'epoch': 3.06}
+ 31%|███████████████████████████████████████████▏                                                                                                 | 1530/4993 [1:43:11<3:58:50,  4.14s/it] 31%|███████████████████████████████████████████▏                                                                                                 | 1531/4993 [1:43:15<3:52:36,  4.03s/it] 31%|███████████████████████████████████████████▎                                                                                                 | 1532/4993 [1:43:18<3:49:29,  3.98s/it] 31%|███████████████████████████████████████████▎                                                                                                 | 1533/4993 [1:43:23<3:54:09,  4.06s/it] 31%|███████████████████████████████████████████▎                                                                                                 | 1534/4993 [1:43:27<3:50:51,  4.00s/it] 31%|███████████████████████████████████████████▎                                                                                                 | 1535/4993 [1:43:30<3:46:58,  3.94s/it] 31%|███████████████████████████████████████████▍                                                                                                 | 1536/4993 [1:43:34<3:41:58,  3.85s/it] 31%|███████████████████████████████████████████▍                                                                                                 | 1537/4993 [1:43:38<3:44:31,  3.90s/it] 31%|███████████████████████████████████████████▍                                                                                                 | 1538/4993 [1:43:42<3:46:16,  3.93s/it] 31%|███████████████████████████████████████████▍                                                                                                 | 1539/4993 [1:43:45<3:36:59,  3.77s/it] 31%|███████████████████████████████████████████▍                                                                                                 | 1540/4993 [1:43:49<3:38:41,  3.80s/it]                                                                                                                                                                                          {'loss': 0.5621, 'grad_norm': 1.9375, 'learning_rate': 4.0067372848296995e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1798.83, 'epoch': 3.08}
+ 31%|███████████████████████████████████████████▍                                                                                                 | 1540/4993 [1:43:49<3:38:41,  3.80s/it] 31%|███████████████████████████████████████████▌                                                                                                 | 1541/4993 [1:43:53<3:40:37,  3.83s/it] 31%|███████████████████████████████████████████▌                                                                                                 | 1542/4993 [1:43:57<3:46:48,  3.94s/it] 31%|███████████████████████████████████████████▌                                                                                                 | 1543/4993 [1:44:01<3:44:03,  3.90s/it] 31%|███████████████████████████████████████████▌                                                                                                 | 1544/4993 [1:44:05<3:42:22,  3.87s/it] 31%|███████████████████████████████████████████▋                                                                                                 | 1545/4993 [1:44:09<3:45:15,  3.92s/it] 31%|███████████████████████████████████████████▋                                                                                                 | 1546/4993 [1:44:13<3:47:04,  3.95s/it] 31%|███████████████████████████████████████████▋                                                                                                 | 1547/4993 [1:44:17<3:51:37,  4.03s/it] 31%|███████████████████████████████████████████▋                                                                                                 | 1548/4993 [1:44:21<3:47:44,  3.97s/it] 31%|███████████████████████████████████████████▋                                                                                                 | 1549/4993 [1:44:25<3:41:41,  3.86s/it] 31%|███████████████████████████████████████████▊                                                                                                 | 1550/4993 [1:44:29<3:48:27,  3.98s/it]                                                                                                                                                                                          {'loss': 0.5721, 'grad_norm': 2.28125, 'learning_rate': 3.993897701558764e-06, 'memory/max_active (GiB)': 40.32, 'memory/max_allocated (GiB)': 40.32, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1742.1, 'epoch': 3.1}
+ 31%|███████████████████████████████████████████▊                                                                                                 | 1550/4993 [1:44:29<3:48:27,  3.98s/it] 31%|███████████████████████████████████████████▊                                                                                                 | 1551/4993 [1:44:33<3:45:20,  3.93s/it] 31%|███████████████████████████████████████████▊                                                                                                 | 1552/4993 [1:44:37<3:48:00,  3.98s/it] 31%|███████████████████████████████████████████▊                                                                                                 | 1553/4993 [1:44:40<3:37:43,  3.80s/it] 31%|███████████████████████████████████████████▉                                                                                                 | 1554/4993 [1:44:44<3:32:15,  3.70s/it] 31%|███████████████████████████████████████████▉                                                                                                 | 1555/4993 [1:44:48<3:45:46,  3.94s/it] 31%|███████████████████████████████████████████▉                                                                                                 | 1556/4993 [1:44:52<3:45:21,  3.93s/it] 31%|███████████████████████████████████████████▉                                                                                                 | 1557/4993 [1:44:56<3:43:48,  3.91s/it] 31%|███████████████████████████████████████████▉                                                                                                 | 1558/4993 [1:45:00<3:38:54,  3.82s/it] 31%|████████████████████████████████████████████                                                                                                 | 1559/4993 [1:45:05<3:57:46,  4.15s/it] 31%|████████████████████████████████████████████                                                                                                 | 1560/4993 [1:45:09<4:04:31,  4.27s/it]                                                                                                                                                                                          {'loss': 0.5312, 'grad_norm': 1.625, 'learning_rate': 3.980996534176195e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1765.47, 'epoch': 3.12}
+ 31%|█████████████████████████████████████��██████                                                                                                 | 1560/4993 [1:45:09<4:04:31,  4.27s/it] 31%|████████████████████████████████████████████                                                                                                 | 1561/4993 [1:45:13<3:56:59,  4.14s/it] 31%|████████████████████████████████████████████                                                                                                 | 1562/4993 [1:45:17<3:57:03,  4.15s/it] 31%|████████████████████████████████████████████▏                                                                                                | 1563/4993 [1:45:21<3:53:32,  4.09s/it] 31%|████████████████████████████████████████████▏                                                                                                | 1564/4993 [1:45:25<3:55:17,  4.12s/it] 31%|████████████████████████████████████████████▏                                                                                                | 1565/4993 [1:45:30<4:02:55,  4.25s/it] 31%|████████████████████████████████████████████▏                                                                                                | 1566/4993 [1:45:34<4:04:33,  4.28s/it] 31%|████████████████████████████████████████████▎                                                                                                | 1567/4993 [1:45:38<4:03:07,  4.26s/it] 31%|████████████████████████████████████████████▎                                                                                                | 1568/4993 [1:45:43<4:14:16,  4.45s/it] 31%|████████████████████████████████████████████▎                                                                                                | 1569/4993 [1:45:47<3:59:53,  4.20s/it] 31%|████████████████████████████████████████████▎                                                                                                | 1570/4993 [1:45:50<3:50:09,  4.03s/it]                                                                                                                                                                                          {'loss': 0.6073, 'grad_norm': 2.265625, 'learning_rate': 3.968034314516889e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2279.54, 'epoch': 3.14}
+ 31%|████████████████████████████████████████████▎                                                                                                | 1570/4993 [1:45:51<3:50:09,  4.03s/it] 31%|████████████████████████████████████████████▎                                                                                                | 1571/4993 [1:45:54<3:43:28,  3.92s/it] 31%|████████████████████████████████████████████▍                                                                                                | 1572/4993 [1:45:58<3:43:10,  3.91s/it] 32%|████████████████████████████████████████████▍                                                                                                | 1573/4993 [1:46:02<3:36:12,  3.79s/it] 32%|████████████████████████████████████████████▍                                                                                                | 1574/4993 [1:46:05<3:38:05,  3.83s/it] 32%|████████████████████████████████████████████▍                                                                                                | 1575/4993 [1:46:09<3:33:57,  3.76s/it] 32%|████████████████████████████████��███████████▌                                                                                                | 1576/4993 [1:46:13<3:38:00,  3.83s/it] 32%|████████████████████████████████████████████▌                                                                                                | 1577/4993 [1:46:17<3:37:56,  3.83s/it] 32%|████████████████████████████████████████████▌                                                                                                | 1578/4993 [1:46:21<3:45:28,  3.96s/it] 32%|████████████████████████████████████████████▌                                                                                                | 1579/4993 [1:46:26<3:52:30,  4.09s/it] 32%|████████████████████████████████████████████▌                                                                                                | 1580/4993 [1:46:29<3:43:20,  3.93s/it]                                                                                                                                                                                          {'loss': 0.5779, 'grad_norm': 2.171875, 'learning_rate': 3.955011576932552e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2017.8, 'epoch': 3.16}
+ 32%|████████████████████████████████████████████▌                                                                                                | 1580/4993 [1:46:29<3:43:20,  3.93s/it] 32%|████████████████████████████████████████████▋                                                                                                | 1581/4993 [1:46:33<3:47:45,  4.01s/it] 32%|████████████████████████████████████████████▋                                                                                                | 1582/4993 [1:46:37<3:46:23,  3.98s/it] 32%|████████████████████████████████████████████▋                                                                                                | 1583/4993 [1:46:41<3:45:06,  3.96s/it] 32%|████████████████████████████████████████████▋                                                                                                | 1584/4993 [1:46:45<3:51:32,  4.08s/it] 32%|████████████████████████████████████████████▊                                                                                                | 1585/4993 [1:46:50<3:51:22,  4.07s/it] 32%|████████████████████████████████████████████▊                                                                                                | 1586/4993 [1:46:53<3:44:09,  3.95s/it] 32%|████████████████████████████████████████████▊                                                                                                | 1587/4993 [1:46:57<3:45:03,  3.96s/it] 32%|████████████████████████████████████████████▊                                                                                                | 1588/4993 [1:47:01<3:43:47,  3.94s/it] 32%|████████████████████████████████████████████▊                                                                                                | 1589/4993 [1:47:05<3:49:31,  4.05s/it] 32%|████████████████████████████████████████████▉                                                                                                | 1590/4993 [1:47:09<3:50:22,  4.06s/it]                                                                                                                                                                                          {'loss': 0.6087, 'grad_norm': 1.8984375, 'learning_rate': 3.941928858269663e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1843.62, 'epoch': 3.18}
+ 32%|████████████████████████████████████████████▉                                                                                                | 1590/4993 [1:47:09<3:50:22,  4.06s/it] 32%|████████████████████████████████████████████▉                                                                                                | 1591/4993 [1:47:13<3:44:45,  3.96s/it] 32%|████████████████████████████████████████████▉                                                                                                | 1592/4993 [1:47:17<3:47:24,  4.01s/it] 32%|████████████████████████████████████████████▉                                                                                                | 1593/4993 [1:47:22<3:52:42,  4.11s/it] 32%|█████████████████████████████████████████████                                                                                                | 1594/4993 [1:47:26<3:56:20,  4.17s/it] 32%|█████████████████████████████████████████████                                                                                                | 1595/4993 [1:47:30<3:51:12,  4.08s/it] 32%|█████████████████████████████████████████████                                                                                                | 1596/4993 [1:47:34<3:54:38,  4.14s/it] 32%|█████████████████████████████████████████████                                                                                                | 1597/4993 [1:47:38<3:53:49,  4.13s/it] 32%|█████████████████████████████████████████████▏                                                                                               | 1598/4993 [1:47:42<3:48:04,  4.03s/it] 32%|█████████████████████████████████████████████▏                                                                                               | 1599/4993 [1:47:46<3:47:24,  4.02s/it] 32%|█████████████████████████████████████████████▏                                                                                               | 1600/4993 [1:47:50<3:41:15,  3.91s/it]                                                                                                                                                                                          {'loss': 0.5643, 'grad_norm': 2.0625, 'learning_rate': 3.928786697847353e-06, 'memory/max_active (GiB)': 40.36, 'memory/max_allocated (GiB)': 40.36, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2077.86, 'epoch': 3.2}
+ 32%|█████████████████████████████████████████████▏                                                                                               | 1600/4993 [1:47:50<3:41:15,  3.91s/it] 32%|█████████████████████████████████████████████▏                                                                                               | 1601/4993 [1:47:54<3:46:10,  4.00s/it] 32%|█████████████████████████████████████████████▏                                                                                               | 1602/4993 [1:47:58<3:50:14,  4.07s/it] 32%|█████████████████████████████████████████████▎                                                                                               | 1603/4993 [1:48:02<3:48:32,  4.04s/it] 32%|█████████████████████████████████████████████▎                                                                                               | 1604/4993 [1:48:06<3:43:21,  3.95s/it] 32%|█████████████████████████████████████████████▎                                                                                               | 1605/4993 [1:48:10<3:39:01,  3.88s/it] 32%|█████████████████████████████████████████████▎                                                                                               | 1606/4993 [1:48:13<3:37:32,  3.85s/it] 32%|█████████████████████████████████████████████▍                                                                                               | 1607/4993 [1:48:17<3:36:46,  3.84s/it] 32%|█████████████████████████████████████████████▍                                                                                               | 1608/4993 [1:48:21<3:40:33,  3.91s/it] 32%|█████████████████████████████████████████████▍                                                                                               | 1609/4993 [1:48:25<3:45:44,  4.00s/it] 32%|█████████████████████████████████████████████▍                                                                                               | 1610/4993 [1:48:30<3:48:34,  4.05s/it]                                                                                                                                                                                          {'loss': 0.5425, 'grad_norm': 2.015625, 'learning_rate': 3.915585637435165e-06, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1834.84, 'epoch': 3.22}
+ 32%|█████████████████████████████████████████████▍                                                                                               | 1610/4993 [1:48:30<3:48:34,  4.05s/it] 32%|█████████████████████████████████████████████▍                                                                                               | 1611/4993 [1:48:33<3:43:14,  3.96s/it] 32%|█████████████████████████████████████████████▌                                                                                               | 1612/4993 [1:48:37<3:45:52,  4.01s/it] 32%|█████████████████████████████████████████████▌                                                                                               | 1613/4993 [1:48:41<3:44:52,  3.99s/it] 32%|█████████████████████████████████████████████▌                                                                                               | 1614/4993 [1:48:45<3:44:39,  3.99s/it] 32%|█████████████████████████████████████████████▌                                                                                               | 1615/4993 [1:48:50<3:54:10,  4.16s/it] 32%|█████████████████████████████████████████████▋                                                                                               | 1616/4993 [1:48:54<3:50:25,  4.09s/it] 32%|█████████████████████████████████████████████▋                                                                                               | 1617/4993 [1:48:58<3:46:33,  4.03s/it] 32%|█████████████████████████████████████████████▋                                                                                               | 1618/4993 [1:49:02<3:49:45,  4.08s/it] 32%|█████████████████████████████████████████████▋                                                                                               | 1619/4993 [1:49:06<3:44:37,  3.99s/it] 32%|█████████████████████████████████████████████▋                                                                                               | 1620/4993 [1:49:10<3:48:30,  4.06s/it]                                                                                                                                                                                          {'loss': 0.581, 'grad_norm': 1.6875, 'learning_rate': 3.902326221230719e-06, 'memory/max_active (GiB)': 40.36, 'memory/max_allocated (GiB)': 40.36, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1889.63, 'epoch': 3.24}
+ 32%|█████████████████████████████████████████████▋                                                                                               | 1620/4993 [1:49:10<3:48:30,  4.06s/it] 32%|█████████████████████████████████████████████▊                                                                                               | 1621/4993 [1:49:14<3:54:11,  4.17s/it] 32%|█████████████████████████████████████████████▊                                                                                               | 1622/4993 [1:49:19<3:53:06,  4.15s/it] 33%|█████████████████████████████████████████████▊                                                                                               | 1623/4993 [1:49:23<3:51:41,  4.13s/it] 33%|█████████████████████████████████████████████▊                                                                                               | 1624/4993 [1:49:27<3:56:15,  4.21s/it] 33%|█████████████████████████████████████████████▉                                                                                               | 1625/4993 [1:49:31<3:52:37,  4.14s/it] 33%|█████████████████████████████████████████████▉                                                                                               | 1626/4993 [1:49:35<3:50:50,  4.11s/it] 33%|█████████████████████████████████████████████▉                                                                                               | 1627/4993 [1:49:39<3:45:37,  4.02s/it] 33%|█████████████████████████████████████████████▉                                                                                               | 1628/4993 [1:49:42<3:37:11,  3.87s/it] 33%|██████████████████████████████████████████████                                                                                               | 1629/4993 [1:49:47<3:42:05,  3.96s/it] 33%|██████████████████████████████████████████████                                                                                               | 1630/4993 [1:49:50<3:40:34,  3.94s/it]                                                                                                                                                                                          {'loss': 0.5882, 'grad_norm': 2.140625, 'learning_rate': 3.889008995837288e-06, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2012.1, 'epoch': 3.26}
+ 33%|██████████████████████████████████████████████                                                                                               | 1630/4993 [1:49:50<3:40:34,  3.94s/it] 33%|██████████████████████████████████████████████                                                                                               | 1631/4993 [1:49:54<3:41:30,  3.95s/it] 33%|██████████████████████████████████████████████                                                                                               | 1632/4993 [1:49:59<3:46:02,  4.04s/it] 33%|██████████████████████████████████████████████                                                                                               | 1633/4993 [1:50:02<3:40:24,  3.94s/it] 33%|██████████████████████████████████████████████▏                                                                                              | 1634/4993 [1:50:06<3:39:26,  3.92s/it] 33%|██████████████████████████████████████████████▏                                                                                              | 1635/4993 [1:50:10<3:43:45,  4.00s/it] 33%|██████████████████████████████████████████████▏                                                                                              | 1636/4993 [1:50:15<3:45:36,  4.03s/it] 33%|██████████████████████████████████████████████▏                                                                                              | 1637/4993 [1:50:18<3:43:54,  4.00s/it] 33%|██████████████████████████████████████████████▎                                                                                              | 1638/4993 [1:50:22<3:39:21,  3.92s/it] 33%|██████████████████████████████████████████████▎                                                                                              | 1639/4993 [1:50:26<3:42:31,  3.98s/it] 33%|██████████████████████████████████████████████▎                                                                                              | 1640/4993 [1:50:30<3:45:29,  4.03s/it]                                                                                                                                                                                          {'loss': 0.5708, 'grad_norm': 1.9609375, 'learning_rate': 3.875634510241252e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1831.31, 'epoch': 3.28}
+ 33%|██████████████████████████████████████████████▎                                                                                              | 1640/4993 [1:50:30<3:45:29,  4.03s/it] 33%|██████████████████████████████████████████████▎                                                                                              | 1641/4993 [1:50:34<3:38:52,  3.92s/it] 33%|██████████████████████████████████████████████▎                                                                                              | 1642/4993 [1:50:38<3:41:50,  3.97s/it] 33%|██████████████████████████████████████████████▍                                                                                              | 1643/4993 [1:50:42<3:42:26,  3.98s/it] 33%|██████████████████████████████████████████████▍                                                                                              | 1644/4993 [1:50:46<3:42:43,  3.99s/it] 33%|██████████████████████████████████████████████▍                                                                                              | 1645/4993 [1:50:51<3:51:52,  4.16s/it] 33%|██████████████████████████████████████████████▍                                                                                              | 1646/4993 [1:50:55<3:48:03,  4.09s/it] 33%|██████████████████████████████████████████████▌                                                                                              | 1647/4993 [1:50:59<3:51:20,  4.15s/it] 33%|██████████████████████████████████████████████▌                                                                                              | 1648/4993 [1:51:03<3:54:24,  4.20s/it] 33%|██████████████████████████████████████████████▌                                                                                              | 1649/4993 [1:51:07<3:46:04,  4.06s/it] 33%|████████████████████████████████���█████████████▌                                                                                              | 1650/4993 [1:51:11<3:47:44,  4.09s/it]                                                                                                                                                                                          {'loss': 0.5392, 'grad_norm': 2.078125, 'learning_rate': 3.8622033157894765e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1869.01, 'epoch': 3.3}
+ 33%|██████████████████████████████████████████████▌                                                                                              | 1650/4993 [1:51:11<3:47:44,  4.09s/it] 33%|██████████████████████████████████████████████▌                                                                                              | 1651/4993 [1:51:15<3:42:04,  3.99s/it] 33%|██████████████████████████████████████████████▋                                                                                              | 1652/4993 [1:51:19<3:44:27,  4.03s/it] 33%|██████████████████████████████████████████████▋                                                                                              | 1653/4993 [1:51:23<3:45:01,  4.04s/it] 33%|██████████████████████████████████████████████▋                                                                                              | 1654/4993 [1:51:27<3:47:34,  4.09s/it] 33%|██████████████████████████████████████████████▋                                                                                              | 1655/4993 [1:51:31<3:47:10,  4.08s/it] 33%|██████████████████████████████████████████████▊                                                                                              | 1656/4993 [1:51:36<3:48:33,  4.11s/it] 33%|██████████████████████████████████████████████▊                                                                                              | 1657/4993 [1:51:39<3:41:54,  3.99s/it] 33%|██████████████████████████████████████████████▊                                                                                              | 1658/4993 [1:51:43<3:37:49,  3.92s/it] 33%|██████████████████████████████████████████████▊                                                                                              | 1659/4993 [1:51:47<3:40:51,  3.97s/it] 33%|██████████████████████████████████████████████▉                                                                                              | 1660/4993 [1:51:51<3:41:49,  3.99s/it]                                                                                                                                                                                          {'loss': 0.5455, 'grad_norm': 1.7734375, 'learning_rate': 3.848715966166581e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1964.93, 'epoch': 3.32}
+ 33%|██████████████████████████████████████████████▉                                                                                              | 1660/4993 [1:51:51<3:41:49,  3.99s/it] 33%|██████████████████████████████████████████████▉                                                                                              | 1661/4993 [1:51:55<3:39:36,  3.95s/it] 33%|██████████████████████████████████████████████▉                                                                                              | 1662/4993 [1:51:59<3:41:36,  3.99s/it] 33%|█████████████████████████████████████████████��▉                                                                                              | 1663/4993 [1:52:03<3:38:48,  3.94s/it] 33%|██████████████████████████████████████████████▉                                                                                              | 1664/4993 [1:52:07<3:41:19,  3.99s/it] 33%|███████████████████████████████████████████████                                                                                              | 1665/4993 [1:52:11<3:47:43,  4.11s/it] 33%|███████████████████████████████████████████████                                                                                              | 1666/4993 [1:52:15<3:46:20,  4.08s/it] 33%|███████████████████████████████████████████████                                                                                              | 1667/4993 [1:52:19<3:42:46,  4.02s/it] 33%|███████████████████████████████████████████████                                                                                              | 1668/4993 [1:52:23<3:43:01,  4.02s/it] 33%|███████████████████████████████████████████████▏                                                                                             | 1669/4993 [1:52:28<3:44:53,  4.06s/it] 33%|███████████████████████████████████████████████▏                                                                                             | 1670/4993 [1:52:31<3:38:45,  3.95s/it]                                                                                                                                                                                          {'loss': 0.5894, 'grad_norm': 2.046875, 'learning_rate': 3.83517301737211e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2111.24, 'epoch': 3.34}
+ 33%|███████████████████████████████████████████████▏                                                                                             | 1670/4993 [1:52:31<3:38:45,  3.95s/it] 33%|███████████████████████████████████████████████▏                                                                                             | 1671/4993 [1:52:35<3:36:16,  3.91s/it] 33%|███████████████████████████████████████████████▏                                                                                             | 1672/4993 [1:52:39<3:36:54,  3.92s/it] 34%|███████████████████████████████████████████████▏                                                                                             | 1673/4993 [1:52:43<3:36:31,  3.91s/it] 34%|███████████████████████████████████████████████▎                                                                                             | 1674/4993 [1:52:46<3:31:34,  3.82s/it] 34%|███████████████████████████████████████████████▎                                                                                             | 1675/4993 [1:52:50<3:33:27,  3.86s/it] 34%|███████████████████████████████████████████████▎                                                                                             | 1676/4993 [1:52:54<3:32:46,  3.85s/it] 34%|███████████████████████████████████████████████▎                                                                                             | 1677/4993 [1:52:58<3:33:20,  3.86s/it] 34%|███████████████████████████████████████████████▍                                                                                             | 1678/4993 [1:53:02<3:32:26,  3.85s/it] 34%|███████████████████████████████████████████████▍                                                                                             | 1679/4993 [1:53:06<3:37:02,  3.93s/it] 34%|███████████████████████████████████████████████▍                                                                                             | 1680/4993 [1:53:10<3:32:18,  3.85s/it]                                                                                                                                                                                          {'loss': 0.5762, 'grad_norm': 2.046875, 'learning_rate': 3.821575027697621e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1920.29, 'epoch': 3.36}
+ 34%|███████████████████████████████████████████████▍                                                                                             | 1680/4993 [1:53:10<3:32:18,  3.85s/it] 34%|███████████████████████████████████████████████▍                                                                                             | 1681/4993 [1:53:14<3:32:25,  3.85s/it] 34%|███████████████████████████████████████████████▍                                                                                             | 1682/4993 [1:53:17<3:30:59,  3.82s/it] 34%|███████████████████████████████████████████████▌                                                                                             | 1683/4993 [1:53:21<3:34:45,  3.89s/it] 34%|███████████████████████████████████████████████▌                                                                                             | 1684/4993 [1:53:26<3:39:51,  3.99s/it] 34%|███████████████████████████████████████████████▌                                                                                             | 1685/4993 [1:53:29<3:30:29,  3.82s/it] 34%|███████████████████████████████████████████████▌                                                                                             | 1686/4993 [1:53:33<3:28:27,  3.78s/it] 34%|███████████████████████████████████████████████▋                                                                                             | 1687/4993 [1:53:38<3:45:29,  4.09s/it] 34%|███████████████████████████████████████████████▋                                                                                             | 1688/4993 [1:53:42<3:50:19,  4.18s/it] 34%|███████████████████████████████████████████████▋                                                                                             | 1689/4993 [1:53:46<3:47:54,  4.14s/it] 34%|███████████████████████████████████████████████▋                                                                                             | 1690/4993 [1:53:50<3:43:53,  4.07s/it]                                                                                                                                                                                          {'loss': 0.5886, 'grad_norm': 2.1875, 'learning_rate': 3.807922557703658e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2013.22, 'epoch': 3.38}
+ 34%|███████████████████████████████████████████████▋                                                                                             | 1690/4993 [1:53:50<3:43:53,  4.07s/it] 34%|███████████████████████████████████████████████▊                                                                                             | 1691/4993 [1:53:54<3:38:04,  3.96s/it] 34%|█████████████���█████████████████████████████████▊                                                                                             | 1692/4993 [1:53:57<3:33:44,  3.88s/it] 34%|███████████████████████████████████████████████▊                                                                                             | 1693/4993 [1:54:01<3:33:04,  3.87s/it] 34%|███████████████████████████████████████████████▊                                                                                             | 1694/4993 [1:54:05<3:33:10,  3.88s/it] 34%|███████████████████████████████████████████████▊                                                                                             | 1695/4993 [1:54:09<3:35:13,  3.92s/it] 34%|███████████████████████████████████████████████▉                                                                                             | 1696/4993 [1:54:13<3:37:04,  3.95s/it] 34%|███████████████████████████████████████████████▉                                                                                             | 1697/4993 [1:54:17<3:39:11,  3.99s/it] 34%|███████████████████████████████████████████████▉                                                                                             | 1698/4993 [1:54:21<3:37:01,  3.95s/it] 34%|███████████████████████████████████████████████▉                                                                                             | 1699/4993 [1:54:25<3:31:41,  3.86s/it] 34%|████████████████████████████████████████████████                                                                                             | 1700/4993 [1:54:28<3:28:42,  3.80s/it]                                                                                                                                                                                          {'loss': 0.5665, 'grad_norm': 2.1875, 'learning_rate': 3.794216170196657e-06, 'memory/max_active (GiB)': 39.53, 'memory/max_allocated (GiB)': 39.53, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1821.34, 'epoch': 3.4}
+ 34%|████████████████████████████████████████████████                                                                                             | 1700/4993 [1:54:28<3:28:42,  3.80s/it] 34%|████████████████████████████████████████████████                                                                                             | 1701/4993 [1:54:33<3:38:16,  3.98s/it] 34%|████████████████████████████████████████████████                                                                                             | 1702/4993 [1:54:36<3:32:46,  3.88s/it] 34%|████████████████████████████████████████████████                                                                                             | 1703/4993 [1:54:40<3:33:17,  3.89s/it] 34%|████████████████████████████████████████████████                                                                                             | 1704/4993 [1:54:45<3:42:25,  4.06s/it] 34%|████████████████████████████████████████████████▏                                                                                            | 1705/4993 [1:54:48<3:37:24,  3.97s/it] 34%|████████████████████████████████████████████████▏                                                                                            | 1706/4993 [1:54:52<3:36:24,  3.95s/it] 34%|████████████████████████████████████████████████▏                                                                                            | 1707/4993 [1:54:57<3:41:02,  4.04s/it] 34%|████████████████████████████████████████████████▏                                                                                            | 1708/4993 [1:55:01<3:47:38,  4.16s/it] 34%|████████████████████████████████████████████████▎                                                                                            | 1709/4993 [1:55:05<3:39:56,  4.02s/it] 34%|████████████████████████████████████████████████▎                                                                                            | 1710/4993 [1:55:09<3:38:58,  4.00s/it]                                                                                                                                                                                          {'loss': 0.5706, 'grad_norm': 2.03125, 'learning_rate': 3.7804564302057335e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1908.02, 'epoch': 3.42}
+ 34%|████████████████████████████████████████████████▎                                                                                            | 1710/4993 [1:55:09<3:38:58,  4.00s/it] 34%|████████████████████████████████████████████████▎                                                                                            | 1711/4993 [1:55:13<3:36:07,  3.95s/it] 34%|████████████████████████████████████████████████▎                                                                                            | 1712/4993 [1:55:16<3:32:13,  3.88s/it] 34%|████████████████████████████████████████████████▎                                                                                            | 1713/4993 [1:55:20<3:34:09,  3.92s/it] 34%|████████████████████████████████████████████████▍                                                                                            | 1714/4993 [1:55:25<3:46:23,  4.14s/it] 34%|████████████████████████████████████████████████▍                                                                                            | 1715/4993 [1:55:29<3:40:02,  4.03s/it] 34%|████████████████████████████████████████████████▍                                                                                            | 1716/4993 [1:55:33<3:47:18,  4.16s/it] 34%|████████████████████████████████████████████████▍                                                                                            | 1717/4993 [1:55:37<3:38:11,  4.00s/it] 34%|████████████████████████████████████████████████▌                                                                                            | 1718/4993 [1:55:41<3:39:00,  4.01s/it] 34%|████████████████████████████████████████████████▌                                                                                            | 1719/4993 [1:55:45<3:40:05,  4.03s/it] 34%|████████████████████████████████████████████████▌                                                                                            | 1720/4993 [1:55:49<3:37:51,  3.99s/it]                                                                                                                                                                                          {'loss': 0.563, 'grad_norm': 2.1875, 'learning_rate': 3.766643904959394e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1976.68, 'epoch': 3.44}
+ 34%|████████████████████████████████████████████████▌                                                                                            | 1720/4993 [1:55:49<3:37:51,  3.99s/it] 34%|████████████████████████████████████████████████▌                                                                                            | 1721/4993 [1:55:53<3:40:19,  4.04s/it] 34%|████████████████████████████████████████████████▋                                                                                            | 1722/4993 [1:55:57<3:42:37,  4.08s/it] 35%|████████████████████████████████████████████████▋                                                                                            | 1723/4993 [1:56:01<3:35:51,  3.96s/it] 35%|████████████████████████████████████████████████▋                                                                                            | 1724/4993 [1:56:05<3:32:06,  3.89s/it] 35%|████████████████████████████████████████████████▋                                                                                            | 1725/4993 [1:56:09<3:34:21,  3.94s/it] 35%|████████████████████████████████████████████████▋                                                                                            | 1726/4993 [1:56:13<3:34:43,  3.94s/it] 35%|████████████████████████████████████████████████▊                                                                                            | 1727/4993 [1:56:16<3:34:01,  3.93s/it] 35%|████████████████████████████████████████████████▊                                                                                            | 1728/4993 [1:56:20<3:34:03,  3.93s/it] 35%|████████████████████████████████████████████████▊                                                                                            | 1729/4993 [1:56:24<3:34:39,  3.95s/it] 35%|████████████████████████████████████████████████▊                                                                                            | 1730/4993 [1:56:28<3:37:23,  4.00s/it]                                                                                                                                                                                          {'loss': 0.5867, 'grad_norm': 3.875, 'learning_rate': 3.752779163862155e-06, 'memory/max_active (GiB)': 39.53, 'memory/max_allocated (GiB)': 39.53, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1871.05, 'epoch': 3.46}
+ 35%|████████████████████████████████████████████████▊                                                                                            | 1730/4993 [1:56:29<3:37:23,  4.00s/it] 35%|████████████████████████████████████████████████▉                                                                                            | 1731/4993 [1:56:33<3:44:52,  4.14s/it] 35%|████████████████████████████████████████████████▉                                                                                            | 1732/4993 [1:56:37<3:46:47,  4.17s/it] 35%|████████████████████████████████████████████████▉                                                                                            | 1733/4993 [1:56:41<3:46:40,  4.17s/it] 35%|████████████████████████████████████████████████▉                                                                                            | 1734/4993 [1:56:45<3:39:27,  4.04s/it] 35%|████████████████████████████████████████████████▉                                                                                            | 1735/4993 [1:56:49<3:39:22,  4.04s/it] 35%|█████████��███████████████████████████████████████                                                                                            | 1736/4993 [1:56:53<3:35:44,  3.97s/it] 35%|█████████████████████████████████████████████████                                                                                            | 1737/4993 [1:56:57<3:36:26,  3.99s/it] 35%|█████████████████████████████████████████████████                                                                                            | 1738/4993 [1:57:01<3:32:17,  3.91s/it] 35%|█████████████████████████████████████████████████                                                                                            | 1739/4993 [1:57:04<3:24:46,  3.78s/it] 35%|█████████████████████████████████████████████████▏                                                                                           | 1740/4993 [1:57:08<3:26:39,  3.81s/it]                                                                                                                                                                                          {'loss': 0.5522, 'grad_norm': 2.09375, 'learning_rate': 3.738862778471067e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1916.7, 'epoch': 3.48}
+ 35%|█████████████████████████████████████████████████▏                                                                                           | 1740/4993 [1:57:08<3:26:39,  3.81s/it] 35%|█████████████████████████████████████████████████▏                                                                                           | 1741/4993 [1:57:12<3:27:55,  3.84s/it] 35%|█████████████████████████████████████████████████▏                                                                                           | 1742/4993 [1:57:16<3:35:10,  3.97s/it] 35%|█████████████████████████████████████████████████▏                                                                                           | 1743/4993 [1:57:20<3:37:01,  4.01s/it] 35%|█████████████████████████████████████████████████▏                                                                                           | 1744/4993 [1:57:25<3:39:41,  4.06s/it] 35%|█████████████████████████████████████████████████▎                                                                                           | 1745/4993 [1:57:28<3:35:41,  3.98s/it] 35%|█████████████████████████████████████████████████▎                                                                                           | 1746/4993 [1:57:32<3:30:10,  3.88s/it] 35%|█████████████████████████████████████████████████▎                                                                                           | 1747/4993 [1:57:36<3:31:39,  3.91s/it] 35%|█████████████████████████████████████████████████▎                                                                                           | 1748/4993 [1:57:41<3:42:10,  4.11s/it] 35%|█████████████████████████████████████████████████▍                                                                                           | 1749/4993 [1:57:44<3:35:21,  3.98s/it] 35%|█████████████████████████████████████████████████▍                                                                                           | 1750/4993 [1:57:48<3:34:56,  3.98s/it]                                                                                                                                                                                          {'loss': 0.5804, 'grad_norm': 1.9140625, 'learning_rate': 3.7248953224721517e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1888.7, 'epoch': 3.5}
+ 35%|█████████████████████████████████████████████████▍                                                                                           | 1750/4993 [1:57:48<3:34:56,  3.98s/it] 35%|█████████████████████████████████████████████████▍                                                                                           | 1751/4993 [1:57:52<3:29:39,  3.88s/it] 35%|█████████████████████████████████████████████████▍                                                                                           | 1752/4993 [1:57:56<3:32:13,  3.93s/it] 35%|█████████████████████████████████████████████████▌                                                                                           | 1753/4993 [1:58:00<3:35:24,  3.99s/it] 35%|█████████████████████████████████████████████████▌                                                                                           | 1754/4993 [1:58:04<3:32:51,  3.94s/it] 35%|█████████████████████████████████████████████████▌                                                                                           | 1755/4993 [1:58:08<3:36:58,  4.02s/it] 35%|█████████████████████████████████████████████████▌                                                                                           | 1756/4993 [1:58:12<3:35:48,  4.00s/it] 35%|█████████████████████████████████████████████████▌                                                                                           | 1757/4993 [1:58:16<3:40:33,  4.09s/it] 35%|█████████████████████████████████████████████████▋                                                                                           | 1758/4993 [1:58:20<3:33:58,  3.97s/it] 35%|█████████████████████████████████████████████████▋                                                                                           | 1759/4993 [1:58:24<3:33:05,  3.95s/it] 35%|█████████████████████████████████████████████████▋                                                                                           | 1760/4993 [1:58:28<3:34:29,  3.98s/it]                                                                                                                                                                                          {'loss': 0.6085, 'grad_norm': 2.03125, 'learning_rate': 3.710877371656757e-06, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1942.71, 'epoch': 3.52}
+ 35%|█████████████████████████████████████████████████▋                                                                                           | 1760/4993 [1:58:28<3:34:29,  3.98s/it] 35%|█████████████████████████████████████████████████▋                                                                                           | 1761/4993 [1:58:32<3:34:26,  3.98s/it] 35%|█████████████████████████████████████████████████▊                                                                                           | 1762/4993 [1:58:36<3:30:22,  3.91s/it] 35%|█████████████████████████████████████████████████▊                                                                                           | 1763/4993 [1:58:39<3:25:43,  3.82s/it] 35%|█████████████████████████████████████████████████▊                                                                                           | 1764/4993 [1:58:43<3:29:43,  3.90s/it] 35%|█████████████████████████████████████████████████▊                                                                                           | 1765/4993 [1:58:47<3:28:23,  3.87s/it] 35%|█████████████████████████████████████████████████▊                                                                                           | 1766/4993 [1:58:51<3:32:40,  3.95s/it] 35%|█████████████████████████████████████████████████▉                                                                                           | 1767/4993 [1:58:56<3:38:14,  4.06s/it] 35%|█████████████████████████████████████████████████▉                                                                                           | 1768/4993 [1:59:00<3:40:36,  4.10s/it] 35%|█████████████████████████████████████████████████▉                                                                                           | 1769/4993 [1:59:04<3:38:50,  4.07s/it] 35%|█████████████████████████████████████████████████▉                                                                                           | 1770/4993 [1:59:08<3:38:49,  4.07s/it]                                                                                                                                                                                          {'loss': 0.5782, 'grad_norm': 1.765625, 'learning_rate': 3.696809503897817e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1914.63, 'epoch': 3.54}
+ 35%|█████████████████████████████████████████████████▉                                                                                           | 1770/4993 [1:59:08<3:38:49,  4.07s/it] 35%|██████████████████████████████████████████████████                                                                                           | 1771/4993 [1:59:12<3:35:33,  4.01s/it] 35%|██████████████████████████████████████████████████                                                                                           | 1772/4993 [1:59:16<3:33:39,  3.98s/it] 36%|██████████████████████████████████████████████████                                                                                           | 1773/4993 [1:59:20<3:39:12,  4.08s/it] 36%|██████████████████████████████████████████████████                                                                                           | 1774/4993 [1:59:24<3:35:25,  4.02s/it] 36%|██████████████████████████████████████████████████▏                                                                                          | 1775/4993 [1:59:28<3:39:22,  4.09s/it] 36%|██████████████████████████████████████████████████▏                                                                                          | 1776/4993 [1:59:32<3:37:57,  4.07s/it] 36%|██████████████████████████████████████████████████▏                                                                                          | 1777/4993 [1:59:36<3:38:06,  4.07s/it] 36%|██████████████████████████████████████████████████▏                                                                                          | 1778/4993 [1:59:40<3:27:29,  3.87s/it] 36%|██████████████████████████████████████████████████▏                                                                                          | 1779/4993 [1:59:43<3:27:12,  3.87s/it] 36%|██████████████████████████████████████████████████▎                                                                                          | 1780/4993 [1:59:48<3:36:33,  4.04s/it]                                                                                                                                                                                          {'loss': 0.5551, 'grad_norm': 1.671875, 'learning_rate': 3.6826922991260296e-06, 'memory/max_active (GiB)': 39.54, 'memory/max_allocated (GiB)': 39.54, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1670.4, 'epoch': 3.56}
+ 36%|██████████████████████████████████████████████████▎                                                                                          | 1780/4993 [1:59:48<3:36:33,  4.04s/it] 36%|██████████████████████████████████████████████████▎                                                                                          | 1781/4993 [1:59:52<3:37:06,  4.06s/it] 36%|██████████████████████████████████████████████████▎                                                                                          | 1782/4993 [1:59:56<3:33:16,  3.99s/it] 36%|██████████████████████████████████████████████████▎                                                                                          | 1783/4993 [2:00:00<3:33:40,  3.99s/it] 36%|██████████████████████████████████████████████████▍                                                                                          | 1784/4993 [2:00:04<3:31:41,  3.96s/it] 36%|██████████████████████████████████████████████████▍                                                                                          | 1785/4993 [2:00:08<3:35:37,  4.03s/it] 36%|██████████████████████████████████████████████████▍                                                                                          | 1786/4993 [2:00:12<3:32:13,  3.97s/it] 36%|██████████████████████████████████████████████████▍                                                                                          | 1787/4993 [2:00:16<3:30:36,  3.94s/it] 36%|██████████████████████████████████████████████████▍                                                                                          | 1788/4993 [2:00:20<3:29:23,  3.92s/it] 36%|██████████████████████████████████████████████████▌                                                                                          | 1789/4993 [2:00:23<3:29:20,  3.92s/it] 36%|██████████████████████████████████████████████████▌                                                                                          | 1790/4993 [2:00:28<3:37:03,  4.07s/it]                                                                                                                                                                                          {'loss': 0.5771, 'grad_norm': 1.6953125, 'learning_rate': 3.6685263393059534e-06, 'memory/max_active (GiB)': 40.32, 'memory/max_allocated (GiB)': 40.32, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1768.83, 'epoch': 3.58}
+ 36%|██████████████████████████████████████████████████▌                                                                                          | 1790/4993 [2:00:28<3:37:03,  4.07s/it] 36%|██████████████████████████████████████████████████▌                                                                                          | 1791/4993 [2:00:32<3:41:21,  4.15s/it] 36%|███████████████████████████████���██████████████████▌                                                                                          | 1792/4993 [2:00:36<3:33:10,  4.00s/it] 36%|██████████████████████████████████████████████████▋                                                                                          | 1793/4993 [2:00:40<3:34:13,  4.02s/it] 36%|██████████████████████████████████████████████████▋                                                                                          | 1794/4993 [2:00:44<3:34:07,  4.02s/it] 36%|██████████████████████████████████████████████████▋                                                                                          | 1795/4993 [2:00:48<3:41:50,  4.16s/it] 36%|██████████████████████████████████████████████████▋                                                                                          | 1796/4993 [2:00:52<3:39:34,  4.12s/it] 36%|██████████████████████████████████████████████████▋                                                                                          | 1797/4993 [2:00:56<3:33:33,  4.01s/it] 36%|██████████████████████████████████████████████████▊                                                                                          | 1798/4993 [2:01:00<3:34:22,  4.03s/it] 36%|██████████████████████████████████████████████████▊                                                                                          | 1799/4993 [2:01:04<3:29:11,  3.93s/it] 36%|██████████████████████████████████████████████████▊                                                                                          | 1800/4993 [2:01:08<3:34:42,  4.03s/it]                                                                                                                                                                                          {'loss': 0.6059, 'grad_norm': 2.078125, 'learning_rate': 3.654312208412013e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1817.85, 'epoch': 3.6}
+ 36%|██████████████████████████████████████████████████▊                                                                                          | 1800/4993 [2:01:08<3:34:42,  4.03s/it] 36%|██████████████████████████████████████████████████▊                                                                                          | 1801/4993 [2:01:12<3:30:29,  3.96s/it] 36%|██████████████████████████████████████████████████▉                                                                                          | 1802/4993 [2:01:16<3:25:37,  3.87s/it] 36%|██████████████████████████████████████████████████▉                                                                                          | 1803/4993 [2:01:19<3:21:42,  3.79s/it] 36%|██████████████████████████████████████████████████▉                                                                                          | 1804/4993 [2:01:23<3:28:21,  3.92s/it] 36%|██████████████████████████████████████████████████▉                                                                                          | 1805/4993 [2:01:27<3:25:18,  3.86s/it] 36%|███████████████████████████████████████████████████                                                                                          | 1806/4993 [2:01:31<3:29:47,  3.95s/it] 36%|███████████████████████████████████████████████████                                                                                          | 1807/4993 [2:01:36<3:33:07,  4.01s/it] 36%|███████████████████████████████████████████████████                                                                                          | 1808/4993 [2:01:39<3:31:32,  3.99s/it] 36%|███████████████████████████████████████████████████                                                                                          | 1809/4993 [2:01:43<3:31:39,  3.99s/it] 36%|███████████████████████████████████████████████████                                                                                          | 1810/4993 [2:01:48<3:33:12,  4.02s/it]                                                                                                                                                                                          {'loss': 0.577, 'grad_norm': 2.09375, 'learning_rate': 3.6400504924044265e-06, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1842.91, 'epoch': 3.62}
+ 36%|███████████████████████████████████████████████████                                                                                          | 1810/4993 [2:01:48<3:33:12,  4.02s/it] 36%|███████████████████████████████████████████████████▏                                                                                         | 1811/4993 [2:01:52<3:41:36,  4.18s/it] 36%|███████████████████████████████████████████████████▏                                                                                         | 1812/4993 [2:01:56<3:43:34,  4.22s/it] 36%|███████████████████████████████████████████████████▏                                                                                         | 1813/4993 [2:02:00<3:38:26,  4.12s/it] 36%|███████████████████████████████████████████████████▏                                                                                         | 1814/4993 [2:02:05<3:42:55,  4.21s/it] 36%|███████████████████████████████████████████████████▎                                                                                         | 1815/4993 [2:02:08<3:34:58,  4.06s/it] 36%|███████████████████████████████████████████████████▎                                                                                         | 1816/4993 [2:02:12<3:28:42,  3.94s/it] 36%|███████████████████████████████████████████████████▎                                                                                         | 1817/4993 [2:02:16<3:25:55,  3.89s/it] 36%|███████████████████████████████████████████████████▎                                                                                         | 1818/4993 [2:02:20<3:27:17,  3.92s/it] 36%|███████████████████████████████████████████████████▎                                                                                         | 1819/4993 [2:02:24<3:24:06,  3.86s/it] 36%|███████████████████████████████████████████████████▍                                                                                         | 1820/4993 [2:02:27<3:22:07,  3.82s/it]                                                                                                                                                                                          {'loss': 0.5948, 'grad_norm': 2.0625, 'learning_rate': 3.625741779205051e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2108.09, 'epoch': 3.64}
+ 36%|███████████████████████████████████████████████████▍                                                                                         | 1820/4993 [2:02:27<3:22:07,  3.82s/it] 36%|███████████████████████████████████████████████████▍                                                                                         | 1821/4993 [2:02:32<3:37:15,  4.11s/it] 36%|███████████████████████████████████████████████████▍                                                                                         | 1822/4993 [2:02:36<3:33:06,  4.03s/it] 37%|███████████████████████████████████████████████████▍                                                                                         | 1823/4993 [2:02:40<3:36:38,  4.10s/it] 37%|███████████████████████████████████████████████████▌                                                                                         | 1824/4993 [2:02:44<3:35:22,  4.08s/it] 37%|███████████████████████████████████████████████████▌                                                                                         | 1825/4993 [2:02:48<3:31:24,  4.00s/it] 37%|███████████████████████████████████████████████████▌                                                                                         | 1826/4993 [2:02:52<3:33:11,  4.04s/it] 37%|███████████████████████████████████████████████████▌                                                                                         | 1827/4993 [2:02:56<3:25:04,  3.89s/it] 37%|███████████████████████████████████████████████████▌                                                                                         | 1828/4993 [2:03:00<3:38:24,  4.14s/it] 37%|███████████████████████████████████████████████████▋                                                                                         | 1829/4993 [2:03:04<3:31:26,  4.01s/it] 37%|███████████████████████████████████████████████████▋                                                                                         | 1830/4993 [2:03:08<3:30:34,  3.99s/it]                                                                                                                                                                                          {'loss': 0.5708, 'grad_norm': 2.0, 'learning_rate': 3.6113866586731455e-06, 'memory/max_active (GiB)': 40.32, 'memory/max_allocated (GiB)': 40.32, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2036.46, 'epoch': 3.66}
+ 37%|███████████████████████████████████████████████████▋                                                                                         | 1830/4993 [2:03:08<3:30:34,  3.99s/it] 37%|███████████████████████████████████████████████████▋                                                                                         | 1831/4993 [2:03:12<3:29:55,  3.98s/it] 37%|███████████████████████████████████████████████████▋                                                                                         | 1832/4993 [2:03:16<3:24:56,  3.89s/it] 37%|███████████████████████████████████████████████████▊                                                                                         | 1833/4993 [2:03:20<3:26:21,  3.92s/it] 37%|███████████████████████████████████████████████████▊                                                                                         | 1834/4993 [2:03:23<3:22:06,  3.84s/it] 37%|███████████████████████████████████████████████████▊                                                                                         | 1835/4993 [2:03:27<3:23:48,  3.87s/it] 37%|███████████████████████████████████████████████████▊                                                                                         | 1836/4993 [2:03:31<3:24:39,  3.89s/it] 37%|███████████████████████████████████████████████████▉                                                                                         | 1837/4993 [2:03:35<3:27:48,  3.95s/it] 37%|███████████████████████████████████████████████████▉                                                                                         | 1838/4993 [2:03:39<3:26:32,  3.93s/it] 37%|███████████████████████████████████████████████████▉                                                                                         | 1839/4993 [2:03:43<3:27:12,  3.94s/it] 37%|███████████████████████████████████████████████████▉                                                                                         | 1840/4993 [2:03:47<3:29:41,  3.99s/it]                                                                                                                                                                                          {'loss': 0.6045, 'grad_norm': 1.875, 'learning_rate': 3.5969857225810546e-06, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1909.43, 'epoch': 3.68}
+ 37%|███████████████████████████████████████████████████▉                                                                                         | 1840/4993 [2:03:47<3:29:41,  3.99s/it] 37%|███████████████████████████████████████████████████▉                                                                                         | 1841/4993 [2:03:51<3:25:49,  3.92s/it] 37%|████████████████████████████████████████████████████                                                                                         | 1842/4993 [2:03:55<3:27:00,  3.94s/it] 37%|████████████████████████████████████████████████████                                                                                         | 1843/4993 [2:03:59<3:31:21,  4.03s/it] 37%|████████████████████████████████████████████████████                                                                                         | 1844/4993 [2:04:03<3:24:48,  3.90s/it] 37%|████████████████████████████████████████████████████                                                                                         | 1845/4993 [2:04:07<3:27:19,  3.95s/it] 37%|████████████████████████████████████████████████████▏                                                                                        | 1846/4993 [2:04:11<3:32:40,  4.05s/it] 37%|████████████████████████████████████████████████████▏                                                                                        | 1847/4993 [2:04:15<3:34:37,  4.09s/it] 37%|████████████████████████████████████████████████████▏                                                                                        | 1848/4993 [2:04:19<3:31:48,  4.04s/it] 37%|████████████████████████████████████████████████████▏                                                                                        | 1849/4993 [2:04:23<3:28:22,  3.98s/it] 37%|█████████████████████████████████████████��██████████▏                                                                                        | 1850/4993 [2:04:27<3:27:20,  3.96s/it]                                                                                                                                                                                          {'loss': 0.5683, 'grad_norm': 1.9921875, 'learning_rate': 3.582539564589813e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2000.33, 'epoch': 3.7}
+ 37%|████████████████████████████████████████████████████▏                                                                                        | 1850/4993 [2:04:27<3:27:20,  3.96s/it] 37%|████████████████████████████████████████████████████▎                                                                                        | 1851/4993 [2:04:31<3:23:58,  3.90s/it] 37%|████████████████████████████████████████████████████▎                                                                                        | 1852/4993 [2:04:34<3:19:49,  3.82s/it] 37%|████████████████████████████████████████████████████▎                                                                                        | 1853/4993 [2:04:39<3:28:10,  3.98s/it] 37%|████████████████████████████████████████████████████▎                                                                                        | 1854/4993 [2:04:43<3:30:21,  4.02s/it] 37%|████████████████████████████████████████████████████▍                                                                                        | 1855/4993 [2:04:47<3:29:29,  4.01s/it] 37%|████████████████████████████████████████████████████▍                                                                                        | 1856/4993 [2:04:51<3:29:24,  4.01s/it] 37%|████████████████████████████████████████████████████▍                                                                                        | 1857/4993 [2:04:55<3:23:47,  3.90s/it] 37%|████████████████████████████████████████████████████▍                                                                                        | 1858/4993 [2:04:58<3:22:48,  3.88s/it] 37%|████████████████████████████████████████████████████▍                                                                                        | 1859/4993 [2:05:02<3:19:58,  3.83s/it] 37%|████████████████████████████████████████████████████▌                                                                                        | 1860/4993 [2:05:06<3:20:17,  3.84s/it]                                                                                                                                                                                          {'loss': 0.5751, 'grad_norm': 1.8203125, 'learning_rate': 3.5680487802246745e-06, 'memory/max_active (GiB)': 40.32, 'memory/max_allocated (GiB)': 40.32, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1898.39, 'epoch': 3.72}
+ 37%|████████████████████████████████████████████████████▌                                                                                        | 1860/4993 [2:05:06<3:20:17,  3.84s/it] 37%|████████████████████████████████████████████████████▌                                                                                        | 1861/4993 [2:05:10<3:20:42,  3.85s/it] 37%|████████████████████████████████████████████████████▌                                                                                        | 1862/4993 [2:05:14<3:29:46,  4.02s/it] 37%|████████████████████████████████████████████████████▌                                                                                        | 1863/4993 [2:05:18<3:32:34,  4.07s/it] 37%|████████████████████████████████████████████████████▋                                                                                        | 1864/4993 [2:05:22<3:30:14,  4.03s/it] 37%|████████████████████████████████████████████████████▋                                                                                        | 1865/4993 [2:05:27<3:33:09,  4.09s/it] 37%|████████████████████████████████████████████████████▋                                                                                        | 1866/4993 [2:05:30<3:27:34,  3.98s/it] 37%|████████████████████████████████████████████████████▋                                                                                        | 1867/4993 [2:05:34<3:26:35,  3.97s/it] 37%|████████████████████████████████████████████████████▊                                                                                        | 1868/4993 [2:05:38<3:27:11,  3.98s/it] 37%|████████████████████████████████████████████████████▊                                                                                        | 1869/4993 [2:05:42<3:24:18,  3.92s/it] 37%|████████████████████████████████████████████████████▊                                                                                        | 1870/4993 [2:05:46<3:23:13,  3.90s/it]                                                                                                                                                                                          {'loss': 0.5585, 'grad_norm': 1.8984375, 'learning_rate': 3.5535139668505587e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2018.66, 'epoch': 3.74}
+ 37%|████████████████████████████████████████████████████▊                                                                                        | 1870/4993 [2:05:46<3:23:13,  3.90s/it] 37%|████████████████████████████████████████████████████▊                                                                                        | 1871/4993 [2:05:50<3:21:59,  3.88s/it] 37%|████████████████████████████████████████████████████▊                                                                                        | 1872/4993 [2:05:54<3:23:40,  3.92s/it] 38%|████████████████████████████████████████████████████▉                                                                                        | 1873/4993 [2:05:58<3:27:24,  3.99s/it] 38%|████████████████████████████████████████████████████▉                                                                                        | 1874/4993 [2:06:02<3:30:47,  4.06s/it] 38%|████████████████████████████████████████████████████▉                                                                                        | 1875/4993 [2:06:06<3:30:47,  4.06s/it] 38%|████████████████████████████████████████████████████▉                                                                                        | 1876/4993 [2:06:10<3:24:58,  3.95s/it] 38%|█████████████████████████████████████████████████████                                                                                        | 1877/4993 [2:06:14<3:21:49,  3.89s/it] 38%|█████████████████████████████████████████████████████                                                                                        | 1878/4993 [2:06:17<3:20:03,  3.85s/it] 38%|█████████████████████████████████████████████████████                                                                                        | 1879/4993 [2:06:21<3:16:47,  3.79s/it] 38%|█████████████████████████████████████████████████████                                                                                        | 1880/4993 [2:06:25<3:14:46,  3.75s/it]                                                                                                                                                                                          {'loss': 0.5959, 'grad_norm': 2.359375, 'learning_rate': 3.538935723647428e-06, 'memory/max_active (GiB)': 39.53, 'memory/max_allocated (GiB)': 39.53, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1958.16, 'epoch': 3.76}
+ 38%|█████████████████████████████████████████████████████                                                                                        | 1880/4993 [2:06:25<3:14:46,  3.75s/it] 38%|█████████████████████████████████████████████████████                                                                                        | 1881/4993 [2:06:29<3:23:39,  3.93s/it] 38%|█████████████████████████████████████████████████████▏                                                                                       | 1882/4993 [2:06:33<3:25:43,  3.97s/it] 38%|█████████████████████████████████████████████████████▏                                                                                       | 1883/4993 [2:06:37<3:28:51,  4.03s/it] 38%|█████████████████████████████████████████████████████▏                                                                                       | 1884/4993 [2:06:41<3:25:23,  3.96s/it] 38%|█████████████████████████████████████████████████████▏                                                                                       | 1885/4993 [2:06:45<3:24:24,  3.95s/it] 38%|█████████████████████████████████████████████████████▎                                                                                       | 1886/4993 [2:06:49<3:27:32,  4.01s/it] 38%|█████████████████████████████████████████████████████▎                                                                                       | 1887/4993 [2:06:53<3:31:27,  4.08s/it] 38%|█████████████████████████████████████████████████████▎                                                                                       | 1888/4993 [2:06:57<3:24:30,  3.95s/it] 38%|█████████████████████████████████████████████████████▎                                                                                       | 1889/4993 [2:07:01<3:25:50,  3.98s/it] 38%|█████████████████████████████████████████████████████▎                                                                                       | 1890/4993 [2:07:05<3:25:14,  3.97s/it]                                                                                                                                                                                          {'loss': 0.5959, 'grad_norm': 2.0625, 'learning_rate': 3.5243146515855896e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1971.35, 'epoch': 3.78}
+ 38%|███████████████████████████████████████��█████████████▎                                                                                       | 1890/4993 [2:07:05<3:25:14,  3.97s/it] 38%|█████████████████████████████████████████████████████▍                                                                                       | 1891/4993 [2:07:09<3:28:41,  4.04s/it] 38%|█████████████████████████████████████████████████████▍                                                                                       | 1892/4993 [2:07:13<3:27:50,  4.02s/it] 38%|█████████████████████████████████████████████████████▍                                                                                       | 1893/4993 [2:07:17<3:27:43,  4.02s/it] 38%|█████████████████████████████████████████████████████▍                                                                                       | 1894/4993 [2:07:21<3:25:11,  3.97s/it] 38%|█████████████████████████████████████████████████████▌                                                                                       | 1895/4993 [2:07:25<3:27:16,  4.01s/it] 38%|█████████████████████████████████████████████████████▌                                                                                       | 1896/4993 [2:07:29<3:20:29,  3.88s/it] 38%|█████████████████████████████████████████████████████▌                                                                                       | 1897/4993 [2:07:33<3:24:45,  3.97s/it] 38%|█████████████████████████████████████████████████████▌                                                                                       | 1898/4993 [2:07:37<3:26:47,  4.01s/it] 38%|█████████████████████████████████████████████████████▋                                                                                       | 1899/4993 [2:07:41<3:25:41,  3.99s/it] 38%|█████████████████████████████████████████████████████▋                                                                                       | 1900/4993 [2:07:45<3:24:54,  3.98s/it]                                                                                                                                                                                          {'loss': 0.5914, 'grad_norm': 1.9765625, 'learning_rate': 3.509651353400913e-06, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1785.95, 'epoch': 3.8}
+ 38%|█████████████████████████████████████████████████████▋                                                                                       | 1900/4993 [2:07:45<3:24:54,  3.98s/it] 38%|█████████████████████████████████████████████████████▋                                                                                       | 1901/4993 [2:07:49<3:32:51,  4.13s/it] 38%|█████████████████████████████████████████████████████▋                                                                                       | 1902/4993 [2:07:53<3:30:48,  4.09s/it] 38%|█████████████████████████████████████████████████████▋                                                                                       | 1903/4993 [2:07:57<3:27:12,  4.02s/it] 38%|█████████████████████████████████████████████████████▊                                                                                       | 1904/4993 [2:08:01<3:20:07,  3.89s/it] 38%|█████████████████████████████��███████████████████████▊                                                                                       | 1905/4993 [2:08:04<3:12:06,  3.73s/it] 38%|█████████████████████████████████████████████████████▊                                                                                       | 1906/4993 [2:08:09<3:24:45,  3.98s/it] 38%|█████████████████████████████████████████████████████▊                                                                                       | 1907/4993 [2:08:13<3:29:26,  4.07s/it] 38%|█████████████████████████████████████████████████████▉                                                                                       | 1908/4993 [2:08:17<3:24:47,  3.98s/it] 38%|█████████████████████████████████████████████████████▉                                                                                       | 1909/4993 [2:08:21<3:30:48,  4.10s/it] 38%|█████████████████████████████████████████████████████▉                                                                                       | 1910/4993 [2:08:26<3:33:27,  4.15s/it]                                                                                                                                                                                          {'loss': 0.5909, 'grad_norm': 1.6875, 'learning_rate': 3.494946433569993e-06, 'memory/max_active (GiB)': 42.85, 'memory/max_allocated (GiB)': 42.85, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1803.97, 'epoch': 3.82}
+ 38%|█████████████████████████████████████████████████████▉                                                                                       | 1910/4993 [2:08:26<3:33:27,  4.15s/it] 38%|█████████████████████████████████████████████████████▉                                                                                       | 1911/4993 [2:08:29<3:25:32,  4.00s/it] 38%|█████████████████████████████████████████████████████▉                                                                                       | 1912/4993 [2:08:33<3:22:42,  3.95s/it] 38%|██████████████████████████████████████████████████████                                                                                       | 1913/4993 [2:08:37<3:18:28,  3.87s/it] 38%|██████████████████████████████████████████████████████                                                                                       | 1914/4993 [2:08:40<3:17:41,  3.85s/it] 38%|██████████████████████████████████████████████████████                                                                                       | 1915/4993 [2:08:44<3:19:34,  3.89s/it] 38%|██████████████████████████████████████████████████████                                                                                       | 1916/4993 [2:08:48<3:17:01,  3.84s/it] 38%|██████████████████████████████████████████████████████▏                                                                                      | 1917/4993 [2:08:52<3:19:01,  3.88s/it] 38%|██████████████████████████████████████████████████████▏                                                                                      | 1918/4993 [2:08:56<3:15:06,  3.81s/it] 38%|██████████████████████████████████████████████████████▏                                                                                      | 1919/4993 [2:09:00<3:21:38,  3.94s/it] 38%|█████████████████��████████████████████████████████████▏                                                                                      | 1920/4993 [2:09:04<3:25:25,  4.01s/it]                                                                                                                                                                                          {'loss': 0.5852, 'grad_norm': 1.9375, 'learning_rate': 3.4802004982852215e-06, 'memory/max_active (GiB)': 40.36, 'memory/max_allocated (GiB)': 40.36, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1764.7, 'epoch': 3.84}
+ 38%|██████████████████████████████████████████████████████▏                                                                                      | 1920/4993 [2:09:04<3:25:25,  4.01s/it] 38%|██████████████████████████████████████████████████████▏                                                                                      | 1921/4993 [2:09:08<3:20:40,  3.92s/it] 38%|██████████████████████████████████████████████████████▎                                                                                      | 1922/4993 [2:09:12<3:29:11,  4.09s/it] 39%|██████████████████████████████████████████████████████▎                                                                                      | 1923/4993 [2:09:16<3:29:07,  4.09s/it] 39%|██████████████████████████████████████████████████████▎                                                                                      | 1924/4993 [2:09:20<3:25:27,  4.02s/it] 39%|██████████████████████████████████████████████████████▎                                                                                      | 1925/4993 [2:09:24<3:19:58,  3.91s/it] 39%|██████████████████████████████████████████████████████▍                                                                                      | 1926/4993 [2:09:28<3:28:09,  4.07s/it] 39%|██████████████████████████████████████████████████████▍                                                                                      | 1927/4993 [2:09:33<3:30:44,  4.12s/it] 39%|██████████████████████████████████████████████████████▍                                                                                      | 1928/4993 [2:09:36<3:24:44,  4.01s/it] 39%|██████████████████████████████████████████████████████▍                                                                                      | 1929/4993 [2:09:41<3:28:34,  4.08s/it] 39%|██████████████████████████████████████████████████████▌                                                                                      | 1930/4993 [2:09:45<3:27:00,  4.06s/it]                                                                                                                                                                                          {'loss': 0.578, 'grad_norm': 1.9296875, 'learning_rate': 3.465414155429807e-06, 'memory/max_active (GiB)': 44.5, 'memory/max_allocated (GiB)': 44.5, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1951.46, 'epoch': 3.86}
+ 39%|██████████████████████████████████████████████████████▌                                                                                      | 1930/4993 [2:09:45<3:27:00,  4.06s/it] 39%|██████████████████████████████████████████████████████▌                                                                                      | 1931/4993 [2:09:49<3:28:28,  4.09s/it] 39%|███████████████████████████████████████████████████��██▌                                                                                      | 1932/4993 [2:09:53<3:23:21,  3.99s/it] 39%|██████████████████████████████████████████████████████▌                                                                                      | 1933/4993 [2:09:57<3:27:28,  4.07s/it] 39%|██████████████████████████████████████████████████████▌                                                                                      | 1934/4993 [2:10:01<3:22:08,  3.96s/it] 39%|██████████████████████████████████████████████████████▋                                                                                      | 1935/4993 [2:10:04<3:16:22,  3.85s/it] 39%|██████████████████████████████████████████████████████▋                                                                                      | 1936/4993 [2:10:08<3:20:25,  3.93s/it] 39%|██████████████████████████████████████████████████████▋                                                                                      | 1937/4993 [2:10:12<3:21:38,  3.96s/it] 39%|██████████████████████████████████████████████████████▋                                                                                      | 1938/4993 [2:10:16<3:19:07,  3.91s/it] 39%|██████████████████████████████████████████████████████▊                                                                                      | 1939/4993 [2:10:20<3:21:33,  3.96s/it] 39%|██████████████████████████████████████████████████████▊                                                                                      | 1940/4993 [2:10:24<3:23:03,  3.99s/it]                                                                                                                                                                                          {'loss': 0.5739, 'grad_norm': 2.109375, 'learning_rate': 3.450588014552707e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1795.19, 'epoch': 3.88}
+ 39%|██████████████████████████████████████████████████████▊                                                                                      | 1940/4993 [2:10:24<3:23:03,  3.99s/it] 39%|██████████████████████████████████████████████████████▊                                                                                      | 1941/4993 [2:10:28<3:20:30,  3.94s/it] 39%|██████████████████████████████████████████████████████▊                                                                                      | 1942/4993 [2:10:32<3:27:27,  4.08s/it] 39%|██████████████████████████████████████████████████████▊                                                                                      | 1943/4993 [2:10:36<3:23:30,  4.00s/it] 39%|██████████████████████████████████████████████████████▉                                                                                      | 1944/4993 [2:10:40<3:25:47,  4.05s/it] 39%|██████████████████████████████████████████████████████▉                                                                                      | 1945/4993 [2:10:44<3:24:57,  4.03s/it] 39%|██████████████████████████████████████████████████████▉                                                                                      | 1946/4993 [2:10:49<3:27:30,  4.09s/it] 39%|██████████████████████████████���███████████████████████▉                                                                                      | 1947/4993 [2:10:53<3:27:46,  4.09s/it] 39%|███████████████████████████████████████████████████████                                                                                      | 1948/4993 [2:10:57<3:33:07,  4.20s/it] 39%|███████████████████████████████████████████████████████                                                                                      | 1949/4993 [2:11:01<3:20:52,  3.96s/it] 39%|███████████████████████████████████████████████████████                                                                                      | 1950/4993 [2:11:04<3:17:04,  3.89s/it]                                                                                                                                                                                          {'loss': 0.5685, 'grad_norm': 10.75, 'learning_rate': 3.4357226868435067e-06, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2015.3, 'epoch': 3.9}
+ 39%|███████████████████████████████████████████████████████                                                                                      | 1950/4993 [2:11:04<3:17:04,  3.89s/it] 39%|███████████████████████████████████████████████████████                                                                                      | 1951/4993 [2:11:08<3:20:09,  3.95s/it] 39%|███████████████████████████████████████████████████████                                                                                      | 1952/4993 [2:11:12<3:13:55,  3.83s/it] 39%|███████████████████████████████████████████████████████▏                                                                                     | 1953/4993 [2:11:16<3:14:53,  3.85s/it] 39%|███████████████████████████████████████████████████████▏                                                                                     | 1954/4993 [2:11:20<3:17:06,  3.89s/it] 39%|███████████████████████████████████████████████████████▏                                                                                     | 1955/4993 [2:11:24<3:17:43,  3.91s/it] 39%|███████████████████████████████████████████████████████▏                                                                                     | 1956/4993 [2:11:28<3:17:52,  3.91s/it] 39%|███████████████████████████████████████████████████████▎                                                                                     | 1957/4993 [2:11:32<3:16:08,  3.88s/it] 39%|███████████████████████████████████████████████████████▎                                                                                     | 1958/4993 [2:11:36<3:20:59,  3.97s/it] 39%|███████████████████████████████████████████████████████▎                                                                                     | 1959/4993 [2:11:40<3:26:25,  4.08s/it] 39%|███████████████████████████████████████████████████████▎                                                                                     | 1960/4993 [2:11:44<3:21:14,  3.98s/it]                                                                                                                                                                                          {'loss': 0.562, 'grad_norm': 2.078125, 'learning_rate': 3.420818785107219e-06, 'memory/max_active (GiB)': 40.36, 'memory/max_allocated (GiB)': 40.36, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1891.91, 'epoch': 3.92}
+ 39%|███████████████████████████████████████████████████████▎                                                                                     | 1960/4993 [2:11:44<3:21:14,  3.98s/it] 39%|███████████████████████████████████████████████████████▍                                                                                     | 1961/4993 [2:11:48<3:20:54,  3.98s/it] 39%|███████████████████████████████████████████████████████▍                                                                                     | 1962/4993 [2:11:52<3:20:16,  3.96s/it] 39%|███████████████████████████████████████████████████████▍                                                                                     | 1963/4993 [2:11:55<3:17:20,  3.91s/it] 39%|███████████████████████████████████████████████████████▍                                                                                     | 1964/4993 [2:12:00<3:19:53,  3.96s/it] 39%|███████████████████████████████████████████████████████▍                                                                                     | 1965/4993 [2:12:04<3:30:33,  4.17s/it] 39%|███████████████████████████████████████████████████████▌                                                                                     | 1966/4993 [2:12:08<3:22:50,  4.02s/it] 39%|███████████████████████████████████████████████████████▌                                                                                     | 1967/4993 [2:12:12<3:19:54,  3.96s/it] 39%|███████████████████████████████████████████████████████▌                                                                                     | 1968/4993 [2:12:15<3:16:04,  3.89s/it] 39%|███████████████████████████████████████████████████████▌                                                                                     | 1969/4993 [2:12:19<3:15:17,  3.87s/it] 39%|███████████████████████████████████████████████████████▋                                                                                     | 1970/4993 [2:12:23<3:16:38,  3.90s/it]                                                                                                                                                                                          {'loss': 0.5607, 'grad_norm': 1.90625, 'learning_rate': 3.4058769237390254e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1918.41, 'epoch': 3.94}
+ 39%|███████████████████████████████████████████████████████▋                                                                                     | 1970/4993 [2:12:23<3:16:38,  3.90s/it] 39%|███████████████████████████████████████████████████████▋                                                                                     | 1971/4993 [2:12:27<3:14:20,  3.86s/it] 39%|███████████████████████████████████████████████████████▋                                                                                     | 1972/4993 [2:12:31<3:18:20,  3.94s/it] 40%|███████████████████████████████████████████████████████▋                                                                                     | 1973/4993 [2:12:35<3:18:53,  3.95s/it] 40%|███████████████████████████████████████████████████████▋                                                                                     | 1974/4993 [2:12:39<3:15:43,  3.89s/it] 40%|███████████████████████████████████████████████████████▊                                                                                     | 1975/4993 [2:12:43<3:13:35,  3.85s/it] 40%|███████████████████████████████████████████████████████▊                                                                                     | 1976/4993 [2:12:47<3:19:21,  3.96s/it] 40%|███████████████████████████████████████████████████████▊                                                                                     | 1977/4993 [2:12:51<3:16:46,  3.91s/it] 40%|███████████████████████████████████████████████████████▊                                                                                     | 1978/4993 [2:12:55<3:19:20,  3.97s/it] 40%|███████████████████████████████████████████████████████▉                                                                                     | 1979/4993 [2:12:59<3:17:05,  3.92s/it] 40%|███████████████████████████████████████████████████████▉                                                                                     | 1980/4993 [2:13:03<3:23:13,  4.05s/it]                                                                                                                                                                                          {'loss': 0.5633, 'grad_norm': 1.9296875, 'learning_rate': 3.3908977186989445e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1744.01, 'epoch': 3.96}
+ 40%|███████████████████████████████████████████████████████▉                                                                                     | 1980/4993 [2:13:03<3:23:13,  4.05s/it] 40%|███████████████████████████████████████████████████████▉                                                                                     | 1981/4993 [2:13:07<3:23:50,  4.06s/it] 40%|███████████████████████████████████████████████████████▉                                                                                     | 1982/4993 [2:13:11<3:22:09,  4.03s/it] 40%|███████████████████████████████████████████████████████▉                                                                                     | 1983/4993 [2:13:15<3:16:38,  3.92s/it] 40%|████████████████████████████████████████████████████████                                                                                     | 1984/4993 [2:13:19<3:22:09,  4.03s/it] 40%|████████████████████████████████████████████████████████                                                                                     | 1985/4993 [2:13:23<3:21:53,  4.03s/it] 40%|████████████████████████████████████████████████████████                                                                                     | 1986/4993 [2:13:27<3:24:54,  4.09s/it] 40%|████████████████████████████████████████████████████████                                                                                     | 1987/4993 [2:13:31<3:16:40,  3.93s/it] 40%|████████████████████████████████████████████████████████▏                                                                                    | 1988/4993 [2:13:35<3:18:27,  3.96s/it] 40%|████████████████████████████████████████████████████████▏                                                                                    | 1989/4993 [2:13:39<3:16:47,  3.93s/it] 40%|████████████████████████████████████████████████████████▏                                                                                    | 1990/4993 [2:13:42<3:09:34,  3.79s/it]                                                                                                                                                                                          {'loss': 0.5612, 'grad_norm': 2.34375, 'learning_rate': 3.3758817874864458e-06, 'memory/max_active (GiB)': 39.53, 'memory/max_allocated (GiB)': 39.53, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2227.12, 'epoch': 3.98}
+ 40%|████████████████████████████████████████████████████████▏                                                                                    | 1990/4993 [2:13:42<3:09:34,  3.79s/it] 40%|████████████████████████████████████████████████████████▏                                                                                    | 1991/4993 [2:13:46<3:15:36,  3.91s/it] 40%|████████████████████████████████████████████████████████▎                                                                                    | 1992/4993 [2:13:50<3:15:55,  3.92s/it] 40%|████████████████████████████████████████████████████████▎                                                                                    | 1993/4993 [2:13:54<3:18:01,  3.96s/it] 40%|████████████████████████████████████████████████████████▎                                                                                    | 1994/4993 [2:13:58<3:16:20,  3.93s/it] 40%|████████████████████████████████████████████████████████▎                                                                                    | 1995/4993 [2:14:02<3:17:38,  3.96s/it] 40%|████████████████████████████████████████████████████████▎                                                                                    | 1996/4993 [2:14:06<3:13:58,  3.88s/it] 40%|████████████████████████████████████████████████████████▍                                                                                    | 1997/4993 [2:14:10<3:11:19,  3.83s/it] 40%|████████████████████████████████████████████████████████▍                                                                                    | 1998/4993 [2:14:14<3:22:26,  4.06s/it] 40%|████████████████████████████████████████████████████████▍                                                                                    | 1999/4993 [2:14:18<3:21:55,  4.05s/it] 40%|████████████████████████████████████████████████████████▍                                                                                    | 2000/4993 [2:14:19<2:39:56,  3.21s/it]                                                                                                                                                                                          {'loss': 0.5803, 'grad_norm': 3.96875, 'learning_rate': 3.360829749114987e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 5995.63, 'epoch': 4.0}
+ 40%|████████████████████████████████████████████████████████▍                                                                                    | 2000/4993 [2:14:19<2:39:56,  3.21s/it][2025-12-23 16:40:41,033] [INFO] [axolotl.core.trainers.base._save:671] [PID:5529] Saving model checkpoint to ./outputs/qwen3-4b-instruct-ded-full-train/checkpoint-2000
+ 40%|████████████████████████████████████████████████████████                                                                                    | 2001/4993 [2:14:56<10:54:56, 13.13s/it] 40%|████████████████████████████████████████████████████████▌                                                                                    | 2002/4993 [2:15:00<8:36:33, 10.36s/it] 40%|████████████████████████████████████████████████████████▌                                                                                    | 2003/4993 [2:15:04<7:07:41,  8.58s/it] 40%|████████████████████████████████████████████████████████▌                                                                                    | 2004/4993 [2:15:07<5:51:17,  7.05s/it] 40%|████████████████████████████████████████████████████████▌                                                                                    | 2005/4993 [2:15:12<5:11:24,  6.25s/it] 40%|████████████████████████████████████████████████████████▋                                                                                    | 2006/4993 [2:15:16<4:38:09,  5.59s/it] 40%|████████████████████████████████████████████████████████▋                                                                                    | 2007/4993 [2:15:20<4:08:59,  5.00s/it] 40%|████████████████████████████████████████████████████████▋                                                                                    | 2008/4993 [2:15:23<3:46:49,  4.56s/it] 40%|████████████████████████████████████████████████████████▋                                                                                    | 2009/4993 [2:15:27<3:35:28,  4.33s/it] 40%|████████████████████████████████████████████████████████▊                                                                                    | 2010/4993 [2:15:31<3:28:26,  4.19s/it]                                                                                                                                                                                          {'loss': 0.5765, 'grad_norm': 2.0, 'learning_rate': 3.3457422240865022e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1896.99, 'epoch': 4.02}
+ 40%|████████████████████████████████████████████████████████▊                                                                                    | 2010/4993 [2:15:31<3:28:26,  4.19s/it] 40%|████████████████████████████████████████████████████████▊                                                                                    | 2011/4993 [2:15:34<3:19:48,  4.02s/it] 40%|████████████████████████████████████████████████████████▊                                                                                    | 2012/4993 [2:15:38<3:17:49,  3.98s/it] 40%|████████████████████████████████████████████████████████▊                                                                                    | 2013/4993 [2:15:42<3:20:04,  4.03s/it] 40%|████████████████████████████████████████████████████████▊                                                                                    | 2014/4993 [2:15:46<3:17:30,  3.98s/it] 40%|████████████���███████████████████████████████████████████▉                                                                                    | 2015/4993 [2:15:51<3:22:51,  4.09s/it] 40%|████████████████████████████████████████████████████████▉                                                                                    | 2016/4993 [2:15:55<3:23:04,  4.09s/it] 40%|████████████████████████████████████████████████████████▉                                                                                    | 2017/4993 [2:15:59<3:21:25,  4.06s/it] 40%|████████████████████████████████████████████████████████▉                                                                                    | 2018/4993 [2:16:02<3:14:38,  3.93s/it] 40%|█████████████████████████████████████████████████████████                                                                                    | 2019/4993 [2:16:06<3:12:15,  3.88s/it] 40%|█████████████████████████████████████████████████████████                                                                                    | 2020/4993 [2:16:10<3:13:05,  3.90s/it]                                                                                                                                                                                          {'loss': 0.5679, 'grad_norm': 1.984375, 'learning_rate': 3.330619834365818e-06, 'memory/max_active (GiB)': 40.36, 'memory/max_allocated (GiB)': 40.36, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1826.05, 'epoch': 4.04}
+ 40%|█████████████████████████████████████████████████████████                                                                                    | 2020/4993 [2:16:10<3:13:05,  3.90s/it] 40%|█████████████████████████████████████████████████████████                                                                                    | 2021/4993 [2:16:14<3:18:02,  4.00s/it] 40%|█████████████████████████████████████████████████████████                                                                                    | 2022/4993 [2:16:18<3:21:27,  4.07s/it] 41%|█████████████████████████████████████████████████████████▏                                                                                   | 2023/4993 [2:16:23<3:21:18,  4.07s/it] 41%|█████████████████████████████████████████████████████████▏                                                                                   | 2024/4993 [2:16:27<3:20:43,  4.06s/it] 41%|█████████████████████████████████████████████████████████▏                                                                                   | 2025/4993 [2:16:30<3:11:59,  3.88s/it] 41%|█████████████████████████████████████████████████████████▏                                                                                   | 2026/4993 [2:16:35<3:23:16,  4.11s/it] 41%|█████████████████████████████████████████████████████████▏                                                                                   | 2027/4993 [2:16:39<3:20:45,  4.06s/it] 41%|█████████████████████████████████████████████████████████▎                                                                                   | 2028/4993 [2:16:42<3:15:41,  3.96s/it] 41%|█████████████████████████████████████████████████████████▎                                                                                   | 2029/4993 [2:16:46<3:13:49,  3.92s/it] 41%|█████████████████████████████████████████████████████████▎                                                                                   | 2030/4993 [2:16:50<3:11:43,  3.88s/it]                                                                                                                                                                                          {'loss': 0.5547, 'grad_norm': 1.953125, 'learning_rate': 3.315463203355016e-06, 'memory/max_active (GiB)': 44.5, 'memory/max_allocated (GiB)': 44.5, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1913.2, 'epoch': 4.06}
+ 41%|█████████████████████████████████████████████████████████▎                                                                                   | 2030/4993 [2:16:50<3:11:43,  3.88s/it] 41%|█████████████████████████████████████████████████████████▎                                                                                   | 2031/4993 [2:16:54<3:14:01,  3.93s/it] 41%|█████████████████████████████████████████████████████████▍                                                                                   | 2032/4993 [2:16:58<3:11:55,  3.89s/it] 41%|█████████████████████████████████████████████████████████▍                                                                                   | 2033/4993 [2:17:02<3:11:18,  3.88s/it] 41%|█████████████████████████████████████████████████████████▍                                                                                   | 2034/4993 [2:17:06<3:12:16,  3.90s/it] 41%|█████████████████████████████████████████████████████████▍                                                                                   | 2035/4993 [2:17:10<3:21:17,  4.08s/it] 41%|█████████████████████████████████████████████████████████▍                                                                                   | 2036/4993 [2:17:14<3:14:47,  3.95s/it] 41%|█████████████████████████████████████████████████████████▌                                                                                   | 2037/4993 [2:17:18<3:12:08,  3.90s/it] 41%|█████████████████████████████████████████████████████████▌                                                                                   | 2038/4993 [2:17:22<3:17:52,  4.02s/it] 41%|█████████████████████████████████████████████████████████▌                                                                                   | 2039/4993 [2:17:25<3:08:58,  3.84s/it] 41%|█████████████████████████████████████████████████████████▌                                                                                   | 2040/4993 [2:17:29<3:06:39,  3.79s/it]                                                                                                                                                                                          {'loss': 0.5556, 'grad_norm': 2.203125, 'learning_rate': 3.300272955867734e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1932.07, 'epoch': 4.08}
+ 41%|█████████████████████████████████████████████████████████▌                                                                                   | 2040/4993 [2:17:29<3:06:39,  3.79s/it] 41%|█████████████████████████████████████████████████████████▋                                                                                   | 2041/4993 [2:17:33<3:09:29,  3.85s/it] 41%|█████████████████████████████████████████████████████████▋                                                                                   | 2042/4993 [2:17:37<3:10:56,  3.88s/it] 41%|█████████████████████████████████████████████████████████▋                                                                                   | 2043/4993 [2:17:41<3:17:44,  4.02s/it] 41%|█████████████████████████████████████████████████████████▋                                                                                   | 2044/4993 [2:17:45<3:13:52,  3.94s/it] 41%|█████████████████████████████████████████████████████████▋                                                                                   | 2045/4993 [2:17:49<3:07:25,  3.81s/it] 41%|█████████████████████████████████████████████████████████▊                                                                                   | 2046/4993 [2:17:53<3:10:46,  3.88s/it] 41%|█████████████████████████████████████████████████████████▊                                                                                   | 2047/4993 [2:17:56<3:09:51,  3.87s/it] 41%|█████████████████████████████████████████████████████████▊                                                                                   | 2048/4993 [2:18:00<3:07:02,  3.81s/it] 41%|█████████████████████████████████████████████████████████▊                                                                                   | 2049/4993 [2:18:04<3:08:57,  3.85s/it] 41%|█████████████████████████████████████████████████████████▉                                                                                   | 2050/4993 [2:18:08<3:16:41,  4.01s/it]                                                                                                                                                                                          {'loss': 0.5677, 'grad_norm': 1.75, 'learning_rate': 3.2850497181034045e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1698.58, 'epoch': 4.1}
+ 41%|█████████████████████████████████████████████████████████▉                                                                                   | 2050/4993 [2:18:08<3:16:41,  4.01s/it] 41%|█████████████████████████████████████████████████████████▉                                                                                   | 2051/4993 [2:18:12<3:16:01,  4.00s/it] 41%|█████████████████████████████████████████████████████████▉                                                                                   | 2052/4993 [2:18:16<3:13:52,  3.96s/it] 41%|█████████████████████████████████████████████████████████▉                                                                                   | 2053/4993 [2:18:20<3:10:10,  3.88s/it] 41%|██████████████████████████████████████████████████████████                                                                                   | 2054/4993 [2:18:24<3:09:08,  3.86s/it] 41%|██████████████████████████████████████████████████████████                                                                                   | 2055/4993 [2:18:28<3:11:28,  3.91s/it] 41%|███████████████████��██████████████████████████████████████                                                                                   | 2056/4993 [2:18:32<3:10:44,  3.90s/it] 41%|██████████████████████████████████████████████████████████                                                                                   | 2057/4993 [2:18:36<3:12:00,  3.92s/it] 41%|██████████████████████████████████████████████████████████                                                                                   | 2058/4993 [2:18:40<3:13:18,  3.95s/it] 41%|██████████████████████████████████████████████████████████▏                                                                                  | 2059/4993 [2:18:44<3:26:16,  4.22s/it] 41%|██████████████████████████████████████████████████████████▏                                                                                  | 2060/4993 [2:18:49<3:27:19,  4.24s/it]                                                                                                                                                                                          {'loss': 0.5566, 'grad_norm': 1.7109375, 'learning_rate': 3.2697941176214505e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1754.48, 'epoch': 4.12}
+ 41%|██████████████████████████████████████████████████████████▏                                                                                  | 2060/4993 [2:18:49<3:27:19,  4.24s/it] 41%|██████████████████████████████████████████████████████████▏                                                                                  | 2061/4993 [2:18:53<3:29:48,  4.29s/it] 41%|██████████████████████████████████████████████████████████▏                                                                                  | 2062/4993 [2:18:57<3:29:49,  4.30s/it] 41%|██████████████████████████████████████████████████████████▎                                                                                  | 2063/4993 [2:19:02<3:35:49,  4.42s/it] 41%|██████████████████████████████████████████████████████████▎                                                                                  | 2064/4993 [2:19:06<3:28:15,  4.27s/it] 41%|██████████████████████████████████████████████████████████▎                                                                                  | 2065/4993 [2:19:10<3:20:02,  4.10s/it] 41%|██████████████████████████████████████████████████████████▎                                                                                  | 2066/4993 [2:19:14<3:15:18,  4.00s/it] 41%|██████████████████████████████████████████████████████████▎                                                                                  | 2067/4993 [2:19:18<3:16:40,  4.03s/it] 41%|██████████████████████████████████████████████████████████▍                                                                                  | 2068/4993 [2:19:22<3:22:28,  4.15s/it] 41%|██████████████████████████████████████████████████████████▍                                                                                  | 2069/4993 [2:19:26<3:20:01,  4.10s/it] 41%|██████████████████████████████████████████████████████████��                                                                                  | 2070/4993 [2:19:30<3:21:02,  4.13s/it]                                                                                                                                                                                          {'loss': 0.5761, 'grad_norm': 2.265625, 'learning_rate': 3.254506783315401e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1923.27, 'epoch': 4.14}
+ 41%|██████████████████████████████████████████████████████████▍                                                                                  | 2070/4993 [2:19:30<3:21:02,  4.13s/it] 41%|██████████████████████████████████████████████████████████▍                                                                                  | 2071/4993 [2:19:34<3:17:08,  4.05s/it] 41%|██████████████████████████████████████████████████████████▌                                                                                  | 2072/4993 [2:19:38<3:12:53,  3.96s/it] 42%|██████████████████████████████████████████████████████████▌                                                                                  | 2073/4993 [2:19:42<3:15:11,  4.01s/it] 42%|██████████████████████████████████████████████████████████▌                                                                                  | 2074/4993 [2:19:46<3:18:50,  4.09s/it] 42%|██████████████████████████████████████████████████████████▌                                                                                  | 2075/4993 [2:19:50<3:19:39,  4.11s/it] 42%|██████████████████████████████████████████████████████████▋                                                                                  | 2076/4993 [2:19:54<3:15:39,  4.02s/it] 42%|██████████████████████████████████████████████████████████▋                                                                                  | 2077/4993 [2:19:58<3:16:10,  4.04s/it] 42%|██████████████████████████████████████████████████████████▋                                                                                  | 2078/4993 [2:20:02<3:14:05,  4.00s/it] 42%|██████████████████████████████████████████████████████████▋                                                                                  | 2079/4993 [2:20:07<3:20:22,  4.13s/it] 42%|██████████████████████████████████████████████████████████▋                                                                                  | 2080/4993 [2:20:10<3:13:49,  3.99s/it]                                                                                                                                                                                          {'loss': 0.5573, 'grad_norm': 2.171875, 'learning_rate': 3.23918834538698e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2008.74, 'epoch': 4.16}
+ 42%|██████████████████████████████████████████████████████████▋                                                                                  | 2080/4993 [2:20:10<3:13:49,  3.99s/it] 42%|██████████████████████████████████████████████████████████▊                                                                                  | 2081/4993 [2:20:14<3:12:22,  3.96s/it] 42%|██████████████████████████████████████████████████████���███▊                                                                                  | 2082/4993 [2:20:18<3:15:40,  4.03s/it] 42%|██████████████████████████████████████████████████████████▊                                                                                  | 2083/4993 [2:20:22<3:14:35,  4.01s/it] 42%|██████████████████████████████████████████████████████████▊                                                                                  | 2084/4993 [2:20:27<3:20:29,  4.14s/it] 42%|██████████████████████████████████████████████████████████▉                                                                                  | 2085/4993 [2:20:31<3:18:35,  4.10s/it] 42%|██████████████████████████████████████████████████████████▉                                                                                  | 2086/4993 [2:20:35<3:16:01,  4.05s/it] 42%|██████████████████████████████████████████████████████████▉                                                                                  | 2087/4993 [2:20:39<3:16:37,  4.06s/it] 42%|██████████████████████████████████████████████████████████▉                                                                                  | 2088/4993 [2:20:43<3:15:36,  4.04s/it] 42%|██████████████████████████████████████████████████████████▉                                                                                  | 2089/4993 [2:20:46<3:07:08,  3.87s/it] 42%|███████████████████████████████████████████████████████████                                                                                  | 2090/4993 [2:20:50<3:07:46,  3.88s/it]                                                                                                                                                                                          {'loss': 0.5722, 'grad_norm': 2.0625, 'learning_rate': 3.2238394353201157e-06, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1980.09, 'epoch': 4.18}
+ 42%|███████████████████████████████████████████████████████████                                                                                  | 2090/4993 [2:20:50<3:07:46,  3.88s/it] 42%|███████████████████████████████████████████████████████████                                                                                  | 2091/4993 [2:20:54<3:07:13,  3.87s/it] 42%|███████████████████████████████████████████████████████████                                                                                  | 2092/4993 [2:20:58<3:10:03,  3.93s/it] 42%|███████████████████████████████████████████████████████████                                                                                  | 2093/4993 [2:21:02<3:15:22,  4.04s/it] 42%|███████████████████████████████████████████████████████████▏                                                                                 | 2094/4993 [2:21:07<3:16:07,  4.06s/it] 42%|███████████████████████████████████████████████████████████▏                                                                                 | 2095/4993 [2:21:11<3:17:49,  4.10s/it] 42%|███████████████████████████████████████████████████████████▏                                                                                 | 2096/4993 [2:21:15<3:13:25,  4.01s/it] 42%|███████████████████████████████████████████████████████████▏                                                                                 | 2097/4993 [2:21:19<3:22:57,  4.20s/it] 42%|███████████████████████████████████████████████████████████▏                                                                                 | 2098/4993 [2:21:23<3:20:17,  4.15s/it] 42%|███████████████████████████████████████████████████████████▎                                                                                 | 2099/4993 [2:21:27<3:14:55,  4.04s/it] 42%|███████████████████████████████████████████████████████████▎                                                                                 | 2100/4993 [2:21:31<3:08:47,  3.92s/it]                                                                                                                                                                                          {'loss': 0.5754, 'grad_norm': 2.234375, 'learning_rate': 3.208460685854916e-06, 'memory/max_active (GiB)': 39.54, 'memory/max_allocated (GiB)': 39.54, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2240.69, 'epoch': 4.2}
+ 42%|███████████████████████████████████████████████████████████▎                                                                                 | 2100/4993 [2:21:31<3:08:47,  3.92s/it] 42%|███████████████████████████████████████████████████████████▎                                                                                 | 2101/4993 [2:21:35<3:14:27,  4.03s/it] 42%|███████████████████████████████████████████████████████████▎                                                                                 | 2102/4993 [2:21:39<3:10:40,  3.96s/it] 42%|███████████████████████████████████████████████████████████▍                                                                                 | 2103/4993 [2:21:42<3:07:27,  3.89s/it] 42%|███████████████████████████████████████████████████████████▍                                                                                 | 2104/4993 [2:21:46<3:07:18,  3.89s/it] 42%|███████████████████████████████████████████████████████████▍                                                                                 | 2105/4993 [2:21:50<3:05:48,  3.86s/it] 42%|███████████████████████████████████████████████████████████▍                                                                                 | 2106/4993 [2:21:54<3:04:47,  3.84s/it] 42%|███████████████████████████████████████████████████████████▌                                                                                 | 2107/4993 [2:21:59<3:17:02,  4.10s/it] 42%|███████████████████████████████████████████████████████████▌                                                                                 | 2108/4993 [2:22:03<3:15:30,  4.07s/it] 42%|███████████████████████████████████████████████████████████▌                                                                                 | 2109/4993 [2:22:07<3:23:03,  4.22s/it] 42%|███████████████████████████████████████████████████████████▌                                                                                 | 2110/4993 [2:22:11<3:19:22,  4.15s/it]                                                                                                                                                                                          {'loss': 0.5821, 'grad_norm': 2.359375, 'learning_rate': 3.1930527309615796e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1974.38, 'epoch': 4.22}
+ 42%|███████████████████████████████████████████████████████████▌                                                                                 | 2110/4993 [2:22:11<3:19:22,  4.15s/it] 42%|███████████████████████████████████████████████████████████▌                                                                                 | 2111/4993 [2:22:16<3:21:54,  4.20s/it] 42%|███████████████████████████████████████████████████████████▋                                                                                 | 2112/4993 [2:22:20<3:23:15,  4.23s/it] 42%|███████████████████████████████████████████████████████████▋                                                                                 | 2113/4993 [2:22:24<3:15:58,  4.08s/it] 42%|███████████████████████████████████████████████████████████▋                                                                                 | 2114/4993 [2:22:28<3:22:15,  4.22s/it] 42%|███████████████████████████████████████████████████████████▋                                                                                 | 2115/4993 [2:22:32<3:13:46,  4.04s/it] 42%|███████████████████████████████████████████████████████████▊                                                                                 | 2116/4993 [2:22:36<3:11:09,  3.99s/it] 42%|███████████████████████████████████████████████████████████▊                                                                                 | 2117/4993 [2:22:39<3:07:59,  3.92s/it] 42%|███████████████████████████████████████████████████████████▊                                                                                 | 2118/4993 [2:22:43<3:06:48,  3.90s/it] 42%|███████████████████████████████████████████████████████████▊                                                                                 | 2119/4993 [2:22:47<3:11:25,  4.00s/it] 42%|███████████████████████████████████████████████████████████▊                                                                                 | 2120/4993 [2:22:51<3:10:05,  3.97s/it]                                                                                                                                                                                          {'loss': 0.5723, 'grad_norm': 1.9609375, 'learning_rate': 3.177616205814264e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2000.98, 'epoch': 4.24}
+ 42%|███████████████████████████████████████████████████████████▊                                                                                 | 2120/4993 [2:22:51<3:10:05,  3.97s/it] 42%|███████████████████████████████████████████████████████████▉                                                                                 | 2121/4993 [2:22:55<3:05:37,  3.88s/it] 42%|███████████████████████████████████████████████████████████▉                                                                                 | 2122/4993 [2:22:59<3:06:03,  3.89s/it] 43%|███████████████████████████████████████████████████████████▉                                                                                 | 2123/4993 [2:23:03<3:09:45,  3.97s/it] 43%|███████████████████████████████████████████████████████████▉                                                                                 | 2124/4993 [2:23:07<3:16:15,  4.10s/it] 43%|████████████████████████████████████████████████████████████                                                                                 | 2125/4993 [2:23:12<3:21:22,  4.21s/it] 43%|████████████████████████████████████████████████████████████                                                                                 | 2126/4993 [2:23:16<3:20:55,  4.20s/it] 43%|████████████████████████████████████████████████████████████                                                                                 | 2127/4993 [2:23:20<3:16:23,  4.11s/it] 43%|████████████████████████████████████████████████████████████                                                                                 | 2128/4993 [2:23:25<3:23:47,  4.27s/it] 43%|████████████████████████████████████████████████████████████                                                                                 | 2129/4993 [2:23:28<3:15:07,  4.09s/it] 43%|████████████████████████████████████████████████████████████▏                                                                                | 2130/4993 [2:23:33<3:19:43,  4.19s/it]                                                                                                                                                                                          {'loss': 0.5557, 'grad_norm': 1.828125, 'learning_rate': 3.1621517467649e-06, 'memory/max_active (GiB)': 44.5, 'memory/max_allocated (GiB)': 44.5, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1798.86, 'epoch': 4.26}
+ 43%|████████████████████████████████████████████████████████████▏                                                                                | 2130/4993 [2:23:33<3:19:43,  4.19s/it] 43%|████████████████████████████████████████████████████████████▏                                                                                | 2131/4993 [2:23:37<3:16:01,  4.11s/it] 43%|████████████████████████████████████████████████████████████▏                                                                                | 2132/4993 [2:23:40<3:05:34,  3.89s/it] 43%|████████████████████████████████████████████████████████████▏                                                                                | 2133/4993 [2:23:44<3:07:42,  3.94s/it] 43%|████████████████████████████████████████████████████████████▎                                                                                | 2134/4993 [2:23:48<3:10:34,  4.00s/it] 43%|████████████████████████████████████████████████████████████▎                                                                                | 2135/4993 [2:23:52<3:02:09,  3.82s/it] 43%|████████████████████████████████████████████████████████████▎                                                                                | 2136/4993 [2:23:56<3:03:26,  3.85s/it] 43%|█████████████████████████��██████████████████████████████████▎                                                                                | 2137/4993 [2:23:59<2:59:54,  3.78s/it] 43%|████████████████████████████████████████████████████████████▍                                                                                | 2138/4993 [2:24:03<3:00:28,  3.79s/it] 43%|████████████████████████████████████████████████████████████▍                                                                                | 2139/4993 [2:24:07<3:08:44,  3.97s/it] 43%|████████████████████████████████████████████████████████████▍                                                                                | 2140/4993 [2:24:11<3:06:21,  3.92s/it]                                                                                                                                                                                          {'loss': 0.5871, 'grad_norm': 2.203125, 'learning_rate': 3.146659991316963e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1802.37, 'epoch': 4.28}
+ 43%|████████████████████████████████████████████████████████████▍                                                                                | 2140/4993 [2:24:11<3:06:21,  3.92s/it] 43%|████████████████████████████████████████████████████████████▍                                                                                | 2141/4993 [2:24:16<3:16:09,  4.13s/it] 43%|████████████████████████████████████████████████████████████▍                                                                                | 2142/4993 [2:24:20<3:17:38,  4.16s/it] 43%|████████████████████████████████████████████████████████████▌                                                                                | 2143/4993 [2:24:24<3:09:20,  3.99s/it] 43%|████████████████████████████████████████████████████████████▌                                                                                | 2144/4993 [2:24:27<3:04:16,  3.88s/it] 43%|████████████████████████████████████████████████████████████▌                                                                                | 2145/4993 [2:24:31<3:05:41,  3.91s/it] 43%|████████████████████████████████████████████████████████████▌                                                                                | 2146/4993 [2:24:35<3:03:29,  3.87s/it] 43%|████████████████████████████████████████████████████████████▋                                                                                | 2147/4993 [2:24:39<3:03:31,  3.87s/it] 43%|████████████████████████████████████████████████████████████▋                                                                                | 2148/4993 [2:24:43<3:02:47,  3.85s/it] 43%|████████████████████████████████████████████████████████████▋                                                                                | 2149/4993 [2:24:46<2:57:41,  3.75s/it] 43%|████████████████████████████████████████████████████████████▋                                                                                | 2150/4993 [2:24:50<2:57:24,  3.74s/it]                                                                                                                                                                                          {'loss': 0.623, 'grad_norm': 2.125, 'learning_rate': 3.1311415780991827e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1917.42, 'epoch': 4.3}
+ 43%|████████████████████████████████████████████████████████████▋                                                                                | 2150/4993 [2:24:50<2:57:24,  3.74s/it] 43%|████████████████████████████████████████████████████████████▋                                                                                | 2151/4993 [2:24:54<2:54:52,  3.69s/it] 43%|████████████████████████████████████████████████████████████▊                                                                                | 2152/4993 [2:24:57<2:55:13,  3.70s/it] 43%|████████████████████████████████████████████████████████████▊                                                                                | 2153/4993 [2:25:02<3:03:16,  3.87s/it] 43%|████████████████████████████████████████████████████████████▊                                                                                | 2154/4993 [2:25:05<3:04:23,  3.90s/it] 43%|████████████████████████████████████████████████████████████▊                                                                                | 2155/4993 [2:25:09<2:59:48,  3.80s/it] 43%|████████████████████████████████████████████████████████████▉                                                                                | 2156/4993 [2:25:13<3:02:35,  3.86s/it] 43%|████████████████████████████████████████████████████████████▉                                                                                | 2157/4993 [2:25:17<3:08:27,  3.99s/it] 43%|████████████████████████████████████████████████████████████▉                                                                                | 2158/4993 [2:25:22<3:13:38,  4.10s/it] 43%|████████████████████████████████████████████████████████████▉                                                                                | 2159/4993 [2:25:26<3:14:54,  4.13s/it] 43%|████████████████████████████████████████████████████████████▉                                                                                | 2160/4993 [2:25:30<3:18:35,  4.21s/it]                                                                                                                                                                                          {'loss': 0.5793, 'grad_norm': 1.671875, 'learning_rate': 3.11559714683923e-06, 'memory/max_active (GiB)': 40.36, 'memory/max_allocated (GiB)': 40.36, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1883.42, 'epoch': 4.32}
+ 43%|████████████████████████████████████████████████████████████▉                                                                                | 2160/4993 [2:25:30<3:18:35,  4.21s/it] 43%|█████████████████████████████████████████████████████████████                                                                                | 2161/4993 [2:25:34<3:13:34,  4.10s/it] 43%|█████████████████████████████████████████████████████████████                                                                                | 2162/4993 [2:25:38<3:11:55,  4.07s/it] 43%|█████████████████████��███████████████████████████████████████                                                                                | 2163/4993 [2:25:42<3:12:41,  4.09s/it] 43%|█████████████████████████████████████████████████████████████                                                                                | 2164/4993 [2:25:46<3:14:43,  4.13s/it] 43%|█████████████████████████████████████████████████████████████▏                                                                               | 2165/4993 [2:25:50<3:08:52,  4.01s/it] 43%|█████████████████████████████████████████████████████████████▏                                                                               | 2166/4993 [2:25:54<3:03:55,  3.90s/it] 43%|█████████████████████████████████████████████████████████████▏                                                                               | 2167/4993 [2:25:58<3:07:44,  3.99s/it] 43%|█████████████████████████████████████████████████████████████▏                                                                               | 2168/4993 [2:26:02<3:05:01,  3.93s/it] 43%|█████████████████████████████████████████████████████████████▎                                                                               | 2169/4993 [2:26:06<3:12:13,  4.08s/it] 43%|█████████████████████████████████████████████████████████████▎                                                                               | 2170/4993 [2:26:10<3:02:41,  3.88s/it]                                                                                                                                                                                          {'loss': 0.568, 'grad_norm': 2.328125, 'learning_rate': 3.100027338337332e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2156.84, 'epoch': 4.34}
+ 43%|█████████████████████████████████████████████████████████████▎                                                                               | 2170/4993 [2:26:10<3:02:41,  3.88s/it] 43%|█████████████████████████████████████████████████████████████▎                                                                               | 2171/4993 [2:26:14<3:05:44,  3.95s/it] 44%|█████████████████████████████████████████████████████████████▎                                                                               | 2172/4993 [2:26:17<2:59:39,  3.82s/it] 44%|█████████████████████████████████████████████████████████████▎                                                                               | 2173/4993 [2:26:21<3:04:18,  3.92s/it] 44%|█████████████████████████████████████████████████████████████▍                                                                               | 2174/4993 [2:26:26<3:06:38,  3.97s/it] 44%|█████████████████████████████████████████████████████████████▍                                                                               | 2175/4993 [2:26:30<3:08:32,  4.01s/it] 44%|█████████████████████████████████████████████████████████████▍                                                                               | 2176/4993 [2:26:34<3:07:40,  4.00s/it] 44%|█████████████████████████████████████████████████████████████▍                                                                               | 2177/4993 [2:26:38<3:07:11,  3.99s/it] 44%|█████████████████████████████████████████████████████████████▌                                                                               | 2178/4993 [2:26:42<3:06:13,  3.97s/it] 44%|█████████████████████████████████████████████████████████████▌                                                                               | 2179/4993 [2:26:45<3:02:19,  3.89s/it] 44%|█████████████████████████████████████████████████████████████▌                                                                               | 2180/4993 [2:26:49<3:00:07,  3.84s/it]                                                                                                                                                                                          {'loss': 0.573, 'grad_norm': 2.171875, 'learning_rate': 3.084432794439865e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2019.17, 'epoch': 4.36}
+ 44%|█████████████████████████████████████████████████████████████▌                                                                               | 2180/4993 [2:26:49<3:00:07,  3.84s/it] 44%|█████████████████████████████████████████████████████████████▌                                                                               | 2181/4993 [2:26:53<2:57:26,  3.79s/it] 44%|█████████████████████████████████████████████████████████████▌                                                                               | 2182/4993 [2:26:57<3:01:55,  3.88s/it] 44%|█████████████████████████████████████████████████████████████▋                                                                               | 2183/4993 [2:27:00<2:58:48,  3.82s/it] 44%|█████████████████████████████████████████████████████████████▋                                                                               | 2184/4993 [2:27:04<3:01:23,  3.87s/it] 44%|█████████████████████████████████████████████████████████████▋                                                                               | 2185/4993 [2:27:08<3:00:10,  3.85s/it] 44%|█████████████████████████████████████████████████████████████▋                                                                               | 2186/4993 [2:27:12<3:01:26,  3.88s/it] 44%|█████████████████████████████████████████████████████████████▊                                                                               | 2187/4993 [2:27:16<3:04:16,  3.94s/it] 44%|█████████████████████████████████████████████████████████████▊                                                                               | 2188/4993 [2:27:20<3:00:58,  3.87s/it] 44%|█████████████████████████████████████████████████████████████▊                                                                               | 2189/4993 [2:27:24<2:58:24,  3.82s/it] 44%|█████████████████████████████████████████████████████████████▊                                                                               | 2190/4993 [2:27:27<2:55:52,  3.76s/it]                                                                                                                                                                                          {'loss': 0.5774, 'grad_norm': 2.234375, 'learning_rate': 3.0688141580128906e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2043.55, 'epoch': 4.38}
+ 44%|█████████████████████████████████████████████████████████████▊                                                                               | 2190/4993 [2:27:27<2:55:52,  3.76s/it] 44%|█████████████████████████████████████████████████████████████▊                                                                               | 2191/4993 [2:27:31<2:57:33,  3.80s/it] 44%|█████████████████████████████████████████████████████████████▉                                                                               | 2192/4993 [2:27:35<2:56:47,  3.79s/it] 44%|█████████████████████████████████████████████████████████████▉                                                                               | 2193/4993 [2:27:39<2:58:08,  3.82s/it] 44%|█████████████████████████████████████████████████████████████▉                                                                               | 2194/4993 [2:27:43<3:01:00,  3.88s/it] 44%|█████████████████████████████████████████████████████████████▉                                                                               | 2195/4993 [2:27:47<3:06:31,  4.00s/it] 44%|██████████████████████████████████████████████████████████████                                                                               | 2196/4993 [2:27:51<3:01:00,  3.88s/it] 44%|██████████████████████████████████████████████████████████████                                                                               | 2197/4993 [2:27:55<3:05:20,  3.98s/it] 44%|██████████████████████████████████████████████████████████████                                                                               | 2198/4993 [2:27:59<3:13:39,  4.16s/it] 44%|██████████████████████████████████████████████████████████████                                                                               | 2199/4993 [2:28:03<3:10:19,  4.09s/it] 44%|██████████████████████████████████████████████████████████████▏                                                                              | 2200/4993 [2:28:08<3:13:41,  4.16s/it]                                                                                                                                                                                          {'loss': 0.5775, 'grad_norm': 1.9375, 'learning_rate': 3.0531720729156555e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1796.39, 'epoch': 4.4}
+ 44%|██████████████████████████████████████████████████████████████▏                                                                              | 2200/4993 [2:28:08<3:13:41,  4.16s/it] 44%|██████████████████████████████████████████████████████████████▏                                                                              | 2201/4993 [2:28:12<3:16:06,  4.21s/it] 44%|██████████████████████████████████████████████████████████████▏                                                                              | 2202/4993 [2:28:17<3:19:57,  4.30s/it] 44%|██████████████████████████████████████████████████████████████▏                                                                              | 2203/4993 [2:28:20<3:09:46,  4.08s/it] 44%|██████████████████████████████████████████████████████████████▏                                                                              | 2204/4993 [2:28:25<3:14:31,  4.18s/it] 44%|██████████████████████████████████████████████████████████████▎                                                                              | 2205/4993 [2:28:28<3:08:26,  4.06s/it] 44%|██████████████████████████████████████████████████████████████▎                                                                              | 2206/4993 [2:28:32<3:08:01,  4.05s/it] 44%|██████████████████████████████████████████████████████████████▎                                                                              | 2207/4993 [2:28:36<3:05:55,  4.00s/it] 44%|██████████████████████████████████████████████████████████████▎                                                                              | 2208/4993 [2:28:40<3:06:23,  4.02s/it] 44%|██████████████████████████████████████████████████████████████▍                                                                              | 2209/4993 [2:28:44<3:04:38,  3.98s/it] 44%|██████████████████████████████████████████████████████████████▍                                                                              | 2210/4993 [2:28:48<3:01:32,  3.91s/it]                                                                                                                                                                                          {'loss': 0.5885, 'grad_norm': 2.125, 'learning_rate': 3.0375071839740507e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1996.11, 'epoch': 4.42}
+ 44%|██████████████████████████████████████████████████████████████▍                                                                              | 2210/4993 [2:28:48<3:01:32,  3.91s/it] 44%|██████████████████████████████████████████████████████████████▍                                                                              | 2211/4993 [2:28:52<3:02:04,  3.93s/it] 44%|██████████████████████████████████████████████████████████████▍                                                                              | 2212/4993 [2:28:56<3:04:57,  3.99s/it] 44%|██████████████████████████████████████████████████████████████▍                                                                              | 2213/4993 [2:29:00<3:00:21,  3.89s/it] 44%|██████████████████████████████████████████████████████████████▌                                                                              | 2214/4993 [2:29:04<3:01:27,  3.92s/it] 44%|██████████████████████████████████████████████████████████████▌                                                                              | 2215/4993 [2:29:08<3:01:13,  3.91s/it] 44%|██████████████████████████████████████████████████████████████▌                                                                              | 2216/4993 [2:29:12<3:09:57,  4.10s/it] 44%|██���███████████████████████████████████████████████████████████▌                                                                              | 2217/4993 [2:29:16<3:07:52,  4.06s/it] 44%|██████████████████████████████████████████████████████████████▋                                                                              | 2218/4993 [2:29:20<3:03:58,  3.98s/it] 44%|██████████████████████████████████████████████████████████████▋                                                                              | 2219/4993 [2:29:24<3:01:36,  3.93s/it] 44%|██████████████████████████████████████████████████████████████▋                                                                              | 2220/4993 [2:29:28<3:00:54,  3.91s/it]                                                                                                                                                                                          {'loss': 0.5406, 'grad_norm': 2.0, 'learning_rate': 3.0218201369540266e-06, 'memory/max_active (GiB)': 42.85, 'memory/max_allocated (GiB)': 42.85, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1963.42, 'epoch': 4.44}
+ 44%|██████████████████████████████████████████████████████████████▋                                                                              | 2220/4993 [2:29:28<3:00:54,  3.91s/it] 44%|██████████████████████████████████████████████████████████████▋                                                                              | 2221/4993 [2:29:31<2:59:43,  3.89s/it] 45%|██████████████████████████████████████████████████████████████▋                                                                              | 2222/4993 [2:29:35<2:59:29,  3.89s/it] 45%|██████████████████████████████████████████████████████████████▊                                                                              | 2223/4993 [2:29:40<3:05:30,  4.02s/it] 45%|██████████████████████████████████████████████████████████████▊                                                                              | 2224/4993 [2:29:43<3:03:06,  3.97s/it] 45%|██████████████████████████████████████████████████████████████▊                                                                              | 2225/4993 [2:29:48<3:04:59,  4.01s/it] 45%|██████████████████████████████████████████████████████████████▊                                                                              | 2226/4993 [2:29:52<3:10:37,  4.13s/it] 45%|██████████████████████████████████████████████████████████████▉                                                                              | 2227/4993 [2:29:56<3:06:27,  4.04s/it] 45%|██████████████████████████████████████████████████████████████▉                                                                              | 2228/4993 [2:30:00<3:13:41,  4.20s/it] 45%|██████████████████████████████████████████████████████████████▉                                                                              | 2229/4993 [2:30:04<3:11:06,  4.15s/it] 45%|██████████████████████████████████████████████████████████████▉                                                                              | 2230/4993 [2:30:08<3:00:58,  3.93s/it]                                                                                                                                                                                          {'loss': 0.549, 'grad_norm': 2.578125, 'learning_rate': 3.0061115785349726e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2178.66, 'epoch': 4.46}
+ 45%|██████████████████████████████████████████████████████████████▉                                                                              | 2230/4993 [2:30:08<3:00:58,  3.93s/it] 45%|███████████████████████████████████████████████████████████████                                                                              | 2231/4993 [2:30:12<2:57:58,  3.87s/it] 45%|███████████████████████████████████████████████████████████████                                                                              | 2232/4993 [2:30:15<2:56:23,  3.83s/it] 45%|███████████████████████████████████████████████████████████████                                                                              | 2233/4993 [2:30:19<2:56:55,  3.85s/it] 45%|███████████████████████████████████████████████████████████████                                                                              | 2234/4993 [2:30:23<2:59:31,  3.90s/it] 45%|███████████████████████████████████████████████████████████████                                                                              | 2235/4993 [2:30:27<3:02:44,  3.98s/it] 45%|███████████████████████████████████████████████████████████████▏                                                                             | 2236/4993 [2:30:32<3:06:27,  4.06s/it] 45%|███████████████████████████████████████████████████████████████▏                                                                             | 2237/4993 [2:30:35<2:57:01,  3.85s/it] 45%|███████████████████████████████████████████████████████████████▏                                                                             | 2238/4993 [2:30:39<2:59:57,  3.92s/it] 45%|███████████████████████████████████████████████████████████████▏                                                                             | 2239/4993 [2:30:43<2:58:31,  3.89s/it] 45%|███████████████████████████████████████████████████████████████▎                                                                             | 2240/4993 [2:30:47<2:59:38,  3.92s/it]                                                                                                                                                                                          {'loss': 0.5879, 'grad_norm': 1.875, 'learning_rate': 2.990382156283061e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1904.15, 'epoch': 4.48}
+ 45%|███████████████████████████████████████████████████████████████▎                                                                             | 2240/4993 [2:30:47<2:59:38,  3.92s/it] 45%|███████████████████████████████████████████████████████████████▎                                                                             | 2241/4993 [2:30:51<3:01:06,  3.95s/it] 45%|███████████████████████████████████████████████████████████████▎                                                                             | 2242/4993 [2:30:54<2:55:14,  3.82s/it] 45%|███████████████████████████████████████████████████████████████▎                                                                             | 2243/4993 [2:30:59<3:01:57,  3.97s/it] 45%|███████████████████████████████████████████████████████████████▎                                                                             | 2244/4993 [2:31:02<2:56:33,  3.85s/it] 45%|███████████████████████████████████████████████████████████████▍                                                                             | 2245/4993 [2:31:06<2:53:56,  3.80s/it] 45%|███████████████████████████████████████████████████████████████▍                                                                             | 2246/4993 [2:31:10<2:54:06,  3.80s/it] 45%|███████████████████████████████████████████████████████████████▍                                                                             | 2247/4993 [2:31:14<2:56:10,  3.85s/it] 45%|███████████████████████████████████████████████████████████████▍                                                                             | 2248/4993 [2:31:19<3:09:52,  4.15s/it] 45%|███████████████████████████████████████████████████████████████▌                                                                             | 2249/4993 [2:31:22<3:03:49,  4.02s/it] 45%|███████████████████████████████████████████████████████████████▌                                                                             | 2250/4993 [2:31:26<3:04:46,  4.04s/it]                                                                                                                                                                                          {'loss': 0.5824, 'grad_norm': 2.078125, 'learning_rate': 2.974632518624548e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1779.38, 'epoch': 4.5}
+ 45%|███████████████████████████████████████████████████████████████▌                                                                             | 2250/4993 [2:31:26<3:04:46,  4.04s/it] 45%|███████████████████████████████████████████████████████████████▌                                                                             | 2251/4993 [2:31:31<3:05:22,  4.06s/it] 45%|███████████████████████████████████████████████████████████████▌                                                                             | 2252/4993 [2:31:35<3:12:01,  4.20s/it] 45%|███████████████████████████████████████████████████████████████▌                                                                             | 2253/4993 [2:31:39<3:06:57,  4.09s/it] 45%|███████████████████████████████████████████████████████████████▋                                                                             | 2254/4993 [2:31:43<3:11:51,  4.20s/it] 45%|███████████████████████████████████████████████████████████████▋                                                                             | 2255/4993 [2:31:47<3:10:42,  4.18s/it] 45%|███████████████████████████████████████████████████████████████▋                                                                             | 2256/4993 [2:31:52<3:09:56,  4.16s/it] 45%|███████████████████████████████████████████████████████████████▋                                                                             | 2257/4993 [2:31:56<3:07:54,  4.12s/it] 45%|███████████████████████████████████████████████████████████████▊                                                                             | 2258/4993 [2:31:59<3:02:31,  4.00s/it] 45%|███████████████████████████████████████████████████████████████▊                                                                             | 2259/4993 [2:32:03<3:00:39,  3.96s/it] 45%|███████████████████████████████████████████████████████████████▊                                                                             | 2260/4993 [2:32:08<3:06:34,  4.10s/it]                                                                                                                                                                                          {'loss': 0.5761, 'grad_norm': 1.65625, 'learning_rate': 2.9588633148190494e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1845.76, 'epoch': 4.52}
+ 45%|███████████████████████████████████████████████████████████████▊                                                                             | 2260/4993 [2:32:08<3:06:34,  4.10s/it] 45%|███████████████████████████████████████████████████████████████▊                                                                             | 2261/4993 [2:32:12<3:09:21,  4.16s/it] 45%|███████████████████████████████████████████████████████████████▉                                                                             | 2262/4993 [2:32:16<3:10:00,  4.17s/it] 45%|███████████████████████████████████████████████████████████████▉                                                                             | 2263/4993 [2:32:20<3:03:42,  4.04s/it] 45%|███████████████████████████████████████████████████████████████▉                                                                             | 2264/4993 [2:32:24<3:07:02,  4.11s/it] 45%|███████████████████████████████████████████████████████████████▉                                                                             | 2265/4993 [2:32:28<3:05:44,  4.09s/it] 45%|███████████████████████████████████████████████████████████████▉                                                                             | 2266/4993 [2:32:32<3:04:55,  4.07s/it] 45%|████████████████████████████████████████████████████████████████                                                                             | 2267/4993 [2:32:36<2:59:49,  3.96s/it] 45%|████████████████████████████████████████████████████████████████                                                                             | 2268/4993 [2:32:40<2:59:05,  3.94s/it] 45%|████████████████████████████████████████████████████████████████                                                                             | 2269/4993 [2:32:44<3:02:51,  4.03s/it] 45%|███████████████████████████████████��████████████████████████████                                                                             | 2270/4993 [2:32:48<3:07:59,  4.14s/it]                                                                                                                                                                                          {'loss': 0.579, 'grad_norm': 1.8203125, 'learning_rate': 2.9430751949327673e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1833.1, 'epoch': 4.54}
+ 45%|████████████████████████████████████████████████████████████████                                                                             | 2270/4993 [2:32:48<3:07:59,  4.14s/it] 45%|████████████████████████████████████████████████████████████████▏                                                                            | 2271/4993 [2:32:52<3:06:04,  4.10s/it] 46%|████████████████████████████████████████████████████████████████▏                                                                            | 2272/4993 [2:32:57<3:10:17,  4.20s/it] 46%|████████████████████████████████████████████████████████████████▏                                                                            | 2273/4993 [2:33:01<3:07:52,  4.14s/it] 46%|████████████████████████████████████████████████████████████████▏                                                                            | 2274/4993 [2:33:05<3:03:15,  4.04s/it] 46%|████████████████████████████████████████████████████████████████▏                                                                            | 2275/4993 [2:33:09<3:02:37,  4.03s/it] 46%|████████████████████████████████████████████████████████████████▎                                                                            | 2276/4993 [2:33:12<2:58:38,  3.95s/it] 46%|████████████████████████████████████████████████████████████████▎                                                                            | 2277/4993 [2:33:17<3:05:43,  4.10s/it] 46%|████████████████████████████████████████████████████████████████▎                                                                            | 2278/4993 [2:33:21<3:02:01,  4.02s/it] 46%|████████████████████████████████████████████████████████████████▎                                                                            | 2279/4993 [2:33:25<3:06:55,  4.13s/it] 46%|████████████████████████████████████████████████████████████████▍                                                                            | 2280/4993 [2:33:29<3:02:25,  4.03s/it]                                                                                                                                                                                          {'loss': 0.591, 'grad_norm': 2.015625, 'learning_rate': 2.9272688098116974e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2042.32, 'epoch': 4.56}
+ 46%|████████████████████████████████████████████████████████████████▍                                                                            | 2280/4993 [2:33:29<3:02:25,  4.03s/it] 46%|████████████████████████████████████████████████████████████████▍                                                                            | 2281/4993 [2:33:33<3:03:43,  4.06s/it] 46%|████████████████████████████████████████████████████████████████▍                                                                            | 2282/4993 [2:33:37<2:59:30,  3.97s/it] 46%|████████████████████████████████████████████████████████████████▍                                                                            | 2283/4993 [2:33:40<2:54:03,  3.85s/it] 46%|████████████████████████████████████████████████████████████████▍                                                                            | 2284/4993 [2:33:44<2:47:19,  3.71s/it] 46%|████████████████████████████████████████████████████████████████▌                                                                            | 2285/4993 [2:33:48<2:48:28,  3.73s/it] 46%|████████████████████████████████████████████████████████████████▌                                                                            | 2286/4993 [2:33:52<2:52:48,  3.83s/it] 46%|████████████████████████████████████████████████████████████████▌                                                                            | 2287/4993 [2:33:56<3:01:13,  4.02s/it] 46%|████████████████████████████████████████████████████████████████▌                                                                            | 2288/4993 [2:34:00<3:05:58,  4.13s/it] 46%|████████████████████████████████████████████████████████████████▋                                                                            | 2289/4993 [2:34:05<3:10:24,  4.23s/it] 46%|████████████████████████████████████████████████████████████████▋                                                                            | 2290/4993 [2:34:09<3:13:26,  4.29s/it]                                                                                                                                                                                          {'loss': 0.5555, 'grad_norm': 1.875, 'learning_rate': 2.911444811054799e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1735.69, 'epoch': 4.58}
+ 46%|████████████████████████████████████████████████████████████████▋                                                                            | 2290/4993 [2:34:09<3:13:26,  4.29s/it] 46%|████████████████████████████████████████████████████████████████▋                                                                            | 2291/4993 [2:34:14<3:15:57,  4.35s/it] 46%|████████████████████████████████████████████████████████████████▋                                                                            | 2292/4993 [2:34:18<3:12:28,  4.28s/it] 46%|████████████████████████████████████████████████████████████████▊                                                                            | 2293/4993 [2:34:22<3:10:31,  4.23s/it] 46%|████████████████████████████████████████████████████████████████▊                                                                            | 2294/4993 [2:34:26<3:04:40,  4.11s/it] 46%|████████████████████████████████████████████████████████████��███▊                                                                            | 2295/4993 [2:34:30<3:06:32,  4.15s/it] 46%|████████████████████████████████████████████████████████████████▊                                                                            | 2296/4993 [2:34:34<3:07:45,  4.18s/it] 46%|████████████████████████████████████████████████████████████████▊                                                                            | 2297/4993 [2:34:39<3:08:51,  4.20s/it] 46%|████████████████████████████████████████████████████████████████▉                                                                            | 2298/4993 [2:34:43<3:11:17,  4.26s/it] 46%|████████████████████████████████████████████████████████████████▉                                                                            | 2299/4993 [2:34:47<3:02:56,  4.07s/it] 46%|████████████████████████████████████████████████████████████████▉                                                                            | 2300/4993 [2:34:51<2:59:52,  4.01s/it]                                                                                                                                                                                          {'loss': 0.5859, 'grad_norm': 2.078125, 'learning_rate': 2.895603850987129e-06, 'memory/max_active (GiB)': 40.32, 'memory/max_allocated (GiB)': 40.32, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1934.0, 'epoch': 4.6}
+ 46%|████████████████████████████████████████████████████████████████▉                                                                            | 2300/4993 [2:34:51<2:59:52,  4.01s/it] 46%|████████████████████████████████████████████████████████████████▉                                                                            | 2301/4993 [2:34:54<2:55:31,  3.91s/it] 46%|█████████████████████████████████████████████████████████████████                                                                            | 2302/4993 [2:34:58<2:58:30,  3.98s/it] 46%|█████████████████████████████████████████████████████████████████                                                                            | 2303/4993 [2:35:02<2:58:25,  3.98s/it] 46%|█████████████████████████████████████████████████████████████████                                                                            | 2304/4993 [2:35:06<2:58:22,  3.98s/it] 46%|█████████████████████████████████████████████████████████████████                                                                            | 2305/4993 [2:35:10<2:58:19,  3.98s/it] 46%|█████████████████████████████████████████████████████████████████                                                                            | 2306/4993 [2:35:14<2:54:56,  3.91s/it] 46%|█████████████████████████████████████████████████████████████████▏                                                                           | 2307/4993 [2:35:18<2:56:10,  3.94s/it] 46%|█████████████████████████████████████████████████████████████████▏                                                                           | 2308/4993 [2:35:22<2:52:12,  3.85s/it] 46%|█████████████████████████████████████��███████████████████████████▏                                                                           | 2309/4993 [2:35:26<2:56:38,  3.95s/it] 46%|█████████████████████████████████████████████████████████████████▏                                                                           | 2310/4993 [2:35:30<2:58:58,  4.00s/it]                                                                                                                                                                                          {'loss': 0.57, 'grad_norm': 1.953125, 'learning_rate': 2.8797465826329576e-06, 'memory/max_active (GiB)': 39.53, 'memory/max_allocated (GiB)': 39.53, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1739.54, 'epoch': 4.62}
+ 46%|█████████████████████████████████████████████████████████████████▏                                                                           | 2310/4993 [2:35:30<2:58:58,  4.00s/it] 46%|█████████████████████████████████████████████████████████████████▎                                                                           | 2311/4993 [2:35:34<3:00:31,  4.04s/it] 46%|█████████████████████████████████████████████████████████████████▎                                                                           | 2312/4993 [2:35:38<3:02:15,  4.08s/it] 46%|█████████████████████████████████████████████████████████████████▎                                                                           | 2313/4993 [2:35:42<3:01:13,  4.06s/it] 46%|█████████████████████████████████████████████████████████████████▎                                                                           | 2314/4993 [2:35:47<3:03:30,  4.11s/it] 46%|█████████████████████████████████████████████████████████████████▎                                                                           | 2315/4993 [2:35:51<3:01:34,  4.07s/it] 46%|█████████████████████████████████████████████████████████████████▍                                                                           | 2316/4993 [2:35:55<3:02:46,  4.10s/it] 46%|█████████████████████████████████████████████████████████████████▍                                                                           | 2317/4993 [2:35:59<3:01:45,  4.08s/it] 46%|█████████████████████████████████████████████████████████████████▍                                                                           | 2318/4993 [2:36:03<3:00:51,  4.06s/it] 46%|█████████████████████████████████████████████████████████████████▍                                                                           | 2319/4993 [2:36:07<2:59:46,  4.03s/it] 46%|█████████████████████████████████████████████████████████████████▌                                                                           | 2320/4993 [2:36:11<2:56:48,  3.97s/it]                                                                                                                                                                                          {'loss': 0.5527, 'grad_norm': 1.96875, 'learning_rate': 2.86387365968884e-06, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2051.88, 'epoch': 4.64}
+ 46%|█████████████████████████████████████████████████████████████████▌                                                                           | 2320/4993 [2:36:11<2:56:48,  3.97s/it] 46%|█████████████████████████████████████████████████████████████████▌                                                                           | 2321/4993 [2:36:14<2:55:42,  3.95s/it] 47%|█████████████████████████████████████████████████████████████████▌                                                                           | 2322/4993 [2:36:18<2:55:29,  3.94s/it] 47%|█████████████████████████████████████████████████████████████████▌                                                                           | 2323/4993 [2:36:23<3:04:27,  4.15s/it] 47%|█████████████████████████████████████████████████████████████████▋                                                                           | 2324/4993 [2:36:27<3:00:29,  4.06s/it] 47%|█████████████████████████████████████████████████████████████████▋                                                                           | 2325/4993 [2:36:31<2:56:27,  3.97s/it] 47%|█████████████████████████████████████████████████████████████████▋                                                                           | 2326/4993 [2:36:34<2:54:47,  3.93s/it] 47%|█████████████████████████████████████████████████████████████████▋                                                                           | 2327/4993 [2:36:39<3:01:46,  4.09s/it] 47%|█████████████████████████████████████████████████████████████████▋                                                                           | 2328/4993 [2:36:43<3:00:21,  4.06s/it] 47%|█████████████████████████████████████████████████████████████████▊                                                                           | 2329/4993 [2:36:47<2:57:21,  3.99s/it] 47%|█████████████████████████████████████████████████████████████████▊                                                                           | 2330/4993 [2:36:51<3:03:10,  4.13s/it]                                                                                                                                                                                          {'loss': 0.5647, 'grad_norm': 1.9453125, 'learning_rate': 2.8479857364966773e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1715.12, 'epoch': 4.66}
+ 47%|█████████████████████████████████████████████████████████████████▊                                                                           | 2330/4993 [2:36:51<3:03:10,  4.13s/it] 47%|█████████████████████████████████████████████████████████████████▊                                                                           | 2331/4993 [2:36:55<3:04:39,  4.16s/it] 47%|█████████████████████████████████████████████████████████████████▊                                                                           | 2332/4993 [2:36:59<3:00:07,  4.06s/it] 47%|█████████████████████████████████████████████████████████████████▉                                                                           | 2333/4993 [2:37:03<2:58:36,  4.03s/it] 47%|█████████████████████████████████████████████████████████████████▉                                                                           | 2334/4993 [2:37:07<2:52:29,  3.89s/it] 47%|█████████████████████████████████████████████████████████████████▉                                                                           | 2335/4993 [2:37:11<3:01:56,  4.11s/it] 47%|█████████████████████████████████████████████████████████████████▉                                                                           | 2336/4993 [2:37:15<2:57:56,  4.02s/it] 47%|█████████████████████████████████████████████████████████████████▉                                                                           | 2337/4993 [2:37:19<2:56:16,  3.98s/it] 47%|██████████████████████████████████████████████████████████████████                                                                           | 2338/4993 [2:37:23<2:53:58,  3.93s/it] 47%|██████████████████████████████████████████████████████████████████                                                                           | 2339/4993 [2:37:27<2:54:39,  3.95s/it] 47%|██████████████████████████████████████████████████████████████████                                                                           | 2340/4993 [2:37:31<2:56:36,  3.99s/it]                                                                                                                                                                                          {'loss': 0.5796, 'grad_norm': 2.265625, 'learning_rate': 2.8320834680167333e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1755.38, 'epoch': 4.68}
+ 47%|██████████████████████████████████████████████████████████████████                                                                           | 2340/4993 [2:37:31<2:56:36,  3.99s/it] 47%|██████████████████████████████████████████████████████████████████                                                                           | 2341/4993 [2:37:35<2:53:53,  3.93s/it] 47%|██████████████████████████████████████████████████████████████████▏                                                                          | 2342/4993 [2:37:38<2:49:29,  3.84s/it] 47%|██████████████████████████████████████████████████████████████████▏                                                                          | 2343/4993 [2:37:43<2:59:49,  4.07s/it] 47%|██████████████████████████████████████████████████████████████████▏                                                                          | 2344/4993 [2:37:47<2:58:25,  4.04s/it] 47%|██████████████████████████████████████████████████████████████████▏                                                                          | 2345/4993 [2:37:51<2:56:49,  4.01s/it] 47%|██████████████████████████████████████████████████████████████████▏                                                                          | 2346/4993 [2:37:54<2:50:58,  3.88s/it] 47%|██████████████████████████████████████████████████████████████████▎                                                                          | 2347/4993 [2:37:59<2:56:21,  4.00s/it] 47%|█████���████████████████████████████████████████████████████████████▎                                                                          | 2348/4993 [2:38:03<2:53:31,  3.94s/it] 47%|██████████████████████████████████████████████████████████████████▎                                                                          | 2349/4993 [2:38:07<2:58:12,  4.04s/it] 47%|██████████████████████████████████████████████████████████████████▎                                                                          | 2350/4993 [2:38:11<2:58:31,  4.05s/it]                                                                                                                                                                                          {'loss': 0.5812, 'grad_norm': 1.9375, 'learning_rate': 2.816167509800642e-06, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1949.79, 'epoch': 4.7}
+ 47%|██████████████████████████████████████████████████████████████████▎                                                                          | 2350/4993 [2:38:11<2:58:31,  4.05s/it] 47%|██████████████████████████████████████████████████████████████████▍                                                                          | 2351/4993 [2:38:15<3:00:09,  4.09s/it] 47%|██████████████████████████████████████████████████████████████████▍                                                                          | 2352/4993 [2:38:19<3:00:36,  4.10s/it] 47%|██████████████████████████████████████████████████████████████████▍                                                                          | 2353/4993 [2:38:23<2:59:09,  4.07s/it] 47%|██████████████████████████████████████████████████████████████████▍                                                                          | 2354/4993 [2:38:28<3:02:22,  4.15s/it] 47%|██████████████████████████████████████████████████████████████████▌                                                                          | 2355/4993 [2:38:31<2:57:26,  4.04s/it] 47%|██████████████████████████████████████████████████████████████████▌                                                                          | 2356/4993 [2:38:35<2:51:39,  3.91s/it] 47%|██████████████████████████████████████████████████████████████████▌                                                                          | 2357/4993 [2:38:39<2:51:04,  3.89s/it] 47%|██████████████████████████████████████████████████████████████████▌                                                                          | 2358/4993 [2:38:43<2:54:04,  3.96s/it] 47%|██████████████████████████████████████████████████████████████████▌                                                                          | 2359/4993 [2:38:47<2:50:34,  3.89s/it] 47%|██████████████████████████████████████████████████████████████████▋                                                                          | 2360/4993 [2:38:50<2:49:50,  3.87s/it]                                                                                                                                                                                          {'loss': 0.5936, 'grad_norm': 2.25, 'learning_rate': 2.8002385179643777e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1807.38, 'epoch': 4.72}
+ 47%|██████████████████████████████████████████████████████████████████▋                                                                          | 2360/4993 [2:38:50<2:49:50,  3.87s/it] 47%|██████████████████████████████████████████████████████████████████▋                                                                          | 2361/4993 [2:38:54<2:51:31,  3.91s/it] 47%|██████████████████████████████████████████████████████████████████▋                                                                          | 2362/4993 [2:38:58<2:50:04,  3.88s/it] 47%|██████████████████████████████████████████████████████████████████▋                                                                          | 2363/4993 [2:39:02<2:49:23,  3.86s/it] 47%|██████████████████████████████████████████████████████████████████▊                                                                          | 2364/4993 [2:39:07<3:00:03,  4.11s/it] 47%|██████████████████████████████████████████████████████████████████▊                                                                          | 2365/4993 [2:39:11<2:58:41,  4.08s/it] 47%|██████████████████████████████████████████████████████████████████▊                                                                          | 2366/4993 [2:39:15<2:56:08,  4.02s/it] 47%|██████████████████████████████████████████████████████████████████▊                                                                          | 2367/4993 [2:39:18<2:53:18,  3.96s/it] 47%|██████████████████████████████████████████████████████████████████▊                                                                          | 2368/4993 [2:39:23<2:56:54,  4.04s/it] 47%|██████████████████████████████████████████████████████████████████▉                                                                          | 2369/4993 [2:39:27<2:58:51,  4.09s/it] 47%|██████████████████████████████████████████████████████████████████▉                                                                          | 2370/4993 [2:39:31<2:57:42,  4.06s/it]                                                                                                                                                                                          {'loss': 0.5797, 'grad_norm': 1.953125, 'learning_rate': 2.784297149161212e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1942.08, 'epoch': 4.74}
+ 47%|██████████████████████████████████████████████████████████████████▉                                                                          | 2370/4993 [2:39:31<2:57:42,  4.06s/it] 47%|██████████████████████████████████████████████████████████████████▉                                                                          | 2371/4993 [2:39:35<3:00:06,  4.12s/it] 48%|██████████████████████████████████████████████████████████████████▉                                                                          | 2372/4993 [2:39:40<3:03:42,  4.21s/it] 48%|███████████████████████████████████████████████████████████████████                                                                          | 2373/4993 [2:39:44<3:01:20,  4.15s/it] 48%|███████████████████████████████████████████████████████████████████                                                                          | 2374/4993 [2:39:47<2:56:55,  4.05s/it] 48%|███████████████████████████████████████████████████████████████████                                                                          | 2375/4993 [2:39:52<3:00:20,  4.13s/it] 48%|███████████████████████████████████████████████████████████████████                                                                          | 2376/4993 [2:39:56<3:02:55,  4.19s/it] 48%|███████████████████████████████████████████████████████████████████▏                                                                         | 2377/4993 [2:40:01<3:12:24,  4.41s/it] 48%|███████████████████████████████████████████████████████████████████▏                                                                         | 2378/4993 [2:40:05<3:10:20,  4.37s/it] 48%|███████████████████████████████████████████████████████████████████▏                                                                         | 2379/4993 [2:40:09<3:02:53,  4.20s/it] 48%|███████████████████████████████████████████████████████████████████▏                                                                         | 2380/4993 [2:40:13<3:04:25,  4.23s/it]                                                                                                                                                                                          {'loss': 0.5624, 'grad_norm': 1.7265625, 'learning_rate': 2.7683440605546384e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1994.24, 'epoch': 4.76}
+ 48%|███████████████████████████████████████████████████████████████████▏                                                                         | 2380/4993 [2:40:13<3:04:25,  4.23s/it] 48%|███████████████████████████████████████████████████████████████████▏                                                                         | 2381/4993 [2:40:17<3:00:22,  4.14s/it] 48%|███████████████████████████████████████████████████████████████████▎                                                                         | 2382/4993 [2:40:21<2:57:02,  4.07s/it] 48%|███████████████████████████████████████████████████████████████████▎                                                                         | 2383/4993 [2:40:25<2:54:21,  4.01s/it] 48%|███████████████████████████████████████████████████████████████████▎                                                                         | 2384/4993 [2:40:29<2:56:34,  4.06s/it] 48%|███████████████████████████████████████████████████████████████████▎                                                                         | 2385/4993 [2:40:33<2:52:28,  3.97s/it] 48%|███████████████████████████████████████████████████████████████████▍                                                                         | 2386/4993 [2:40:37<2:49:35,  3.90s/it] 48%|███████████████████████████████████████████████████████████████████▍                                                                         | 2387/4993 [2:40:41<2:51:51,  3.96s/it] 48%|███████████████████████████████████████████████████████████████████▍                                                                         | 2388/4993 [2:40:44<2:46:29,  3.83s/it] 48%|███████████████████████████████████████████████████████████████████▍                                                                         | 2389/4993 [2:40:49<2:52:57,  3.99s/it] 48%|███████████████████████████████████████████████████████████████████▍                                                                         | 2390/4993 [2:40:52<2:47:33,  3.86s/it]                                                                                                                                                                                          {'loss': 0.601, 'grad_norm': 2.625, 'learning_rate': 2.7523799097912905e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2056.66, 'epoch': 4.78}
+ 48%|███████████████████████████████████████████████████████████████████▍                                                                         | 2390/4993 [2:40:52<2:47:33,  3.86s/it] 48%|███████████████████████████████████████████████████████████████████▌                                                                         | 2391/4993 [2:40:56<2:46:58,  3.85s/it] 48%|███████████████████████████████████████████████████████████████████▌                                                                         | 2392/4993 [2:41:00<2:48:33,  3.89s/it] 48%|███████████████████████████████████████████████████████████████████▌                                                                         | 2393/4993 [2:41:04<2:43:50,  3.78s/it] 48%|███████████████████████████████████████████████████████████████████▌                                                                         | 2394/4993 [2:41:08<2:46:45,  3.85s/it] 48%|███████████████████████████████████████████████████████████████████▋                                                                         | 2395/4993 [2:41:11<2:46:16,  3.84s/it] 48%|███████████████████████████████████████████████████████████████████▋                                                                         | 2396/4993 [2:41:16<2:50:36,  3.94s/it] 48%|███████████████████████████████████████████████████████████████████▋                                                                         | 2397/4993 [2:41:19<2:46:59,  3.86s/it] 48%|███████████████████████████████████████████████████████████████████▋                                                                         | 2398/4993 [2:41:24<2:51:35,  3.97s/it] 48%|███████████████████████████████████████████████████████████████████▋                                                                         | 2399/4993 [2:41:27<2:46:42,  3.86s/it] 48%|███████████████████████████████████████████████████████████████████▊                                                                         | 2400/4993 [2:41:31<2:50:37,  3.95s/it]                                                                                                                                                                                          {'loss': 0.5673, 'grad_norm': 2.046875, 'learning_rate': 2.7364053549738206e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1804.75, 'epoch': 4.8}
+ 48%|███████████████████████████████████████████████████████████████████▊                                                                         | 2400/4993 [2:41:31<2:50:37,  3.95s/it] 48%|███████████████████████████████████████████████████████████████████▊                                                                         | 2401/4993 [2:41:35<2:52:22,  3.99s/it] 48%|███████████████████████████████████████████████████████████████████▊                                                                         | 2402/4993 [2:41:40<2:56:17,  4.08s/it] 48%|███████████████████████████████████████████████████████████████████▊                                                                         | 2403/4993 [2:41:44<2:52:53,  4.01s/it] 48%|███████████████████████████████████████████████████████████████████▉                                                                         | 2404/4993 [2:41:47<2:47:15,  3.88s/it] 48%|███████████████████████████████████████████████████████████████████▉                                                                         | 2405/4993 [2:41:51<2:49:02,  3.92s/it] 48%|███████████████████████████████████████████████████████████████████▉                                                                         | 2406/4993 [2:41:55<2:52:33,  4.00s/it] 48%|███████████████████████████████████████████████████████████████████▉                                                                         | 2407/4993 [2:42:00<2:56:12,  4.09s/it] 48%|████████████████████████████████████████████████████████████████████                                                                         | 2408/4993 [2:42:03<2:52:11,  4.00s/it] 48%|████████████████████████████████████████████████████████████████████                                                                         | 2409/4993 [2:42:07<2:50:02,  3.95s/it] 48%|████████████████████████████████████████████████████████████████████                                                                         | 2410/4993 [2:42:11<2:49:26,  3.94s/it]                                                                                                                                                                                          {'loss': 0.5639, 'grad_norm': 2.625, 'learning_rate': 2.720421054633779e-06, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1819.6, 'epoch': 4.82}
+ 48%|████████████████████████████████████████████████████████████████████                                                                         | 2410/4993 [2:42:11<2:49:26,  3.94s/it] 48%|████████████████████████████████████████████████████████████████████                                                                         | 2411/4993 [2:42:16<3:02:31,  4.24s/it] 48%|████████████████████████████████████████████████████████████████████                                                                         | 2412/4993 [2:42:20<2:57:31,  4.13s/it] 48%|████████████████████████████████████████████████████████████████████▏                                                                        | 2413/4993 [2:42:24<2:59:49,  4.18s/it] 48%|████████████████████████████████████████████████████████████████████▏                                                                        | 2414/4993 [2:42:28<2:57:42,  4.13s/it] 48%|████████████████████████████████████████████████████████████████████▏                                                                        | 2415/4993 [2:42:32<2:52:15,  4.01s/it] 48%|████████████████████████████████████████████████████████████████████▏                                                                        | 2416/4993 [2:42:36<2:47:30,  3.90s/it] 48%|████████████████████████████████████████████████████████████████████▎                                                                        | 2417/4993 [2:42:39<2:46:28,  3.88s/it] 48%|████████████████████████████████████████████████████████████████████▎                                                                        | 2418/4993 [2:42:43<2:45:57,  3.87s/it] 48%|████████████████████████████████████████████████████████████████████▎                                                                        | 2419/4993 [2:42:47<2:45:00,  3.85s/it] 48%|████████████████████████████████████████████████████████████████████▎                                                                        | 2420/4993 [2:42:51<2:49:32,  3.95s/it]                                                                                                                                                                                          {'loss': 0.5898, 'grad_norm': 1.875, 'learning_rate': 2.70442766770446e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1952.03, 'epoch': 4.84}
+ 48%|████████████████████████████████████████████████████████████████████▎                                                                        | 2420/4993 [2:42:51<2:49:32,  3.95s/it] 48%|████████████████████████████████████████████████████████████████████▎                                                                        | 2421/4993 [2:42:55<2:46:24,  3.88s/it] 49%|████████████████████████████████████████████████████████████████████▍                                                                        | 2422/4993 [2:42:59<2:43:19,  3.81s/it] 49%|████████████████████████████████████████████████████████████████████▍                                                                        | 2423/4993 [2:43:03<2:47:57,  3.92s/it] 49%|███████████████████████████████████████████████████████████████████��▍                                                                        | 2424/4993 [2:43:07<2:52:50,  4.04s/it] 49%|████████████████████████████████████████████████████████████████████▍                                                                        | 2425/4993 [2:43:11<2:54:00,  4.07s/it] 49%|████████████████████████████████████████████████████████████████████▌                                                                        | 2426/4993 [2:43:15<2:50:14,  3.98s/it] 49%|████████████████████████████████████████████████████████████████████▌                                                                        | 2427/4993 [2:43:19<2:48:11,  3.93s/it] 49%|████████████████████████████████████████████████████████████████████▌                                                                        | 2428/4993 [2:43:23<2:48:02,  3.93s/it] 49%|████████████████████████████████████████████████████████████████████▌                                                                        | 2429/4993 [2:43:27<2:48:16,  3.94s/it] 49%|████████████████████████████████████████████████████████████████████▌                                                                        | 2430/4993 [2:43:31<2:49:30,  3.97s/it]                                                                                                                                                                                          {'loss': 0.567, 'grad_norm': 2.484375, 'learning_rate': 2.6884258534937444e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1783.99, 'epoch': 4.86}
+ 49%|████████████████████████████████████████████████████████████████████▌                                                                        | 2430/4993 [2:43:31<2:49:30,  3.97s/it] 49%|████████████████████████████████████████████████████████████████████▋                                                                        | 2431/4993 [2:43:35<2:49:39,  3.97s/it] 49%|████████████████████████████████████████████████████████████████████▋                                                                        | 2432/4993 [2:43:39<2:49:22,  3.97s/it] 49%|████████████████████████████████████████████████████████████████████▋                                                                        | 2433/4993 [2:43:42<2:43:41,  3.84s/it] 49%|████████████████████████████████████████████████████████████████████▋                                                                        | 2434/4993 [2:43:46<2:43:19,  3.83s/it] 49%|████████████████████████████████████████████████████████████████████▊                                                                        | 2435/4993 [2:43:50<2:45:50,  3.89s/it] 49%|████████████████████████████████████████████████████████████████████▊                                                                        | 2436/4993 [2:43:54<2:48:50,  3.96s/it] 49%|████████████████████████████████████████████████████████████████████▊                                                                        | 2437/4993 [2:43:58<2:48:37,  3.96s/it] 49%|█████���██████████████████████████████████████████████████████████████▊                                                                        | 2438/4993 [2:44:02<2:44:21,  3.86s/it] 49%|████████████████████████████████████████████████████████████████████▉                                                                        | 2439/4993 [2:44:06<2:48:43,  3.96s/it] 49%|████████████████████████████████████████████████████████████████████▉                                                                        | 2440/4993 [2:44:10<2:50:03,  4.00s/it]                                                                                                                                                                                          {'loss': 0.588, 'grad_norm': 2.140625, 'learning_rate': 2.672416271656916e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1850.6, 'epoch': 4.88}
+ 49%|████████████████████████████████████████████████████████████████████▉                                                                        | 2440/4993 [2:44:10<2:50:03,  4.00s/it] 49%|████████████████████████████████████████████████████████████████████▉                                                                        | 2441/4993 [2:44:14<2:55:06,  4.12s/it] 49%|████████████████████████████████████████████████████████████████████▉                                                                        | 2442/4993 [2:44:19<3:01:11,  4.26s/it] 49%|████████████████████████████████████████████████████████████████████▉                                                                        | 2443/4993 [2:44:23<2:54:51,  4.11s/it] 49%|█████████████████████████████████████████████████████████████████████                                                                        | 2444/4993 [2:44:27<2:54:57,  4.12s/it] 49%|█████████████████████████████████████████████████████████████████████                                                                        | 2445/4993 [2:44:31<2:53:06,  4.08s/it] 49%|█████████████████████████████████████████████████████████████████████                                                                        | 2446/4993 [2:44:35<2:51:29,  4.04s/it] 49%|█████████████████████████████████████████████████████████████████████                                                                        | 2447/4993 [2:44:39<2:54:38,  4.12s/it] 49%|█████████████████████████████████████████████████████████████████████▏                                                                       | 2448/4993 [2:44:43<2:55:35,  4.14s/it] 49%|█████████████████████████████████████████████████████████████████████▏                                                                       | 2449/4993 [2:44:47<2:51:47,  4.05s/it] 49%|█████████████████████████████████████████████████████████████████████▏                                                                       | 2450/4993 [2:44:51<2:52:56,  4.08s/it]                                                                                                                                                                                          {'loss': 0.5561, 'grad_norm': 1.6796875, 'learning_rate': 2.6563995821694698e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1986.39, 'epoch': 4.9}
+ 49%|█████████████████████████████████████████████████████████████████████▏                                                                       | 2450/4993 [2:44:51<2:52:56,  4.08s/it] 49%|█████████████████████████████████████████████████████████████████████▏                                                                       | 2451/4993 [2:44:56<2:53:52,  4.10s/it] 49%|█████████████████████████████████████████████████████████████████████▏                                                                       | 2452/4993 [2:44:59<2:51:30,  4.05s/it] 49%|█████████████████████████████████████████████████████████████████████▎                                                                       | 2453/4993 [2:45:03<2:47:43,  3.96s/it] 49%|█████████████████████████████████████████████████████████████████████▎                                                                       | 2454/4993 [2:45:07<2:50:28,  4.03s/it] 49%|█████████████████████████████████████████████████████████████████████▎                                                                       | 2455/4993 [2:45:11<2:47:07,  3.95s/it] 49%|█████████████████████████████████████████████████████████████████████▎                                                                       | 2456/4993 [2:45:15<2:51:05,  4.05s/it] 49%|█████████████████████████████████████████████████████████████████████▍                                                                       | 2457/4993 [2:45:20<2:50:56,  4.04s/it] 49%|█████████████████████████████████████████████████████████████████████▍                                                                       | 2458/4993 [2:45:24<2:52:33,  4.08s/it] 49%|█████████████████████████████████████████████████████████████████████▍                                                                       | 2459/4993 [2:45:27<2:48:06,  3.98s/it] 49%|█████████████████████████████████████████████████████████████████████▍                                                                       | 2460/4993 [2:45:32<2:50:15,  4.03s/it]                                                                                                                                                                                          {'loss': 0.5675, 'grad_norm': 2.25, 'learning_rate': 2.640376445299905e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1928.21, 'epoch': 4.92}
+ 49%|█████████████████████████████████████████████████████████████████████▍                                                                       | 2460/4993 [2:45:32<2:50:15,  4.03s/it] 49%|█████████████████████████████████████████████████████████████████████▍                                                                       | 2461/4993 [2:45:36<2:52:09,  4.08s/it] 49%|████████████████████████████████████████████████████��████████████████▌                                                                       | 2462/4993 [2:45:40<2:50:34,  4.04s/it] 49%|█████████████████████████████████████████████████████████████████████▌                                                                       | 2463/4993 [2:45:44<2:56:32,  4.19s/it] 49%|█████████████████████████████████████████████████████████████████████▌                                                                       | 2464/4993 [2:45:48<2:55:20,  4.16s/it] 49%|█████████████████████████████████████████████████████████████████████▌                                                                       | 2465/4993 [2:45:52<2:52:53,  4.10s/it] 49%|█████████████████████████████████████████████████████████████████████▋                                                                       | 2466/4993 [2:45:56<2:52:19,  4.09s/it] 49%|█████████████████████████████████████████████████████████████████████▋                                                                       | 2467/4993 [2:46:01<2:52:49,  4.11s/it] 49%|█████████████████████████████████████████████████████████████████████▋                                                                       | 2468/4993 [2:46:05<2:53:30,  4.12s/it] 49%|█████████████████████████████████████████████████████████████████████▋                                                                       | 2469/4993 [2:46:08<2:47:42,  3.99s/it] 49%|█████████████████████████████████████████████████████████████████████▊                                                                       | 2470/4993 [2:46:12<2:43:50,  3.90s/it]                                                                                                                                                                                          {'loss': 0.6149, 'grad_norm': 2.359375, 'learning_rate': 2.624347521582507e-06, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2057.86, 'epoch': 4.94}
+ 49%|█████████████████████████████████████████████████████████████████████▊                                                                       | 2470/4993 [2:46:12<2:43:50,  3.90s/it] 49%|█████████████████████████████████████████████████████████████████████▊                                                                       | 2471/4993 [2:46:16<2:44:32,  3.91s/it] 50%|█████████████████████████████████████████████████████████████████████▊                                                                       | 2472/4993 [2:46:20<2:43:04,  3.88s/it] 50%|█████████████████████████████████████████████████████████████████████▊                                                                       | 2473/4993 [2:46:24<2:41:43,  3.85s/it] 50%|█████████████████████████████████████████████████████████████████████▊                                                                       | 2474/4993 [2:46:28<2:48:26,  4.01s/it] 50%|█████████████████████████████████████████████████████████████████████▉                                                                       | 2475/4993 [2:46:32<2:43:31,  3.90s/it] 50%|█████████████████████████████████████████████████████████████████████▉                                                                       | 2476/4993 [2:46:36<2:45:14,  3.94s/it] 50%|█████████████████████████████████████████████████████████████████████▉                                                                       | 2477/4993 [2:46:39<2:41:54,  3.86s/it] 50%|█████████████████████████████████████████████████████████████████████▉                                                                       | 2478/4993 [2:46:43<2:41:05,  3.84s/it] 50%|██████████████████████████████████████████████████████████████████████                                                                       | 2479/4993 [2:46:47<2:39:31,  3.81s/it] 50%|██████████████████████████████████████████████████████████████████████                                                                       | 2480/4993 [2:46:51<2:43:08,  3.90s/it]                                                                                                                                                                                          {'loss': 0.5642, 'grad_norm': 1.9765625, 'learning_rate': 2.608313471790115e-06, 'memory/max_active (GiB)': 37.88, 'memory/max_allocated (GiB)': 37.88, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1802.43, 'epoch': 4.96}
+ 50%|██████████████████████████████████████████████████████████████████████                                                                       | 2480/4993 [2:46:51<2:43:08,  3.90s/it] 50%|██████████████████████████████████████████████████████████████████████                                                                       | 2481/4993 [2:46:55<2:45:57,  3.96s/it] 50%|██████████████████████████████████████████████████████████████████████                                                                       | 2482/4993 [2:46:59<2:45:22,  3.95s/it] 50%|██████████████████████████████████████████████████████████████████████                                                                       | 2483/4993 [2:47:03<2:43:51,  3.92s/it] 50%|██████████████████████████████████████████████████████████████████████▏                                                                      | 2484/4993 [2:47:07<2:45:07,  3.95s/it] 50%|██████████████████████████████████████████████████████████████████████▏                                                                      | 2485/4993 [2:47:11<2:42:24,  3.89s/it] 50%|██████████████████████████████████████████████████████████████████████▏                                                                      | 2486/4993 [2:47:14<2:40:50,  3.85s/it] 50%|██████████████████████████████████████████████████████████████████████▏                                                                      | 2487/4993 [2:47:18<2:42:39,  3.89s/it] 50%|██████████████████████████████████████████████████████████████████████▎                                                                      | 2488/4993 [2:47:22<2:40:33,  3.85s/it] 50%|██████████████████████████████████████████████████████████████████████▎                                                                      | 2489/4993 [2:47:26<2:41:11,  3.86s/it] 50%|██████████████████████████████████████████████████████████████████████▎                                                                      | 2490/4993 [2:47:30<2:38:16,  3.79s/it]                                                                                                                                                                                          {'loss': 0.5616, 'grad_norm': 2.09375, 'learning_rate': 2.5922749569068868e-06, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1960.62, 'epoch': 4.98}
+ 50%|██████████████████████████████████████████████████████████████████████▎                                                                      | 2490/4993 [2:47:30<2:38:16,  3.79s/it] 50%|██████████████████████████████████████████████████████████████████████▎                                                                      | 2491/4993 [2:47:33<2:37:19,  3.77s/it] 50%|██████████████████████████████████████████████████████████████████████▎                                                                      | 2492/4993 [2:47:37<2:40:37,  3.85s/it] 50%|██████████████████████████████████████████████████████████████████████▍                                                                      | 2493/4993 [2:47:42<2:47:26,  4.02s/it] 50%|██████████████████████████████████████████████████████████████████████▍                                                                      | 2494/4993 [2:47:46<2:47:24,  4.02s/it] 50%|██████████████████████████████████████████████████████████████████████▍                                                                      | 2495/4993 [2:47:50<2:47:31,  4.02s/it] 50%|██████████████████████████████████████████████████████████████████████▍                                                                      | 2496/4993 [2:47:54<2:48:34,  4.05s/it] 50%|██████████████████████████████████████████████████████████████████████▌                                                                      | 2497/4993 [2:47:58<2:47:25,  4.02s/it] 50%|██████████████████████████████████████████████████████████████████████▌                                                                      | 2498/4993 [2:48:02<2:45:04,  3.97s/it] 50%|██████████████████████████████████████████████████████████████████████▌                                                                      | 2499/4993 [2:48:06<2:44:27,  3.96s/it] 50%|██████████████████████████████████████████████████████████████████████▌                                                                      | 2500/4993 [2:48:07<2:10:44,  3.15s/it]                                                                                                                                                                                          {'loss': 0.5691, 'grad_norm': 3.15625, 'learning_rate': 2.576232638101046e-06, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 6328.73, 'epoch': 5.0}
+ 50%|████████���█████████████████████████████████████████████████████████████▌                                                                      | 2500/4993 [2:48:07<2:10:44,  3.15s/it][2025-12-23 17:14:28,583] [INFO] [axolotl.core.trainers.base._save:671] [PID:5529] Saving model checkpoint to ./outputs/qwen3-4b-instruct-ded-full-train/checkpoint-2500
+ 50%|██████████████████████████████████████████████████████████████████████▋                                                                      | 2501/4993 [2:48:45<9:20:43, 13.50s/it] 50%|██████████████████████████████████████████████████████████████████████▋                                                                      | 2502/4993 [2:48:48<7:16:24, 10.51s/it] 50%|██████████████████████████████████████████████████████████████████████▋                                                                      | 2503/4993 [2:48:52<5:59:03,  8.65s/it] 50%|██████████████████████████████████████████████████████████████████████▋                                                                      | 2504/4993 [2:48:57<5:03:16,  7.31s/it] 50%|██████████████████████████████████████████████████████████████████████▋                                                                      | 2505/4993 [2:49:01<4:21:24,  6.30s/it] 50%|██████████████████████████████████████████████████████████████████████▊                                                                      | 2506/4993 [2:49:05<3:52:35,  5.61s/it] 50%|██████████████████████████████████████████████████████████████████████▊                                                                      | 2507/4993 [2:49:09<3:33:10,  5.15s/it] 50%|██████████████████████████████████████████████████████████████████████▊                                                                      | 2508/4993 [2:49:13<3:17:34,  4.77s/it] 50%|██████████████████████████████████████████████████████████████████████▊                                                                      | 2509/4993 [2:49:16<3:06:09,  4.50s/it] 50%|██████████████████████████████████████████████████████████████████████▉                                                                      | 2510/4993 [2:49:20<2:56:16,  4.26s/it]                                                                                                                                                                                          {'loss': 0.5648, 'grad_norm': 2.078125, 'learning_rate': 2.5601871766976296e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2129.71, 'epoch': 5.02}
+ 50%|██████████████████████████████████████████████████████████████████████▉                                                                      | 2510/4993 [2:49:20<2:56:16,  4.26s/it] 50%|██████████████████████████████████████████████████████████████████████▉                                                                      | 2511/4993 [2:49:24<2:51:47,  4.15s/it] 50%|██████████████████████████████████████████████████████████████████████▉                                                                      | 2512/4993 [2:49:28<2:51:21,  4.14s/it] 50%|██████████████████████████████████████████████████████████████████████▉                                                                      | 2513/4993 [2:49:32<2:45:58,  4.02s/it] 50%|██████████████████████████████████████████████████████████████████████▉                                                                      | 2514/4993 [2:49:36<2:46:09,  4.02s/it] 50%|███████████████████████████████████████████████████████████████████████                                                                      | 2515/4993 [2:49:40<2:45:18,  4.00s/it] 50%|███████████████████████████████████████████████████████████████████████                                                                      | 2516/4993 [2:49:44<2:51:19,  4.15s/it] 50%|███████████████████████████████████████████████████████████████████████                                                                      | 2517/4993 [2:49:48<2:47:35,  4.06s/it] 50%|███████████████████████████████████████████████████████████████████████                                                                      | 2518/4993 [2:49:52<2:46:54,  4.05s/it] 50%|███████████████████████████████████████████████████████████████████████▏                                                                     | 2519/4993 [2:49:56<2:45:43,  4.02s/it] 50%|███████████████████████████████████████████████████████████████████████▏                                                                     | 2520/4993 [2:50:00<2:40:52,  3.90s/it]                                                                                                                                                                                          {'loss': 0.5698, 'grad_norm': 2.21875, 'learning_rate': 2.5441392341512243e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2057.69, 'epoch': 5.04}
+ 50%|███████████████████████████████████████████████████████████████████████▏                                                                     | 2520/4993 [2:50:00<2:40:52,  3.90s/it] 50%|███████████████████████████████████████████████████████████████████████▏                                                                     | 2521/4993 [2:50:04<2:42:53,  3.95s/it] 51%|███████████████████████████████████████████████████████████████████████▏                                                                     | 2522/4993 [2:50:08<2:48:15,  4.09s/it] 51%|███████████████████████████████████████████████████████████████████████▏                                                                     | 2523/4993 [2:50:12<2:46:12,  4.04s/it] 51%|███████████████████████████████████████████████████████████████████████▎                                                                     | 2524/4993 [2:50:16<2:40:40,  3.90s/it] 51%|███████████████████████████████████████████████████████████████████████▎                                                                     | 2525/4993 [2:50:20<2:42:50,  3.96s/it] 51%|��██████████████████████████████████████████████████████████████████████▎                                                                     | 2526/4993 [2:50:23<2:38:18,  3.85s/it] 51%|███████████████████████████████████████████████████████████████████████▎                                                                     | 2527/4993 [2:50:28<2:42:57,  3.97s/it] 51%|███████████████████████████████████████████████████████████████████████▍                                                                     | 2528/4993 [2:50:31<2:38:55,  3.87s/it] 51%|███████████████████████████████████████████████████████████████████████▍                                                                     | 2529/4993 [2:50:35<2:39:53,  3.89s/it] 51%|███████████████████████████████████████████████████████████████████████▍                                                                     | 2530/4993 [2:50:39<2:38:33,  3.86s/it]                                                                                                                                                                                          {'loss': 0.589, 'grad_norm': 2.296875, 'learning_rate': 2.528089472018698e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1827.48, 'epoch': 5.06}
+ 51%|███████████████████████████████████████████████████████████████████████▍                                                                     | 2530/4993 [2:50:39<2:38:33,  3.86s/it] 51%|███████████████████████████████████████████████████████████████████████▍                                                                     | 2531/4993 [2:50:43<2:38:40,  3.87s/it] 51%|███████████████████████████████████████████████████████████████████████▌                                                                     | 2532/4993 [2:50:47<2:45:07,  4.03s/it] 51%|███████████████████████████████████████████████████████████████████████▌                                                                     | 2533/4993 [2:50:51<2:39:47,  3.90s/it] 51%|███████████████████████████████████████████████████████████████████████▌                                                                     | 2534/4993 [2:50:55<2:42:59,  3.98s/it] 51%|███████████████████████████████████████████████████████████████████████▌                                                                     | 2535/4993 [2:50:59<2:43:42,  4.00s/it] 51%|███████████████████████████████████████████████████████████████████████▌                                                                     | 2536/4993 [2:51:03<2:48:05,  4.10s/it] 51%|███████████████████████████████████████████████████████████████████████▋                                                                     | 2537/4993 [2:51:07<2:46:18,  4.06s/it] 51%|███████████████████████████████████████████████████████████████████████▋                                                                     | 2538/4993 [2:51:11<2:43:57,  4.01s/it] 51%|███████████████████████████████████████████████████████████████████████▋                                                                     | 2539/4993 [2:51:16<2:46:27,  4.07s/it] 51%|███████████████████████████████████████████████████████████████████████▋                                                                     | 2540/4993 [2:51:19<2:40:28,  3.93s/it]                                                                                                                                                                                          {'loss': 0.5754, 'grad_norm': 2.25, 'learning_rate': 2.5120385519319307e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2087.99, 'epoch': 5.08}
+ 51%|███████████████████████████████████████████████████████████████████████▋                                                                     | 2540/4993 [2:51:19<2:40:28,  3.93s/it] 51%|███████████████████████████████████████████████████████████████████████▊                                                                     | 2541/4993 [2:51:24<2:47:42,  4.10s/it] 51%|███████████████████████████████████████████████████████████████████████▊                                                                     | 2542/4993 [2:51:28<2:47:35,  4.10s/it] 51%|███████████████████████████████████████████████████████████████████████▊                                                                     | 2543/4993 [2:51:32<2:49:21,  4.15s/it] 51%|███████████████████████████████████████████████████████████████████████▊                                                                     | 2544/4993 [2:51:36<2:53:13,  4.24s/it] 51%|███████████████████████████████████████████████████████████████████████▊                                                                     | 2545/4993 [2:51:40<2:49:21,  4.15s/it] 51%|███████████████████████████████████████████████████████████████████████▉                                                                     | 2546/4993 [2:51:44<2:46:44,  4.09s/it] 51%|███████████████████████████████████████████████████████████████████████▉                                                                     | 2547/4993 [2:51:48<2:38:11,  3.88s/it] 51%|███████████████████████████████████████████████████████████████████████▉                                                                     | 2548/4993 [2:51:52<2:36:50,  3.85s/it] 51%|███████████████████████████████████████████████████████████████████████▉                                                                     | 2549/4993 [2:51:56<2:43:35,  4.02s/it] 51%|████████████████████████████████████████████████████████████████████████                                                                     | 2550/4993 [2:52:00<2:41:14,  3.96s/it]                                                                                                                                                                                          {'loss': 0.5681, 'grad_norm': 2.34375, 'learning_rate': 2.4959871355705346e-06, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2048.23, 'epoch': 5.1}
+ 51%|████��███████████████████████████████████████████████████████████████████                                                                     | 2550/4993 [2:52:00<2:41:14,  3.96s/it] 51%|████████████████████████████████████████████████████████████████████████                                                                     | 2551/4993 [2:52:04<2:41:10,  3.96s/it] 51%|████████████████████████████████████████████████████████████████████████                                                                     | 2552/4993 [2:52:08<2:41:26,  3.97s/it] 51%|████████████████████████████████████████████████████████████████████████                                                                     | 2553/4993 [2:52:12<2:40:46,  3.95s/it] 51%|████████████████████████████████████████████████████████████████████████                                                                     | 2554/4993 [2:52:16<2:44:23,  4.04s/it] 51%|████████████████████████████████████████████████████████████████████████▏                                                                    | 2555/4993 [2:52:20<2:45:43,  4.08s/it] 51%|████████████████████████████████████████████████████████████████████████▏                                                                    | 2556/4993 [2:52:24<2:47:55,  4.13s/it] 51%|████████████████████████████████████████████████████████████████████████▏                                                                    | 2557/4993 [2:52:28<2:44:23,  4.05s/it] 51%|████████████████████████████████████████████████████████████████████████▏                                                                    | 2558/4993 [2:52:32<2:40:38,  3.96s/it] 51%|████████████████████████████████████████████████████████████████████████▎                                                                    | 2559/4993 [2:52:36<2:41:43,  3.99s/it] 51%|████████████████████████████████████████████████████████████████████████▎                                                                    | 2560/4993 [2:52:40<2:42:10,  4.00s/it]                                                                                                                                                                                          {'loss': 0.5583, 'grad_norm': 2.046875, 'learning_rate': 2.4799358846345826e-06, 'memory/max_active (GiB)': 44.5, 'memory/max_allocated (GiB)': 44.5, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1843.37, 'epoch': 5.12}
+ 51%|████████████████████████████████████████████████████████████████████████▎                                                                    | 2560/4993 [2:52:40<2:42:10,  4.00s/it] 51%|████████████████████████████████████████████████████████████████████████▎                                                                    | 2561/4993 [2:52:44<2:44:01,  4.05s/it] 51%|████████████████████████████████████████████████████████████████████████▎                                                                    | 2562/4993 [2:52:49<2:47:42,  4.14s/it] 51%|████████████████████████████████████████████████████████████████████████▍                                                                    | 2563/4993 [2:52:53<2:49:05,  4.18s/it] 51%|████████████████████████████████████████████████████████████████████████▍                                                                    | 2564/4993 [2:52:56<2:43:39,  4.04s/it] 51%|████████████████████████████████████████████████████████████████████████▍                                                                    | 2565/4993 [2:53:01<2:47:35,  4.14s/it] 51%|████████████████████████████████████████████████████████████████████████▍                                                                    | 2566/4993 [2:53:05<2:42:48,  4.02s/it] 51%|████████████████████████████████████████████████████████████████████████▍                                                                    | 2567/4993 [2:53:08<2:38:35,  3.92s/it] 51%|████████████████████████████████████████████████████████████████████████▌                                                                    | 2568/4993 [2:53:12<2:38:51,  3.93s/it] 51%|████████████████████████████████████████████████████████████████████████▌                                                                    | 2569/4993 [2:53:16<2:36:58,  3.89s/it] 51%|████████████████████████████████████████████████████████████████████████▌                                                                    | 2570/4993 [2:53:20<2:35:54,  3.86s/it]                                                                                                                                                                                          {'loss': 0.5806, 'grad_norm': 2.09375, 'learning_rate': 2.4638854608173284e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2001.26, 'epoch': 5.14}
+ 51%|████████████████████████████████████████████████████████████████████████▌                                                                    | 2570/4993 [2:53:20<2:35:54,  3.86s/it] 51%|████████████████████████████████████████████████████████████████████████▌                                                                    | 2571/4993 [2:53:24<2:37:18,  3.90s/it] 52%|████████████████████████████████████████████████████████████████████████▋                                                                    | 2572/4993 [2:53:28<2:37:27,  3.90s/it] 52%|████████████████████████████████████████████████████████████████████████▋                                                                    | 2573/4993 [2:53:32<2:37:10,  3.90s/it] 52%|████████████████████████████████████████████████████████████████████████▋                                                                    | 2574/4993 [2:53:36<2:40:38,  3.98s/it] 52%|████████████████████████████████████████████████████████████████████████▋                                                                    | 2575/4993 [2:53:40<2:37:35,  3.91s/it] 52%|█████████████████████████��██████████████████████████████████████████████▋                                                                    | 2576/4993 [2:53:43<2:36:30,  3.89s/it] 52%|████████████████████████████████████████████████████████████████████████▊                                                                    | 2577/4993 [2:53:48<2:42:36,  4.04s/it] 52%|████████████████████████████████████████████████████████████████████████▊                                                                    | 2578/4993 [2:53:52<2:39:23,  3.96s/it] 52%|████████████████████████████████████████████████████████████████████████▊                                                                    | 2579/4993 [2:53:56<2:42:37,  4.04s/it] 52%|████████████████████████████████████████████████████████████████████████▊                                                                    | 2580/4993 [2:53:59<2:36:49,  3.90s/it]                                                                                                                                                                                          {'loss': 0.5741, 'grad_norm': 2.3125, 'learning_rate': 2.447836525777927e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2075.23, 'epoch': 5.16}
+ 52%|████████████████████████████████████████████████████████████████████████▊                                                                    | 2580/4993 [2:53:59<2:36:49,  3.90s/it] 52%|████████████████████████████████████████████████████████████████████████▉                                                                    | 2581/4993 [2:54:03<2:35:53,  3.88s/it] 52%|████████████████████████████████████████████████████████████████████████▉                                                                    | 2582/4993 [2:54:07<2:41:10,  4.01s/it] 52%|████████████████████████████████████████████████████████████████████████▉                                                                    | 2583/4993 [2:54:11<2:39:18,  3.97s/it] 52%|████████████████████████████████████████████████████████████████████████▉                                                                    | 2584/4993 [2:54:16<2:42:06,  4.04s/it] 52%|████████████████████████████████████████████████████████████████████████▉                                                                    | 2585/4993 [2:54:20<2:44:30,  4.10s/it] 52%|█████████████████████████████████████████████████████████████████████████                                                                    | 2586/4993 [2:54:24<2:41:20,  4.02s/it] 52%|█████████████████████████████████████████████████████████████████████████                                                                    | 2587/4993 [2:54:27<2:39:19,  3.97s/it] 52%|█████████████████████████████████████████████████████████████████████████                                                                    | 2588/4993 [2:54:32<2:40:36,  4.01s/it] 52%|█████████████████████████████████████████████████████████████████████████                                                                    | 2589/4993 [2:54:35<2:37:19,  3.93s/it] 52%|█████████████████████████████████████████████████████████████████████████▏                                                                   | 2590/4993 [2:54:39<2:36:46,  3.91s/it]                                                                                                                                                                                          {'loss': 0.5398, 'grad_norm': 2.171875, 'learning_rate': 2.431789741114161e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2022.94, 'epoch': 5.18}
+ 52%|█████████████████████████████████████████████████████████████████████████▏                                                                   | 2590/4993 [2:54:39<2:36:46,  3.91s/it] 52%|█████████████████████████████████████████████████████████████████████████▏                                                                   | 2591/4993 [2:54:43<2:37:52,  3.94s/it] 52%|█████████████████████████████████████████████████████████████████████████▏                                                                   | 2592/4993 [2:54:47<2:41:45,  4.04s/it] 52%|█████████████████████████████████████████████████████████████████████████▏                                                                   | 2593/4993 [2:54:51<2:40:22,  4.01s/it] 52%|█████████████████████████████████████████████████████████████████████████▎                                                                   | 2594/4993 [2:54:55<2:34:55,  3.87s/it] 52%|█████████████████████████████████████████████████████████████████████████▎                                                                   | 2595/4993 [2:54:59<2:34:25,  3.86s/it] 52%|█████████████████████████████████████████████████████████████████████████▎                                                                   | 2596/4993 [2:55:03<2:34:30,  3.87s/it] 52%|█████████████████████████████████████████████████████████████████████████▎                                                                   | 2597/4993 [2:55:07<2:37:26,  3.94s/it] 52%|█████████████████████████████████████████████████████████████████████████▎                                                                   | 2598/4993 [2:55:11<2:35:42,  3.90s/it] 52%|█████████████████████████████████████████████████████████████████████████▍                                                                   | 2599/4993 [2:55:15<2:37:03,  3.94s/it] 52%|█████████████████████████████████████████████████████████████████████████▍                                                                   | 2600/4993 [2:55:19<2:38:45,  3.98s/it]                                                                                                                                                                                          {'loss': 0.5502, 'grad_norm': 1.8828125, 'learning_rate': 2.415745768335167e-06, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1748.38, 'epoch': 5.2}
+ 52%|██��██████████████████████████████████████████████████████████████████████▍                                                                   | 2600/4993 [2:55:19<2:38:45,  3.98s/it] 52%|█████████████████████████████████████████████████████████████████████████▍                                                                   | 2601/4993 [2:55:23<2:37:58,  3.96s/it] 52%|█████████████████████████████████████████████████████████████████████████▍                                                                   | 2602/4993 [2:55:27<2:37:20,  3.95s/it] 52%|█████████████████████████████████████████████████████████████████████████▌                                                                   | 2603/4993 [2:55:31<2:37:23,  3.95s/it] 52%|█████████████████████████████████████████████████████████████████████████▌                                                                   | 2604/4993 [2:55:35<2:37:50,  3.96s/it] 52%|█████████████████████████████████████████████████████████████████████████▌                                                                   | 2605/4993 [2:55:38<2:36:47,  3.94s/it] 52%|█████████████████████████████████████████████████████████████████████████▌                                                                   | 2606/4993 [2:55:42<2:34:18,  3.88s/it] 52%|█████████████████████████████████████████████████████████████████████████▌                                                                   | 2607/4993 [2:55:46<2:35:26,  3.91s/it] 52%|█████████████████████████████████████████████████████████████████████████▋                                                                   | 2608/4993 [2:55:50<2:34:14,  3.88s/it] 52%|█████████████████████████████████████████████████████████████████████████▋                                                                   | 2609/4993 [2:55:54<2:37:37,  3.97s/it] 52%|█████████████████████████████████████████████████████████████████████████▋                                                                   | 2610/4993 [2:55:58<2:35:38,  3.92s/it]                                                                                                                                                                                          {'loss': 0.5863, 'grad_norm': 2.09375, 'learning_rate': 2.399705268834164e-06, 'memory/max_active (GiB)': 40.32, 'memory/max_allocated (GiB)': 40.32, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1810.14, 'epoch': 5.22}
+ 52%|█████████████████████████████████████████████████████████████████████████▋                                                                   | 2610/4993 [2:55:58<2:35:38,  3.92s/it] 52%|█████████████████████████████████████████████████████████████████████████▋                                                                   | 2611/4993 [2:56:02<2:35:39,  3.92s/it] 52%|█████████████████████████████████████████████████████████████████████████▊                                                                   | 2612/4993 [2:56:06<2:35:52,  3.93s/it] 52%|██���██████████████████████████████████████████████████████████████████████▊                                                                   | 2613/4993 [2:56:10<2:33:33,  3.87s/it] 52%|█████████████████████████████████████████████████████████████████████████▊                                                                   | 2614/4993 [2:56:13<2:33:35,  3.87s/it] 52%|█████████████████████████████████████████████████████████████████████████▊                                                                   | 2615/4993 [2:56:17<2:32:35,  3.85s/it] 52%|█████████████████████████████████████████████████████████████████████████▊                                                                   | 2616/4993 [2:56:21<2:34:40,  3.90s/it] 52%|█████████████████████████████████████████████████████████████████████████▉                                                                   | 2617/4993 [2:56:25<2:34:16,  3.90s/it] 52%|█████████████████████████████████████████████████████████████████████████▉                                                                   | 2618/4993 [2:56:29<2:33:20,  3.87s/it] 52%|█████████████████████████████████████████████████████████████████████████▉                                                                   | 2619/4993 [2:56:33<2:35:16,  3.92s/it] 52%|█████████████████████████████████████████████████████████████████████████▉                                                                   | 2620/4993 [2:56:37<2:38:18,  4.00s/it]                                                                                                                                                                                          {'loss': 0.5722, 'grad_norm': 1.625, 'learning_rate': 2.3836689038611925e-06, 'memory/max_active (GiB)': 40.36, 'memory/max_allocated (GiB)': 40.36, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1737.72, 'epoch': 5.24}
+ 52%|█████████████████████████████████████████████████████████████████████████▉                                                                   | 2620/4993 [2:56:37<2:38:18,  4.00s/it] 52%|██████████████████████████████████████████████████████████████████████████                                                                   | 2621/4993 [2:56:41<2:39:14,  4.03s/it] 53%|██████████████████████████████████████████████████████████████████████████                                                                   | 2622/4993 [2:56:45<2:34:37,  3.91s/it] 53%|██████████████████████████████████████████████████████████████████████████                                                                   | 2623/4993 [2:56:49<2:32:00,  3.85s/it] 53%|██████████████████████████████████████████████████████████████████████████                                                                   | 2624/4993 [2:56:53<2:35:32,  3.94s/it] 53%|██████████████████████████████████████████████████████████████████████████▏                                                                  | 2625/4993 [2:56:57<2:34:53,  3.92s/it] 53%|█��████████████████████████████████████████████████████████████████████████▏                                                                  | 2626/4993 [2:57:00<2:33:47,  3.90s/it] 53%|██████████████████████████████████████████████████████████████████████████▏                                                                  | 2627/4993 [2:57:04<2:33:21,  3.89s/it] 53%|██████████████████████████████████████████████████████████████████████████▏                                                                  | 2628/4993 [2:57:08<2:33:23,  3.89s/it] 53%|██████████████████████████████████████████████████████████████████████████▏                                                                  | 2629/4993 [2:57:12<2:31:30,  3.85s/it] 53%|██████████████████████████████████████████████████████████████████████████▎                                                                  | 2630/4993 [2:57:16<2:30:22,  3.82s/it]                                                                                                                                                                                          {'loss': 0.5603, 'grad_norm': 5.5, 'learning_rate': 2.3676373344958456e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1911.7, 'epoch': 5.26}
+ 53%|██████████████████████████████████████████████████████████████████████████▎                                                                  | 2630/4993 [2:57:16<2:30:22,  3.82s/it] 53%|██████████████████████████████████████████████████████████████████████████▎                                                                  | 2631/4993 [2:57:20<2:30:06,  3.81s/it] 53%|██████████████████████████████████████████████████████████████████████████▎                                                                  | 2632/4993 [2:57:23<2:30:54,  3.83s/it] 53%|██████████████████████████████████████████████████████████████████████████▎                                                                  | 2633/4993 [2:57:27<2:31:46,  3.86s/it] 53%|██████████████████████████████████████████████████████████████████████████▍                                                                  | 2634/4993 [2:57:31<2:30:56,  3.84s/it] 53%|██████████████████████████████████████████████████████████████████████████▍                                                                  | 2635/4993 [2:57:35<2:29:00,  3.79s/it] 53%|██████████████████████████████████████████████████████████████████████████▍                                                                  | 2636/4993 [2:57:39<2:29:33,  3.81s/it] 53%|██████████████████████████████████████████████████████████████████████████▍                                                                  | 2637/4993 [2:57:43<2:31:07,  3.85s/it] 53%|██████████████████████████████████████████████████████████████████████████▍                                                                  | 2638/4993 [2:57:47<2:33:49,  3.92s/it] 53%|██████████████████████████████████████████████████████████████████████████▌                                                                  | 2639/4993 [2:57:51<2:34:26,  3.94s/it] 53%|██████████████████████████████████████████████████████████████████████████▌                                                                  | 2640/4993 [2:57:54<2:31:57,  3.87s/it]                                                                                                                                                                                          {'loss': 0.5999, 'grad_norm': 2.328125, 'learning_rate': 2.351611221620031e-06, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1864.47, 'epoch': 5.28}
+ 53%|██████████████████████████████████████████████████████████████████████████▌                                                                  | 2640/4993 [2:57:54<2:31:57,  3.87s/it] 53%|██████████████████████████████████████████████████████████████████████████▌                                                                  | 2641/4993 [2:57:58<2:34:03,  3.93s/it] 53%|██████████████████████████████████████████████████████████████████████████▌                                                                  | 2642/4993 [2:58:02<2:28:21,  3.79s/it] 53%|██████████████████████████████████████████████████████████████████████████▋                                                                  | 2643/4993 [2:58:06<2:29:26,  3.82s/it] 53%|██████████████████████████████████████████████████████████████████████████▋                                                                  | 2644/4993 [2:58:09<2:28:30,  3.79s/it] 53%|██████████████████████████████████████████████████████████████████████████▋                                                                  | 2645/4993 [2:58:13<2:27:58,  3.78s/it] 53%|██████████████████████████████████████████████████████████████████████████▋                                                                  | 2646/4993 [2:58:17<2:32:17,  3.89s/it] 53%|██████████████████████████████████████████████████████████████████████████▊                                                                  | 2647/4993 [2:58:22<2:35:07,  3.97s/it] 53%|██████████████████████████████████████████████████████████████████████████▊                                                                  | 2648/4993 [2:58:25<2:33:29,  3.93s/it] 53%|██████████████████████████████████████████████████████████████████████████▊                                                                  | 2649/4993 [2:58:29<2:29:03,  3.82s/it] 53%|██████████████████████████████████████████████████████████████████████████▊                                                                  | 2650/4993 [2:58:33<2:31:44,  3.89s/it]                                                                                                                                                                                          {'loss': 0.5727, 'grad_norm': 1.9921875, 'learning_rate': 2.335591225890713e-06, 'memory/max_active (GiB)': 39.53, 'memory/max_allocated (GiB)': 39.53, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1665.6, 'epoch': 5.3}
+ 53%|██████████████████████████████████████████████████████████████████████████▊                                                                  | 2650/4993 [2:58:33<2:31:44,  3.89s/it] 53%|██████████████████████████████████████████████████████████████████████████▊                                                                  | 2651/4993 [2:58:37<2:28:02,  3.79s/it] 53%|██████████████████████████████████████████████████████████████████████████▉                                                                  | 2652/4993 [2:58:41<2:32:30,  3.91s/it] 53%|██████████████████████████████████████████████████████████████████████████▉                                                                  | 2653/4993 [2:58:45<2:35:04,  3.98s/it] 53%|██████████████████████████████████████████████████████████████████████████▉                                                                  | 2654/4993 [2:58:49<2:31:25,  3.88s/it] 53%|██████████████████████████████████████████████████████████████████████████▉                                                                  | 2655/4993 [2:58:53<2:33:09,  3.93s/it] 53%|███████████████████████████████████████████████████████████████████████████                                                                  | 2656/4993 [2:58:57<2:34:47,  3.97s/it] 53%|███████████████████████████████████████████████████████████████████████████                                                                  | 2657/4993 [2:59:01<2:35:41,  4.00s/it] 53%|███████████████████████████████████████████████████████████████████████████                                                                  | 2658/4993 [2:59:05<2:33:10,  3.94s/it] 53%|███████████████████████████████████████████████████████████████████████████                                                                  | 2659/4993 [2:59:08<2:32:23,  3.92s/it] 53%|███████████████████████████████████████████████████████████████████████████                                                                  | 2660/4993 [2:59:12<2:33:59,  3.96s/it]                                                                                                                                                                                          {'loss': 0.5962, 'grad_norm': 1.96875, 'learning_rate': 2.319578007712688e-06, 'memory/max_active (GiB)': 40.36, 'memory/max_allocated (GiB)': 40.36, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1903.98, 'epoch': 5.32}
+ 53%|███████████████████████████████████████████████████████████████████████████                                                                  | 2660/4993 [2:59:12<2:33:59,  3.96s/it] 53%|███████████████████████████████████████████████████████████████████████████▏                                                                 | 2661/4993 [2:59:16<2:31:38,  3.90s/it] 53%|███████████████████████████████████████████████████████████████████████████▏                                                                 | 2662/4993 [2:59:21<2:39:12,  4.10s/it] 53%|███████████████████████████████████████████████████████████████████████████▏                                                                 | 2663/4993 [2:59:25<2:35:39,  4.01s/it] 53%|███████████████████████████████████████████████████████████████████████████▏                                                                 | 2664/4993 [2:59:29<2:37:33,  4.06s/it] 53%|███████████████████████████████████████████████████████████████████████████▎                                                                 | 2665/4993 [2:59:33<2:36:08,  4.02s/it] 53%|███████████████████████████████████████████████████████████████████████████▎                                                                 | 2666/4993 [2:59:37<2:35:50,  4.02s/it] 53%|███████████████████████████████████████████████████████████████████████████▎                                                                 | 2667/4993 [2:59:40<2:31:20,  3.90s/it] 53%|███████████████████████████████████████████████████████████████████████████▎                                                                 | 2668/4993 [2:59:44<2:28:25,  3.83s/it] 53%|███████████████████████████████████████████████████████████████████████████▎                                                                 | 2669/4993 [2:59:48<2:30:03,  3.87s/it] 53%|███████████████████████████████████████████████████████████████████████████▍                                                                 | 2670/4993 [2:59:52<2:30:50,  3.90s/it]                                                                                                                                                                                          {'loss': 0.5571, 'grad_norm': 2.1875, 'learning_rate': 2.3035722272113555e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1821.83, 'epoch': 5.34}
+ 53%|███████████████████████████████████████████████████████████████████████████▍                                                                 | 2670/4993 [2:59:52<2:30:50,  3.90s/it] 53%|███████████████████████████████████████████████████████████████████████████▍                                                                 | 2671/4993 [2:59:56<2:29:06,  3.85s/it] 54%|███████████████████████████████████████████████████████████████████████████▍                                                                 | 2672/4993 [3:00:00<2:36:50,  4.05s/it] 54%|███████████████████████████████████████████████████████████████████████████▍                                                                 | 2673/4993 [3:00:04<2:32:34,  3.95s/it] 54%|███████████████████████████████████████████████████████████████████████████▌                                                                 | 2674/4993 [3:00:08<2:31:18,  3.91s/it] 54%|███████████████████████████████████████████████████████████████████████████▌                                                                 | 2675/4993 [3:00:11<2:28:18,  3.84s/it] 54%|███████████████████████████████████████████████████████████████████████████▌                                                                 | 2676/4993 [3:00:16<2:31:32,  3.92s/it] 54%|███████████████████████████████████████████████████████████████████████████▌                                                                 | 2677/4993 [3:00:19<2:29:44,  3.88s/it] 54%|███████████████████████████████████████████████████████████████████████████▋                                                                 | 2678/4993 [3:00:23<2:27:35,  3.83s/it] 54%|███████████████████████████████████████████████████████████████████████████▋                                                                 | 2679/4993 [3:00:27<2:32:54,  3.96s/it] 54%|███████████████████████████████████████████████████████████████████████████▋                                                                 | 2680/4993 [3:00:32<2:36:51,  4.07s/it]                                                                                                                                                                                          {'loss': 0.5738, 'grad_norm': 1.65625, 'learning_rate': 2.2875745442055032e-06, 'memory/max_active (GiB)': 40.32, 'memory/max_allocated (GiB)': 40.32, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1893.38, 'epoch': 5.36}
+ 54%|███████████████████████████████████████████████████████████████████████████▋                                                                 | 2680/4993 [3:00:32<2:36:51,  4.07s/it] 54%|███████████████████████████████████████████████████████████████████████████▋                                                                 | 2681/4993 [3:00:35<2:33:40,  3.99s/it] 54%|███████████████████████████████████████████████████████████████████████████▋                                                                 | 2682/4993 [3:00:39<2:31:22,  3.93s/it] 54%|███████████████████████████████████████████████████████████████████████████▊                                                                 | 2683/4993 [3:00:43<2:33:11,  3.98s/it] 54%|███████████████████████████████████████████████████████████████████████████▊                                                                 | 2684/4993 [3:00:47<2:33:49,  4.00s/it] 54%|███████████████████████████████████████████████████████████████████████████▊                                                                 | 2685/4993 [3:00:51<2:34:51,  4.03s/it] 54%|███████████████████████████████████████████████████████████████████████████▊                                                                 | 2686/4993 [3:00:55<2:34:27,  4.02s/it] 54%|███████████████████████████████████████████████████████████████████████████▉                                                                 | 2687/4993 [3:00:59<2:28:53,  3.87s/it] 54%|███████████████��███████████████████████████████████████████████████████████▉                                                                 | 2688/4993 [3:01:03<2:27:46,  3.85s/it] 54%|███████████████████████████████████████████████████████████████████████████▉                                                                 | 2689/4993 [3:01:07<2:29:09,  3.88s/it] 54%|███████████████████████████████████████████████████████████████████████████▉                                                                 | 2690/4993 [3:01:11<2:28:54,  3.88s/it]                                                                                                                                                                                          {'loss': 0.5436, 'grad_norm': 1.8984375, 'learning_rate': 2.2715856181801128e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1925.03, 'epoch': 5.38}
+ 54%|███████████████████████████████████████████████████████████████████████████▉                                                                 | 2690/4993 [3:01:11<2:28:54,  3.88s/it] 54%|███████████████████████████████████████████████████████████████████████████▉                                                                 | 2691/4993 [3:01:15<2:33:13,  3.99s/it] 54%|████████████████████████████████████████████████████████████████████████████                                                                 | 2692/4993 [3:01:19<2:30:24,  3.92s/it] 54%|████████████████████████████████████████████████████████████████████████████                                                                 | 2693/4993 [3:01:23<2:40:51,  4.20s/it] 54%|████████████████████████████████████████████████████████████████████████████                                                                 | 2694/4993 [3:01:28<2:45:20,  4.32s/it] 54%|████████████████████████████████████████████████████████████████████████████                                                                 | 2695/4993 [3:01:32<2:37:26,  4.11s/it] 54%|████████████████████████████████████████████████████████████████████████████▏                                                                | 2696/4993 [3:01:36<2:41:44,  4.23s/it] 54%|████████████████████████████████████████████████████████████████████████████▏                                                                | 2697/4993 [3:01:41<2:44:40,  4.30s/it] 54%|████████████████████████████████████████████████████████████████████████████▏                                                                | 2698/4993 [3:01:45<2:40:23,  4.19s/it] 54%|████████████████████████████████████████████████████████████████████████████▏                                                                | 2699/4993 [3:01:49<2:40:35,  4.20s/it] 54%|████████████████████████████████████████████████████████████████████████████▏                                                                | 2700/4993 [3:01:53<2:36:51,  4.10s/it]                                                                                                                                                                                          {'loss': 0.5598, 'grad_norm': 2.40625, 'learning_rate': 2.2556061082591673e-06, 'memory/max_active (GiB)': 42.85, 'memory/max_allocated (GiB)': 42.85, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2136.31, 'epoch': 5.4}
+ 54%|████████████████████████████████████████████████████████████████████████████▏                                                                | 2700/4993 [3:01:53<2:36:51,  4.10s/it] 54%|████████████████████████████████████████████████████████████████████████████▎                                                                | 2701/4993 [3:01:56<2:31:24,  3.96s/it] 54%|████████████████████████████████████████████████████████████████████████████▎                                                                | 2702/4993 [3:02:00<2:28:38,  3.89s/it] 54%|████████████████████████████████████████████████████████████████████████████▎                                                                | 2703/4993 [3:02:04<2:28:54,  3.90s/it] 54%|████████████████████████████████████████████████████████████████████████████▎                                                                | 2704/4993 [3:02:08<2:28:06,  3.88s/it] 54%|████████████████████████████████████████████████████████████████████████████▍                                                                | 2705/4993 [3:02:12<2:33:49,  4.03s/it] 54%|████████████████████████████████████████████████████████████████████████████▍                                                                | 2706/4993 [3:02:16<2:35:01,  4.07s/it] 54%|████████████████████████████████████████████████████████████████████████████▍                                                                | 2707/4993 [3:02:20<2:31:57,  3.99s/it] 54%|████████████████████████████████████████████████████████████████████████████▍                                                                | 2708/4993 [3:02:24<2:28:07,  3.89s/it] 54%|████████████████████████████████████████████████████████████████████████████▌                                                                | 2709/4993 [3:02:28<2:34:33,  4.06s/it] 54%|████████████████████████████████████████████████████████████████████████████▌                                                                | 2710/4993 [3:02:32<2:29:34,  3.93s/it]                                                                                                                                                                                          {'loss': 0.5704, 'grad_norm': 2.265625, 'learning_rate': 2.2396366731784847e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2043.67, 'epoch': 5.42}
+ 54%|████████████████████████████████████████████████████████████████████████████▌                                                                | 2710/4993 [3:02:32<2:29:34,  3.93s/it] 54%|████████████████████████████████████████████████████████████████████████████▌                                                                | 2711/4993 [3:02:36<2:34:21,  4.06s/it] 54%|████████████████████████████████████████████████████████████████████████████▌                                                                | 2712/4993 [3:02:40<2:31:50,  3.99s/it] 54%|████████████████████████████████████████████████████████████████████████████▌                                                                | 2713/4993 [3:02:44<2:36:33,  4.12s/it] 54%|████████████████████████████████████████████████████████████████████████████▋                                                                | 2714/4993 [3:02:48<2:34:28,  4.07s/it] 54%|████████████████████████████████████████████████████████████████████████████▋                                                                | 2715/4993 [3:02:52<2:30:09,  3.95s/it] 54%|████████████████████████████████████████████████████████████████████████████▋                                                                | 2716/4993 [3:02:56<2:24:54,  3.82s/it] 54%|████████████████████████████████████████████████████████████████████████████▋                                                                | 2717/4993 [3:02:59<2:23:24,  3.78s/it] 54%|████████████████████████████████████████████████████████████████████████████▊                                                                | 2718/4993 [3:03:03<2:27:17,  3.88s/it] 54%|████████████████████████████████████████████████████████████████████████████▊                                                                | 2719/4993 [3:03:07<2:23:31,  3.79s/it] 54%|████████████████████████████████████████████████████████████████████████████▊                                                                | 2720/4993 [3:03:11<2:25:02,  3.83s/it]                                                                                                                                                                                          {'loss': 0.577, 'grad_norm': 2.28125, 'learning_rate': 2.2236779712585583e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1861.71, 'epoch': 5.44}
+ 54%|████████████████████████████████████████████████████████████████████████████▊                                                                | 2720/4993 [3:03:11<2:25:02,  3.83s/it] 54%|████████████████████████████████████████████████████████████████████████████▊                                                                | 2721/4993 [3:03:15<2:26:54,  3.88s/it] 55%|████████████████████████████████████████████████████████████████████████████▊                                                                | 2722/4993 [3:03:18<2:22:51,  3.77s/it] 55%|████████████████████████████████████████████████████████████████████████████▉                                                                | 2723/4993 [3:03:22<2:24:11,  3.81s/it] 55%|██████████████████��█████████████████████████████████████████████████████████▉                                                                | 2724/4993 [3:03:26<2:24:46,  3.83s/it] 55%|████████████████████████████████████████████████████████████████████████████▉                                                                | 2725/4993 [3:03:30<2:28:34,  3.93s/it] 55%|████████████████████████████████████████████████████████████████████████████▉                                                                | 2726/4993 [3:03:35<2:31:12,  4.00s/it] 55%|█████████████████████████████████████████████████████████████████████████████                                                                | 2727/4993 [3:03:38<2:28:35,  3.93s/it] 55%|█████████████████████████████████████████████████████████████████████████████                                                                | 2728/4993 [3:03:42<2:30:07,  3.98s/it] 55%|█████████████████████████████████████████████████████████████████████████████                                                                | 2729/4993 [3:03:46<2:28:09,  3.93s/it] 55%|█████████████████████████████████████████████████████████████████████████████                                                                | 2730/4993 [3:03:51<2:35:36,  4.13s/it]                                                                                                                                                                                          {'loss': 0.5928, 'grad_norm': 1.953125, 'learning_rate': 2.207730660377421e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1638.53, 'epoch': 5.46}
+ 55%|█████████████████████████████████████████████████████████████████████████████                                                                | 2730/4993 [3:03:51<2:35:36,  4.13s/it] 55%|█████████████████████████████████████████████████████████████████████████████                                                                | 2731/4993 [3:03:55<2:31:33,  4.02s/it] 55%|█████████████████████████████████████████████████████████████████████████████▏                                                               | 2732/4993 [3:03:59<2:32:37,  4.05s/it] 55%|█████████████████████████████████████████████████████████████████████████████▏                                                               | 2733/4993 [3:04:03<2:31:41,  4.03s/it] 55%|█████████████████████████████████████████████████████████████████████████████▏                                                               | 2734/4993 [3:04:06<2:27:31,  3.92s/it] 55%|█████████████████████████████████████████████████████████████████████████████▏                                                               | 2735/4993 [3:04:10<2:29:21,  3.97s/it] 55%|█████████████████████████████████████████████████████████████████████████████▎                                                               | 2736/4993 [3:04:14<2:27:00,  3.91s/it] 55%|█████████████████████████████████████████████████████████████████████████████▎                                                               | 2737/4993 [3:04:18<2:25:52,  3.88s/it] 55%|█████████████████████████████████████████████████████████████████████████████▎                                                               | 2738/4993 [3:04:22<2:25:37,  3.87s/it] 55%|█████████████████████████████████████████████████████████████████████████████▎                                                               | 2739/4993 [3:04:26<2:25:08,  3.86s/it] 55%|█████████████████████████████████████████████████████████████████████████████▍                                                               | 2740/4993 [3:04:30<2:26:50,  3.91s/it]                                                                                                                                                                                          {'loss': 0.583, 'grad_norm': 2.5, 'learning_rate': 2.191795397943523e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1741.21, 'epoch': 5.48}
+ 55%|█████████████████████████████████████████████████████████████████████████████▍                                                               | 2740/4993 [3:04:30<2:26:50,  3.91s/it] 55%|█████████████████████████████████████████████████████████████████████████████▍                                                               | 2741/4993 [3:04:34<2:27:38,  3.93s/it] 55%|█████████████████████████████████████████████████████████████████████████████▍                                                               | 2742/4993 [3:04:38<2:26:47,  3.91s/it] 55%|█████████████████████████████████████████████████████████████████████████████▍                                                               | 2743/4993 [3:04:42<2:33:48,  4.10s/it] 55%|█████████████████████████████████████████████████████████████████████████████▍                                                               | 2744/4993 [3:04:46<2:30:50,  4.02s/it] 55%|█████████████████████████████████████████████████████████████████████████████▌                                                               | 2745/4993 [3:04:50<2:33:50,  4.11s/it] 55%|█████████████████████████████████████████████████████████████████████████████▌                                                               | 2746/4993 [3:04:54<2:32:32,  4.07s/it] 55%|█████████████████████████████████████████████████████████████████████████████▌                                                               | 2747/4993 [3:04:58<2:26:43,  3.92s/it] 55%|█████████████████████████████████████████████████████████████████████████████▌                                                               | 2748/4993 [3:05:02<2:33:12,  4.09s/it] 55%|█████████████████████████████████████████████████████████████████████████████▋                                                               | 2749/4993 [3:05:06<2:30:44,  4.03s/it] 55%|█████████████████████████████████████████████████████████████████████████████▋                                                               | 2750/4993 [3:05:10<2:29:40,  4.00s/it]                                                                                                                                                                                          {'loss': 0.6001, 'grad_norm': 1.921875, 'learning_rate': 2.175872840868633e-06, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1931.95, 'epoch': 5.5}
+ 55%|█████████████████████████████████████████████████████████████████████████████▋                                                               | 2750/4993 [3:05:10<2:29:40,  4.00s/it] 55%|█████████████████████████████████████████████████████████████████████████████▋                                                               | 2751/4993 [3:05:14<2:25:51,  3.90s/it] 55%|█████████████████████████████████████████████████████████████████████████████▋                                                               | 2752/4993 [3:05:18<2:28:07,  3.97s/it] 55%|█████████████████████████████████████████████████████████████████████████████▋                                                               | 2753/4993 [3:05:22<2:28:37,  3.98s/it] 55%|█████████████████████████████████████████████████████████████████████████████▊                                                               | 2754/4993 [3:05:26<2:27:46,  3.96s/it] 55%|█████████████████████████████████████████████████████████████████████████████▊                                                               | 2755/4993 [3:05:30<2:24:48,  3.88s/it] 55%|█████████████████████████████████████████████████████████████████████████████▊                                                               | 2756/4993 [3:05:33<2:21:39,  3.80s/it] 55%|█████████████████████████████████████████████████████████████████████████████▊                                                               | 2757/4993 [3:05:38<2:28:37,  3.99s/it] 55%|█████████████████████████████████████████████████████████████████████████████▉                                                               | 2758/4993 [3:05:41<2:27:54,  3.97s/it] 55%|█████████████████████████████████████████████████████████████████████████████▉                                                               | 2759/4993 [3:05:45<2:25:07,  3.90s/it] 55%|█████████████████████████████████████████████████████████████████████████████▉                                                               | 2760/4993 [3:05:49<2:21:13,  3.79s/it]                                                                                                                                                                                          {'loss': 0.5758, 'grad_norm': 2.34375, 'learning_rate': 2.1599636455407566e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2042.43, 'epoch': 5.52}
+ 55%|█████████████████████████████████████████████████████████████████████████████▉                                                               | 2760/4993 [3:05:49<2:21:13,  3.79s/it] 55%|█████████████████████████████████████████████████████████████████████████████▉                                                               | 2761/4993 [3:05:53<2:25:42,  3.92s/it] 55%|█████████████████████████████████████████████████████████████████████████████▉                                                               | 2762/4993 [3:05:57<2:28:36,  4.00s/it] 55%|██████████████████████████████████████████████████████████████████████████████                                                               | 2763/4993 [3:06:01<2:29:04,  4.01s/it] 55%|██████████████████████████████████████████████████████████████████████████████                                                               | 2764/4993 [3:06:05<2:25:51,  3.93s/it] 55%|██████████████████████████████████████████████████████████████████████████████                                                               | 2765/4993 [3:06:09<2:27:53,  3.98s/it] 55%|██████████████████████████████████████████████████████████████████████████████                                                               | 2766/4993 [3:06:13<2:25:47,  3.93s/it] 55%|██████████████████████████████████████████████████████████████████████████████▏                                                              | 2767/4993 [3:06:17<2:29:28,  4.03s/it] 55%|██████████████████████████████████████████████████████████████████████████████▏                                                              | 2768/4993 [3:06:21<2:31:11,  4.08s/it] 55%|██████████████████████████████████████████████████████████████████████████████▏                                                              | 2769/4993 [3:06:25<2:28:55,  4.02s/it] 55%|██████████████████████████████████████████████████████████████████████████████▏                                                              | 2770/4993 [3:06:29<2:25:26,  3.93s/it]                                                                                                                                                                                          {'loss': 0.554, 'grad_norm': 2.359375, 'learning_rate': 2.1440684677970762e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1975.15, 'epoch': 5.54}
+ 55%|██████████████████████████████████████████████████████████████████████████████▏                                                              | 2770/4993 [3:06:29<2:25:26,  3.93s/it] 55%|██████████████████████████████████████████████████████████████████████████████▎                                                              | 2771/4993 [3:06:33<2:24:12,  3.89s/it] 56%|██████████████████████████████████████████████████████████████████████████████▎                                                              | 2772/4993 [3:06:37<2:27:22,  3.98s/it] 56%|██████████████████████████████████████████████████████████████████████████████▎                                                              | 2773/4993 [3:06:41<2:24:24,  3.90s/it] 56%|██████████████████████████████████████████████████████████████████████████████▎                                                              | 2774/4993 [3:06:45<2:25:46,  3.94s/it] 56%|██████████████████████████████████████████████████████████████████████████████▎                                                              | 2775/4993 [3:06:49<2:27:15,  3.98s/it] 56%|██████████████████████████████████████████████████████████████████████████████▍                                                              | 2776/4993 [3:06:53<2:31:27,  4.10s/it] 56%|██████████████████████████████████████████████████████████████████████████████▍                                                              | 2777/4993 [3:06:57<2:27:40,  4.00s/it] 56%|██████████████████████████████████████████████████████████████████████████████▍                                                              | 2778/4993 [3:07:01<2:28:00,  4.01s/it] 56%|██████████████████████████████████████████████████████████████████████████████▍                                                              | 2779/4993 [3:07:05<2:28:37,  4.03s/it] 56%|██████████████████████████████████████████████████████████████████████████████▌                                                              | 2780/4993 [3:07:09<2:28:14,  4.02s/it]                                                                                                                                                                                          {'loss': 0.5644, 'grad_norm': 2.71875, 'learning_rate': 2.128187962896919e-06, 'memory/max_active (GiB)': 40.36, 'memory/max_allocated (GiB)': 40.36, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1859.58, 'epoch': 5.56}
+ 56%|██████████████████████████████████████████████████████████████████████████████▌                                                              | 2780/4993 [3:07:09<2:28:14,  4.02s/it] 56%|██████████████████████████████████████████████████████████████████████████████▌                                                              | 2781/4993 [3:07:13<2:26:14,  3.97s/it] 56%|██████████████████████████████████████████████████████████████████████████████▌                                                              | 2782/4993 [3:07:16<2:22:39,  3.87s/it] 56%|██████████████████████████████████████████████████████████████████████████████▌                                                              | 2783/4993 [3:07:21<2:25:53,  3.96s/it] 56%|██████████████████████████████████████████████████████████████████████████████▌                                                              | 2784/4993 [3:07:25<2:30:48,  4.10s/it] 56%|██████████████████████████████████████████████████████████████████████████████▋                                                              | 2785/4993 [3:07:29<2:25:17,  3.95s/it] 56%|██████████████████████████████████████████████████████████████████████████████▋                                                              | 2786/4993 [3:07:33<2:25:32,  3.96s/it] 56%|██████████████████████████████████████████████████████████████████████████████▋                                                              | 2787/4993 [3:07:36<2:22:51,  3.89s/it] 56%|██████████████████████████████████████████████████████████████████████████████▋                                                              | 2788/4993 [3:07:41<2:28:34,  4.04s/it] 56%|██████████████████████████████████████████████████████████████████████████████▊                                                              | 2789/4993 [3:07:45<2:27:44,  4.02s/it] 56%|██████████████████████████████████████████████████████████████████████████████▊                                                              | 2790/4993 [3:07:48<2:23:39,  3.91s/it]                                                                                                                                                                                          {'loss': 0.5481, 'grad_norm': 2.171875, 'learning_rate': 2.112322785494739e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 2169.03, 'epoch': 5.58}
+ 56%|██████████████████████████████████████████████████████████████████████████████▊                                                              | 2790/4993 [3:07:48<2:23:39,  3.91s/it] 56%|██████████████████████████████████████████████████████████████████████████████▊                                                              | 2791/4993 [3:07:52<2:23:04,  3.90s/it] 56%|██████████████████████████████████████████████████████████████████████████████▊                                                              | 2792/4993 [3:07:56<2:22:39,  3.89s/it] 56%|██████████████████████████████████████████████████████████████████████████████▊                                                              | 2793/4993 [3:08:00<2:24:27,  3.94s/it] 56%|██████████████████████████████████████████████████████████████████████████████▉                                                              | 2794/4993 [3:08:05<2:29:06,  4.07s/it] 56%|██████████████████████████████████████████████████████████████████████████████▉                                                              | 2795/4993 [3:08:08<2:27:28,  4.03s/it] 56%|██████████████████████████████████████████████████████████████████████████████▉                                                              | 2796/4993 [3:08:12<2:25:07,  3.96s/it] 56%|██████████████████████████████████████████████████████████████████████████████▉                                                              | 2797/4993 [3:08:16<2:21:19,  3.86s/it] 56%|███████████████████████████████████████████████████████████████████████████████                                                              | 2798/4993 [3:08:20<2:21:38,  3.87s/it] 56%|███████████████████████████████████████████████████████████████████████████████                                                              | 2799/4993 [3:08:24<2:22:26,  3.90s/it] 56%|███████████████████████████████████████████████████████████████████████████████                                                              | 2800/4993 [3:08:28<2:20:53,  3.85s/it]                                                                                                                                                                                          {'loss': 0.5766, 'grad_norm': 1.8359375, 'learning_rate': 2.0964735896131345e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 48.47, 'tokens_per_second_per_gpu': 1966.87, 'epoch': 5.6}
+ 56%|███████████████████████████████████████████████████████████████████████████████                                                              | 2800/4993 [3:08:28<2:20:53,  3.85s/it] 56%|███████████████████████████████████████████████████████████████████████████████                                                              | 2801/4993 [3:08:32<2:22:38,  3.90s/it] 56%|███████████████████████████████████████████████████████████████████████████████▏                                                             | 2802/4993 [3:08:35<2:21:20,  3.87s/it] 56%|███████████████████████████████████████████████████████████████████████████████▏                                                             | 2803/4993 [3:08:39<2:21:25,  3.87s/it] 56%|███████████████████████████████████████████████████████████████████████████████▏                                                             | 2804/4993 [3:08:44<2:27:16,  4.04s/it] 56%|███████████████████████████████████████████████████████████████████████████████▏                                                             | 2805/4993 [3:08:48<2:28:33,  4.07s/it] 56%|███████████████████████████████████████████████████████████████████████████████▏                                                             | 2806/4993 [3:08:52<2:27:47,  4.05s/it] 56%|███████████████████████████████████████████████████████████████████████████████▎                                                             | 2807/4993 [3:08:55<2:23:44,  3.95s/it] 56%|███████████████████████████████████████████████████████████████████████████████▎                                                             | 2808/4993 [3:08:59<2:23:48,  3.95s/it] 56%|███████████████████████████████████████████████████████████████████████████████▎                                                             | 2809/4993 [3:09:03<2:21:11,  3.88s/it] 56%|█████████████████████████████████████��█████████████████████████████████████████▎                                                             | 2810/4993 [3:09:08<2:26:08,  4.02s/it]                                                                                                                                                                                          {'loss': 0.5724, 'grad_norm': 5.46875, 'learning_rate': 2.080641028615888e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1822.99, 'epoch': 5.62}
+ 56%|███████████████████████████████████████████████████████████████████████████████▎                                                             | 2810/4993 [3:09:08<2:26:08,  4.02s/it] 56%|███████████████████████████████████████████████████████████████████████████████▍                                                             | 2811/4993 [3:09:12<2:28:43,  4.09s/it] 56%|███████████████████████████████████████████████████████████████████████████████▍                                                             | 2812/4993 [3:09:16<2:28:31,  4.09s/it] 56%|███████████████████████████████████████████████████████████████████████████████▍                                                             | 2813/4993 [3:09:20<2:29:41,  4.12s/it] 56%|███████████████████████████████████████████████████████████████████████████████▍                                                             | 2814/4993 [3:09:24<2:28:26,  4.09s/it] 56%|███████████████████████████████████████████████████████████████████████████████▍                                                             | 2815/4993 [3:09:28<2:26:41,  4.04s/it] 56%|███████████████████████████████████████████████████████████████████████████████▌                                                             | 2816/4993 [3:09:32<2:24:05,  3.97s/it] 56%|███████████████████████████████████████████████████████████████████████████████▌                                                             | 2817/4993 [3:09:36<2:23:47,  3.96s/it] 56%|███████████████████████████████████████████████████████████████████████████████▌                                                             | 2818/4993 [3:09:40<2:21:40,  3.91s/it] 56%|███████████████████████████████████████████████████████████████████████████████▌                                                             | 2819/4993 [3:09:43<2:20:37,  3.88s/it] 56%|███████████████████████████████████████████████████████████████████████████████▋                                                             | 2820/4993 [3:09:47<2:17:39,  3.80s/it]                                                                                                                                                                                          {'loss': 0.5609, 'grad_norm': 2.09375, 'learning_rate': 2.0648257551810216e-06, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 2114.71, 'epoch': 5.64}
+ 56%|████████████████████████████████████████████████████████████████████��██████████▋                                                             | 2820/4993 [3:09:47<2:17:39,  3.80s/it] 56%|███████████████████████████████████████████████████████████████████████████████▋                                                             | 2821/4993 [3:09:51<2:22:48,  3.94s/it] 57%|███████████████████████████████████████████████████████████████████████████████▋                                                             | 2822/4993 [3:09:56<2:29:08,  4.12s/it] 57%|███████████████████████████████████████████████████████████████████████████████▋                                                             | 2823/4993 [3:09:59<2:21:51,  3.92s/it] 57%|███████████████████████████████████████████████████████████████████████████████▋                                                             | 2824/4993 [3:10:03<2:20:09,  3.88s/it] 57%|███████████████████████████████████████████████████████████████████████████████▊                                                             | 2825/4993 [3:10:07<2:22:17,  3.94s/it] 57%|███████████████████████████████████████████████████████████████████████████████▊                                                             | 2826/4993 [3:10:11<2:20:00,  3.88s/it] 57%|███████████████████████████████████████████████████████████████████████████████▊                                                             | 2827/4993 [3:10:15<2:20:05,  3.88s/it] 57%|███████████████████████████████████████████████████████████████████████████████▊                                                             | 2828/4993 [3:10:19<2:27:13,  4.08s/it] 57%|███████████████████████████████████████████████████████████████████████████████▉                                                             | 2829/4993 [3:10:23<2:23:46,  3.99s/it] 57%|███████████████████████████████████████████████████████████████████████████████▉                                                             | 2830/4993 [3:10:27<2:19:49,  3.88s/it]                                                                                                                                                                                          {'loss': 0.5981, 'grad_norm': 2.390625, 'learning_rate': 2.0490284212739074e-06, 'memory/max_active (GiB)': 42.85, 'memory/max_allocated (GiB)': 42.85, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 2121.67, 'epoch': 5.66}
+ 57%|███████████████████████████████████████████████████████████████████████████████▉                                                             | 2830/4993 [3:10:27<2:19:49,  3.88s/it] 57%|███████████████████████████████████████████████████████████████████████████████▉                                                             | 2831/4993 [3:10:31<2:25:08,  4.03s/it] 57%|███████████████████████████████████████████████████████████████████████████████▉                                                             | 2832/4993 [3:10:36<2:31:23,  4.20s/it] 57%|███████████��████████████████████████████████████████████████████████████████████                                                             | 2833/4993 [3:10:40<2:34:43,  4.30s/it] 57%|████████████████████████████████████████████████████████████████████████████████                                                             | 2834/4993 [3:10:44<2:34:19,  4.29s/it] 57%|████████████████████████████████████████████████████████████████████████████████                                                             | 2835/4993 [3:10:49<2:33:27,  4.27s/it] 57%|████████████████████████████████████████████████████████████████████████████████                                                             | 2836/4993 [3:10:53<2:31:01,  4.20s/it] 57%|████████████████████████████████████████████████████████████████████████████████                                                             | 2837/4993 [3:10:57<2:27:34,  4.11s/it] 57%|████████████████████████████████████████████████████████████████████████████████▏                                                            | 2838/4993 [3:11:01<2:28:04,  4.12s/it] 57%|████████████████████████████████████████████████████████████████████████████████▏                                                            | 2839/4993 [3:11:05<2:26:52,  4.09s/it] 57%|████████████████████████████████████████████████████████████████████████████████▏                                                            | 2840/4993 [3:11:09<2:27:19,  4.11s/it]                                                                                                                                                                                          {'loss': 0.5812, 'grad_norm': 1.7890625, 'learning_rate': 2.0332496781203755e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1975.85, 'epoch': 5.68}
+ 57%|████████████████████████████████████████████████████████████████████████████████▏                                                            | 2840/4993 [3:11:09<2:27:19,  4.11s/it] 57%|████████████████████████████████████████████████████████████████████████████████▏                                                            | 2841/4993 [3:11:13<2:31:35,  4.23s/it] 57%|████████████████████████████████████████████████████████████████████████████████▎                                                            | 2842/4993 [3:11:17<2:29:03,  4.16s/it] 57%|████████████████████████████████████████████████████████████████████████████████▎                                                            | 2843/4993 [3:11:22<2:30:10,  4.19s/it] 57%|████████████████████████████████████████████████████████████████████████████████▎                                                            | 2844/4993 [3:11:25<2:24:56,  4.05s/it] 57%|████████████████████████████████████████████████████████████████��███████████████▎                                                            | 2845/4993 [3:11:29<2:25:46,  4.07s/it] 57%|████████████████████████████████████████████████████████████████████████████████▎                                                            | 2846/4993 [3:11:33<2:23:57,  4.02s/it] 57%|████████████████████████████████████████████████████████████████████████████████▍                                                            | 2847/4993 [3:11:37<2:22:01,  3.97s/it] 57%|████████████████████████████████████████████████████████████████████████████████▍                                                            | 2848/4993 [3:11:42<2:25:43,  4.08s/it] 57%|████████████████████████████████████████████████████████████████████████████████▍                                                            | 2849/4993 [3:11:45<2:22:28,  3.99s/it] 57%|████████████████████████████████████████████████████████████████████████████████▍                                                            | 2850/4993 [3:11:49<2:22:58,  4.00s/it]                                                                                                                                                                                          {'loss': 0.5816, 'grad_norm': 1.875, 'learning_rate': 2.017490176179878e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1915.23, 'epoch': 5.7}
+ 57%|████████████████████████████████████████████████████████████████████████████████▍                                                            | 2850/4993 [3:11:49<2:22:58,  4.00s/it] 57%|████████████████████████████████████████████████████████████████████████████████▌                                                            | 2851/4993 [3:11:54<2:30:37,  4.22s/it] 57%|████████████████████████████████████████████████████████████████████████████████▌                                                            | 2852/4993 [3:11:58<2:26:17,  4.10s/it] 57%|████████████████████████████████████████████████████████████████████████████████▌                                                            | 2853/4993 [3:12:02<2:26:05,  4.10s/it] 57%|████████████████████████████████████████████████████████████████████████████████▌                                                            | 2854/4993 [3:12:06<2:22:50,  4.01s/it] 57%|████████████████████████████████████████████████████████████████████████████████▌                                                            | 2855/4993 [3:12:09<2:18:40,  3.89s/it] 57%|████████████████████████████████████████████████████████████████████████████████▋                                                            | 2856/4993 [3:12:14<2:27:09,  4.13s/it] 57%|████████████████████████████████████████████████████████████████████████████████▋                                                            | 2857/4993 [3:12:18<2:29:29,  4.20s/it] 57%|████████████████████████████████████████████████████████████████████████████████▋                                                            | 2858/4993 [3:12:22<2:25:36,  4.09s/it] 57%|████████████████████████████████████████████████████████████████████████████████▋                                                            | 2859/4993 [3:12:26<2:21:26,  3.98s/it] 57%|████████████████████████████████████████████████████████████████████████████████▊                                                            | 2860/4993 [3:12:30<2:25:08,  4.08s/it]                                                                                                                                                                                          {'loss': 0.6089, 'grad_norm': 1.8671875, 'learning_rate': 2.001750565118673e-06, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1707.52, 'epoch': 5.72}
+ 57%|████████████████████████████████████████████████████████████████████████████████▊                                                            | 2860/4993 [3:12:30<2:25:08,  4.08s/it] 57%|████████████████████████████████████████████████████████████████████████████████▊                                                            | 2861/4993 [3:12:34<2:25:03,  4.08s/it] 57%|████████████████████████████████████████████████████████████████████████████████▊                                                            | 2862/4993 [3:12:39<2:28:10,  4.17s/it] 57%|████████████████████████████████████████████████████████████████████████████████▊                                                            | 2863/4993 [3:12:43<2:24:10,  4.06s/it] 57%|████████████████████████████████████████████████████████████████████████████████▉                                                            | 2864/4993 [3:12:46<2:21:46,  4.00s/it] 57%|████████████████████████████████████████████████████████████████████████████████▉                                                            | 2865/4993 [3:12:51<2:28:11,  4.18s/it] 57%|████████████████████████████████████████████████████████████████████████████████▉                                                            | 2866/4993 [3:12:55<2:23:20,  4.04s/it] 57%|████████████████████████████████████████████████████████████████████████████████▉                                                            | 2867/4993 [3:12:59<2:23:05,  4.04s/it] 57%|████████████████████████████████████████████████████████████████████████████████▉                                                            | 2868/4993 [3:13:03<2:21:19,  3.99s/it] 57%|█████████████████████████████████████████████████████████████████████████████████                                                            | 2869/4993 [3:13:07<2:22:15,  4.02s/it] 57%|██████████████████████████████████████████████████��██████████████████████████████                                                            | 2870/4993 [3:13:10<2:18:05,  3.90s/it]                                                                                                                                                                                          {'loss': 0.553, 'grad_norm': 2.046875, 'learning_rate': 1.986031493783037e-06, 'memory/max_active (GiB)': 39.54, 'memory/max_allocated (GiB)': 39.54, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 2212.87, 'epoch': 5.74}
+ 57%|█████████████████████████████████████████████████████████████████████████████████                                                            | 2870/4993 [3:13:10<2:18:05,  3.90s/it] 58%|█████████████████████████████████████████████████████████████████████████████████                                                            | 2871/4993 [3:13:15<2:20:54,  3.98s/it] 58%|█████████████████████████████████████████████████████████████████████████████████                                                            | 2872/4993 [3:13:19<2:20:11,  3.97s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▏                                                           | 2873/4993 [3:13:23<2:22:04,  4.02s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▏                                                           | 2874/4993 [3:13:27<2:25:42,  4.13s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▏                                                           | 2875/4993 [3:13:31<2:18:47,  3.93s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▏                                                           | 2876/4993 [3:13:35<2:22:57,  4.05s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▏                                                           | 2877/4993 [3:13:39<2:21:06,  4.00s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▎                                                           | 2878/4993 [3:13:42<2:18:08,  3.92s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▎                                                           | 2879/4993 [3:13:46<2:18:52,  3.94s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▎                                                           | 2880/4993 [3:13:51<2:20:41,  4.00s/it]                                                                                                                                                                                          {'loss': 0.5771, 'grad_norm': 1.9765625, 'learning_rate': 1.970333610172525e-06, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1985.98, 'epoch': 5.76}
+ 58%|████████████████████████████████████████████████████████████████████��████████████▎                                                           | 2880/4993 [3:13:51<2:20:41,  4.00s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▎                                                           | 2881/4993 [3:13:55<2:21:59,  4.03s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▍                                                           | 2882/4993 [3:13:59<2:20:56,  4.01s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▍                                                           | 2883/4993 [3:14:03<2:22:16,  4.05s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▍                                                           | 2884/4993 [3:14:06<2:17:32,  3.91s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▍                                                           | 2885/4993 [3:14:10<2:18:14,  3.93s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▍                                                           | 2886/4993 [3:14:14<2:14:58,  3.84s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▌                                                           | 2887/4993 [3:14:18<2:21:04,  4.02s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▌                                                           | 2888/4993 [3:14:23<2:21:52,  4.04s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▌                                                           | 2889/4993 [3:14:27<2:22:55,  4.08s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▌                                                           | 2890/4993 [3:14:31<2:23:23,  4.09s/it]                                                                                                                                                                                          {'loss': 0.5661, 'grad_norm': 2.203125, 'learning_rate': 1.954657561413252e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1817.61, 'epoch': 5.78}
+ 58%|█████████████████████████████████████████████████████████████████████████████████▌                                                           | 2890/4993 [3:14:31<2:23:23,  4.09s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▋                                                           | 2891/4993 [3:14:35<2:26:09,  4.17s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▋                                                           | 2892/4993 [3:14:39<2:24:25,  4.12s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▋                                                           | 2893/4993 [3:14:43<2:24:14,  4.12s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▋                                                           | 2894/4993 [3:14:47<2:19:59,  4.00s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▊                                                           | 2895/4993 [3:14:51<2:18:12,  3.95s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▊                                                           | 2896/4993 [3:14:55<2:17:21,  3.93s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▊                                                           | 2897/4993 [3:14:59<2:16:37,  3.91s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▊                                                           | 2898/4993 [3:15:03<2:17:15,  3.93s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▊                                                           | 2899/4993 [3:15:07<2:23:04,  4.10s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▉                                                           | 2900/4993 [3:15:11<2:20:26,  4.03s/it]                                                                                                                                                                                          {'loss': 0.5565, 'grad_norm': 2.15625, 'learning_rate': 1.939003993731219e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1981.61, 'epoch': 5.8}
+ 58%|█████████████████████████████████████████████████████████████████████████████████▉                                                           | 2900/4993 [3:15:11<2:20:26,  4.03s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▉                                                           | 2901/4993 [3:15:15<2:22:04,  4.07s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▉                                                           | 2902/4993 [3:15:19<2:17:48,  3.95s/it] 58%|█████████████████████████████████████████████████████████████████████████████████▉                                                           | 2903/4993 [3:15:23<2:17:43,  3.95s/it] 58%|██████████████████████████████████████████████████████████████████████████████████                                                           | 2904/4993 [3:15:27<2:21:19,  4.06s/it] 58%|███████████████████████████████████��██████████████████████████████████████████████                                                           | 2905/4993 [3:15:31<2:20:49,  4.05s/it] 58%|██████████████████████████████████████████████████████████████████████████████████                                                           | 2906/4993 [3:15:35<2:23:45,  4.13s/it] 58%|██████████████████████████████████████████████████████████████████████████████████                                                           | 2907/4993 [3:15:40<2:24:34,  4.16s/it] 58%|██████████████████████████████████████████████████████████████████████████████████                                                           | 2908/4993 [3:15:43<2:19:27,  4.01s/it] 58%|██████████████████████████████████████████████████████████████████████████████████▏                                                          | 2909/4993 [3:15:47<2:18:30,  3.99s/it] 58%|██████████████████████████████████████████████████████████████████████████████████▏                                                          | 2910/4993 [3:15:51<2:17:07,  3.95s/it]                                                                                                                                                                                          {'loss': 0.5723, 'grad_norm': 6.90625, 'learning_rate': 1.9233735524256708e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 2078.91, 'epoch': 5.82}
+ 58%|██████████████████████████████████████████████████████████████████████████████████▏                                                          | 2910/4993 [3:15:51<2:17:07,  3.95s/it] 58%|██████████████████████████████████████████████████████████████████████████████████▏                                                          | 2911/4993 [3:15:55<2:17:02,  3.95s/it] 58%|██████████████████████████████████████████████████████████████████████████████████▏                                                          | 2912/4993 [3:15:59<2:19:27,  4.02s/it] 58%|██████████████████████████████████████████████████████████████████████████████████▎                                                          | 2913/4993 [3:16:03<2:18:42,  4.00s/it] 58%|██████████████████████████████████████████████████████████████████████████████████▎                                                          | 2914/4993 [3:16:07<2:15:39,  3.91s/it] 58%|██████████████████████████████████████████████████████████████████████████████████▎                                                          | 2915/4993 [3:16:10<2:11:16,  3.79s/it] 58%|██████████████████████████████████████████████████████████████████████████████████▎                                                          | 2916/4993 [3:16:14<2:08:55,  3.72s/it] 58%|███████████████████████████████████████████████████████████████████████���██████████▎                                                          | 2917/4993 [3:16:18<2:13:58,  3.87s/it] 58%|██████████████████████████████████████████████████████████████████████████████████▍                                                          | 2918/4993 [3:16:22<2:12:46,  3.84s/it] 58%|██████████████████████████████████████████████████████████████████████████████████▍                                                          | 2919/4993 [3:16:26<2:17:43,  3.98s/it] 58%|██████████████████████████████████████████████████████████████████████████████████▍                                                          | 2920/4993 [3:16:31<2:21:08,  4.09s/it]                                                                                                                                                                                          {'loss': 0.5663, 'grad_norm': 1.921875, 'learning_rate': 1.9077668818424965e-06, 'memory/max_active (GiB)': 40.32, 'memory/max_allocated (GiB)': 40.32, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1731.9, 'epoch': 5.84}
+ 58%|██████████████████████████████████████████████████████████████████████████████████▍                                                          | 2920/4993 [3:16:31<2:21:08,  4.09s/it] 59%|██████████████████████████████████████████████████████████████████████████████████▍                                                          | 2921/4993 [3:16:34<2:17:39,  3.99s/it] 59%|██████████████████████████████████████████████████████████████████████████████████▌                                                          | 2922/4993 [3:16:38<2:17:59,  4.00s/it] 59%|██████████████████████████████████████████████████████████████████████████████████▌                                                          | 2923/4993 [3:16:42<2:18:51,  4.02s/it] 59%|██████████████████████████████████████████████████████████████████████████████████▌                                                          | 2924/4993 [3:16:47<2:21:51,  4.11s/it] 59%|██████████████████████████████████████████████████████████████████████████████████▌                                                          | 2925/4993 [3:16:51<2:21:47,  4.11s/it] 59%|██████████████████████████████████████████████████████████████████████████████████▋                                                          | 2926/4993 [3:16:55<2:20:02,  4.07s/it] 59%|██████████████████████████████████████████████████████████████████████████████████▋                                                          | 2927/4993 [3:16:59<2:16:14,  3.96s/it] 59%|██████████████████████████████████████████████████████████████████████████████████▋                                                          | 2928/4993 [3:17:03<2:21:39,  4.12s/it] 59%|██████████████████████████████████████████████████████████████████████████████████▋                                                          | 2929/4993 [3:17:07<2:19:43,  4.06s/it] 59%|██████████████████████████████████████████████████████████████████████████████████▋                                                          | 2930/4993 [3:17:11<2:18:33,  4.03s/it]                                                                                                                                                                                          {'loss': 0.6022, 'grad_norm': 2.15625, 'learning_rate': 1.8921846253476665e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1913.13, 'epoch': 5.86}
+ 59%|██████████████████████████████████████████████████████████████████████████████████▋                                                          | 2930/4993 [3:17:11<2:18:33,  4.03s/it] 59%|██████████████████████████████████████████████████████████████████████████████████▊                                                          | 2931/4993 [3:17:15<2:17:08,  3.99s/it] 59%|██████████████████████████████████████████████████████████████████████████████████▊                                                          | 2932/4993 [3:17:19<2:16:36,  3.98s/it] 59%|██████████████████████████████████████████████████████████████████████████████████▊                                                          | 2933/4993 [3:17:23<2:21:17,  4.12s/it] 59%|██████████████████████████████████████████████████████████████████████████████████▊                                                          | 2934/4993 [3:17:27<2:18:26,  4.03s/it] 59%|██████████████████████████████████████████████████████████████████████████████████▉                                                          | 2935/4993 [3:17:31<2:14:58,  3.94s/it] 59%|██████████████████████████████████████████████████████████████████████████████████▉                                                          | 2936/4993 [3:17:35<2:18:07,  4.03s/it] 59%|██████████████████████████████████████████████████████████████████████████████████▉                                                          | 2937/4993 [3:17:39<2:15:28,  3.95s/it] 59%|██████████████████████████████████████████████████████████████████████████████████▉                                                          | 2938/4993 [3:17:43<2:13:17,  3.89s/it] 59%|██████████████████████████████████████████████████████████████████████████████████▉                                                          | 2939/4993 [3:17:47<2:14:36,  3.93s/it] 59%|███████████████████████████████████████████████████████████████████████████████████                                                          | 2940/4993 [3:17:51<2:17:08,  4.01s/it]                                                                                                                                                                                          {'loss': 0.5796, 'grad_norm': 2.078125, 'learning_rate': 1.876627425300708e-06, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1807.23, 'epoch': 5.88}
+ 59%|███████████████████████████████████████████████████████████████████████████████████                                                          | 2940/4993 [3:17:51<2:17:08,  4.01s/it] 59%|███████████████████████████████████████████████████████████████████████████████████                                                          | 2941/4993 [3:17:55<2:16:42,  4.00s/it] 59%|███████████████████████████████████████████████████████████████████████████████████                                                          | 2942/4993 [3:17:58<2:12:42,  3.88s/it] 59%|███████████████████████████████████████████████████████████████████████████████████                                                          | 2943/4993 [3:18:02<2:12:07,  3.87s/it] 59%|███████████████████████████████████████████████████████████████████████████████████▏                                                         | 2944/4993 [3:18:06<2:13:41,  3.91s/it] 59%|███████████████████████████████████████████████████████████████████████████████████▏                                                         | 2945/4993 [3:18:10<2:14:43,  3.95s/it] 59%|███████████████████████████████████████████████████████████████████████████████████▏                                                         | 2946/4993 [3:18:14<2:15:16,  3.97s/it] 59%|███████████████████████████████████████████████████████████████████████████████████▏                                                         | 2947/4993 [3:18:18<2:15:07,  3.96s/it] 59%|███████████████████████████████████████████████████████████████████████████████████▎                                                         | 2948/4993 [3:18:22<2:18:09,  4.05s/it] 59%|███████████████████████████████████████████████████████████████████████████████████▎                                                         | 2949/4993 [3:18:26<2:15:25,  3.98s/it] 59%|███████████████████████████████████████████████████████████████████████████████████▎                                                         | 2950/4993 [3:18:30<2:13:27,  3.92s/it]                                                                                                                                                                                          {'loss': 0.5621, 'grad_norm': 2.46875, 'learning_rate': 1.86109592302823e-06, 'memory/max_active (GiB)': 40.36, 'memory/max_allocated (GiB)': 40.36, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1996.8, 'epoch': 5.9}
+ 59%|███████████████████████████████████████████████████████████████████████████████████▎                                                         | 2950/4993 [3:18:30<2:13:27,  3.92s/it] 59%|███████████████████████████████████████████████████████████████████████████████████▎                                                         | 2951/4993 [3:18:34<2:18:24,  4.07s/it] 59%|█████████████████████��█████████████████████████████████████████████████████████████▎                                                         | 2952/4993 [3:18:38<2:16:15,  4.01s/it] 59%|███████████████████████████████████████████████████████████████████████████████████▍                                                         | 2953/4993 [3:18:42<2:18:12,  4.06s/it] 59%|███████████████████████████████████████████████████████████████████████████████████▍                                                         | 2954/4993 [3:18:47<2:18:24,  4.07s/it] 59%|███████████████████████████████████████████████████████████████████████████████████▍                                                         | 2955/4993 [3:18:51<2:19:52,  4.12s/it] 59%|███████████████████████████████████████████████████████████████████████████████████▍                                                         | 2956/4993 [3:18:55<2:21:19,  4.16s/it] 59%|███████████████████████████████████████████████████████████████████████████████████▌                                                         | 2957/4993 [3:18:59<2:17:52,  4.06s/it] 59%|███████████████████████████████████████████████████████████████████████████████████▌                                                         | 2958/4993 [3:19:03<2:18:48,  4.09s/it] 59%|███████████████████████████████████████████████████████████████████████████████████▌                                                         | 2959/4993 [3:19:07<2:17:00,  4.04s/it] 59%|███████████████████████████████████████████████████████████████████████████████████▌                                                         | 2960/4993 [3:19:11<2:18:24,  4.08s/it]                                                                                                                                                                                          {'loss': 0.537, 'grad_norm': 1.8515625, 'learning_rate': 1.8455907587974778e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1947.44, 'epoch': 5.92}
+ 59%|███████████████████████████████████████████████████████████████████████████████████▌                                                         | 2960/4993 [3:19:11<2:18:24,  4.08s/it] 59%|███████████████████████████████████████████████████████████████████████████████████▌                                                         | 2961/4993 [3:19:15<2:20:00,  4.13s/it] 59%|███████████████████████████████████████████████████████████████████████████████████▋                                                         | 2962/4993 [3:19:19<2:15:29,  4.00s/it] 59%|███████████████████████████████████████████████████████████████████████████████████▋                                                         | 2963/4993 [3:19:23<2:13:05,  3.93s/it] 59%|█████████████████████████████████████████████��█████████████████████████████████████▋                                                         | 2964/4993 [3:19:27<2:15:11,  4.00s/it] 59%|███████████████████████████████████████████████████████████████████████████████████▋                                                         | 2965/4993 [3:19:31<2:17:58,  4.08s/it] 59%|███████████████████████████████████████████████████████████████████████████████████▊                                                         | 2966/4993 [3:19:35<2:15:40,  4.02s/it] 59%|███████████████████████████████████████████████████████████████████████████████████▊                                                         | 2967/4993 [3:19:39<2:16:37,  4.05s/it] 59%|███████████████████████████████████████████████████████████████████████████████████▊                                                         | 2968/4993 [3:19:43<2:17:58,  4.09s/it] 59%|███████████████████████████████████████████████████████████████████████████████████▊                                                         | 2969/4993 [3:19:47<2:15:57,  4.03s/it] 59%|███████████████████████████████████████████████████████████████████████████████████▊                                                         | 2970/4993 [3:19:52<2:17:16,  4.07s/it]                                                                                                                                                                                          {'loss': 0.5363, 'grad_norm': 1.9609375, 'learning_rate': 1.8301125717899476e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1999.17, 'epoch': 5.94}
+ 59%|███████████████████████████████████████████████████████████████████████████████████▊                                                         | 2970/4993 [3:19:52<2:17:16,  4.07s/it] 60%|███████████████████████████████████████████████████████████████████████████████████▉                                                         | 2971/4993 [3:19:55<2:12:43,  3.94s/it] 60%|███████████████████████████████████████████████████████████████████████████████████▉                                                         | 2972/4993 [3:19:59<2:14:21,  3.99s/it] 60%|███████████████████████████████████████████████████████████████████████████████████▉                                                         | 2973/4993 [3:20:04<2:23:18,  4.26s/it] 60%|███████████████████████████████████████████████████████████████████████████████████▉                                                         | 2974/4993 [3:20:09<2:26:02,  4.34s/it] 60%|████████████████████████████████████████████████████████████████████████████████████                                                         | 2975/4993 [3:20:13<2:24:40,  4.30s/it] 60%|█████████████████████████████████████████████████████████████████████���██████████████                                                         | 2976/4993 [3:20:17<2:22:19,  4.23s/it] 60%|████████████████████████████████████████████████████████████████████████████████████                                                         | 2977/4993 [3:20:21<2:23:43,  4.28s/it] 60%|████████████████████████████████████████████████████████████████████████████████████                                                         | 2978/4993 [3:20:25<2:19:58,  4.17s/it] 60%|████████████████████████████████████████████████████████████████████████████████████▏                                                        | 2979/4993 [3:20:29<2:18:58,  4.14s/it] 60%|████████████████████████████████████████████████████████████████████████████████████▏                                                        | 2980/4993 [3:20:33<2:16:46,  4.08s/it]                                                                                                                                                                                          {'loss': 0.5894, 'grad_norm': 2.125, 'learning_rate': 1.8146620000750306e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 2155.7, 'epoch': 5.96}
+ 60%|████████████████████████████████████████████████████████████████████████████████████▏                                                        | 2980/4993 [3:20:33<2:16:46,  4.08s/it] 60%|████████████████████████████████████████████████████████████████████████████████████▏                                                        | 2981/4993 [3:20:37<2:13:03,  3.97s/it] 60%|████████████████████████████████████████████████████████████████████████████████████▏                                                        | 2982/4993 [3:20:42<2:19:04,  4.15s/it] 60%|████████████████████████████████████████████████████████████████████████████████████▏                                                        | 2983/4993 [3:20:46<2:19:01,  4.15s/it] 60%|████████████████████████████████████████████████████████████████████████████████████▎                                                        | 2984/4993 [3:20:50<2:18:05,  4.12s/it] 60%|████████████████████████████████████████████████████████████████████████████████████▎                                                        | 2985/4993 [3:20:54<2:18:49,  4.15s/it] 60%|████████████████████████████████████████████████████████████████████████████████████▎                                                        | 2986/4993 [3:20:58<2:16:53,  4.09s/it] 60%|████████████████████████████████████████████████████████████████████████████████████▎                                                        | 2987/4993 [3:21:02<2:19:22,  4.17s/it] 60%|████████████████████████████████████████████████████████████████████████████████████▍                                                        | 2988/4993 [3:21:06<2:15:30,  4.06s/it] 60%|████████████████████████████████████████████████████████████████████████████████████▍                                                        | 2989/4993 [3:21:10<2:15:09,  4.05s/it] 60%|████████████████████████████████████████████████████████████████████████████████████▍                                                        | 2990/4993 [3:21:14<2:13:47,  4.01s/it]                                                                                                                                                                                          {'loss': 0.5543, 'grad_norm': 1.96875, 'learning_rate': 1.7992396805837093e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 2037.93, 'epoch': 5.98}
+ 60%|████████████████████████████████████████████████████████████████████████████████████▍                                                        | 2990/4993 [3:21:14<2:13:47,  4.01s/it] 60%|████████████████████████████████████████████████████████████████████████████████████▍                                                        | 2991/4993 [3:21:18<2:15:09,  4.05s/it] 60%|████████████████████████████████████████████████████████████████████████████████████▍                                                        | 2992/4993 [3:21:22<2:15:44,  4.07s/it] 60%|████████████████████████████████████████████████████████████████████████████████████▌                                                        | 2993/4993 [3:21:27<2:18:10,  4.15s/it] 60%|████████████████████████████████████████████████████████████████████████████████████▌                                                        | 2994/4993 [3:21:31<2:18:16,  4.15s/it] 60%|████████████████████████████████████████████████████████████████████████████████████▌                                                        | 2995/4993 [3:21:34<2:12:52,  3.99s/it] 60%|████████████████████████████████████████████████████████████████████████████████████▌                                                        | 2996/4993 [3:21:38<2:09:41,  3.90s/it] 60%|████████████████████████████████████████████████████████████████████████████████████▋                                                        | 2997/4993 [3:21:42<2:10:29,  3.92s/it] 60%|████████████████████████████████████████████████████████████████████████████████████▋                                                        | 2998/4993 [3:21:46<2:07:37,  3.84s/it] 60%|████████████████████████████████████████████████████████████████████████████████████▋                                                        | 2999/4993 [3:21:49<2:05:51,  3.79s/it] 60%|████████████████████████████████████████████████████████████████████████████████████▋                                                        | 3000/4993 [3:21:50<1:38:38,  2.97s/it]                                                                                                                                                                                          {'loss': 0.579, 'grad_norm': 5.0, 'learning_rate': 1.783846249082306e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 7571.54, 'epoch': 6.0}
+ 60%|████████████████████████████████████████████████████████████████████████████████████▋                                                        | 3000/4993 [3:21:50<1:38:38,  2.97s/it][2025-12-23 17:48:12,086] [INFO] [axolotl.core.trainers.base._save:671] [PID:5529] Saving model checkpoint to ./outputs/qwen3-4b-instruct-ded-full-train/checkpoint-3000
+ 60%|████████████████████████████████████████████████████████████████████████████████████▋                                                        | 3001/4993 [3:22:30<7:39:00, 13.83s/it] 60%|████████████████████████████████████████████████████████████████████████████████████▊                                                        | 3002/4993 [3:22:34<6:02:06, 10.91s/it] 60%|████████████████████████████████████████████████████████████████████████████████████▊                                                        | 3003/4993 [3:22:37<4:49:15,  8.72s/it] 60%|████████████████████████████████████████████████████████████████████████████████████▊                                                        | 3004/4993 [3:22:41<4:03:05,  7.33s/it] 60%|████████████████████████████████████████████████████████████████████████████████████▊                                                        | 3005/4993 [3:22:45<3:29:55,  6.34s/it] 60%|████████████████████████████████████████████████████████████████████████████████████▉                                                        | 3006/4993 [3:22:50<3:08:09,  5.68s/it] 60%|████████████████████████████████████████████████████████████████████████████████████▉                                                        | 3007/4993 [3:22:53<2:48:44,  5.10s/it] 60%|████████████████████████████████████████████████████████████████████████████████████▉                                                        | 3008/4993 [3:22:57<2:36:21,  4.73s/it] 60%|████████████████████████████████████████████████████████████████████████████████████▉                                                        | 3009/4993 [3:23:01<2:30:35,  4.55s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████                                                        | 3010/4993 [3:23:05<2:23:51,  4.35s/it]                                                                                                                                                                                          {'loss': 0.5735, 'grad_norm': 2.359375, 'learning_rate': 1.7684823401462675e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1854.39, 'epoch': 6.02}
+ 60%|███████████████████████████████████████��█████████████████████████████████████████████                                                        | 3010/4993 [3:23:05<2:23:51,  4.35s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████                                                        | 3011/4993 [3:23:10<2:24:09,  4.36s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████                                                        | 3012/4993 [3:23:13<2:17:12,  4.16s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████                                                        | 3013/4993 [3:23:17<2:13:58,  4.06s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████                                                        | 3014/4993 [3:23:21<2:12:00,  4.00s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████▏                                                       | 3015/4993 [3:23:25<2:16:16,  4.13s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████▏                                                       | 3016/4993 [3:23:29<2:15:44,  4.12s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████▏                                                       | 3017/4993 [3:23:34<2:16:45,  4.15s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████▏                                                       | 3018/4993 [3:23:37<2:11:16,  3.99s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████▎                                                       | 3019/4993 [3:23:41<2:09:51,  3.95s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████▎                                                       | 3020/4993 [3:23:45<2:10:14,  3.96s/it]                                                                                                                                                                                          {'loss': 0.578, 'grad_norm': 1.921875, 'learning_rate': 1.7531485871340122e-06, 'memory/max_active (GiB)': 40.32, 'memory/max_allocated (GiB)': 40.32, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1906.02, 'epoch': 6.04}
+ 60%|█████████████████████████████████████████████████████████████████████████████████████▎                                                       | 3020/4993 [3:23:45<2:10:14,  3.96s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████▎                                                       | 3021/4993 [3:23:49<2:12:08,  4.02s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████▎                                                       | 3022/4993 [3:23:53<2:12:11,  4.02s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████▎                                                       | 3023/4993 [3:23:57<2:07:28,  3.88s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████▍                                                       | 3024/4993 [3:24:01<2:08:41,  3.92s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████▍                                                       | 3025/4993 [3:24:05<2:07:47,  3.90s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████▍                                                       | 3026/4993 [3:24:09<2:07:17,  3.88s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████▍                                                       | 3027/4993 [3:24:13<2:07:41,  3.90s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████▌                                                       | 3028/4993 [3:24:17<2:11:19,  4.01s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████▌                                                       | 3029/4993 [3:24:21<2:11:00,  4.00s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████▌                                                       | 3030/4993 [3:24:25<2:13:59,  4.10s/it]                                                                                                                                                                                          {'loss': 0.5699, 'grad_norm': 1.953125, 'learning_rate': 1.7378456221608145e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1751.75, 'epoch': 6.06}
+ 61%|█████████████████████████████████████████████████████████████████████████████████████▌                                                       | 3030/4993 [3:24:25<2:13:59,  4.10s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████▌                                                       | 3031/4993 [3:24:29<2:08:29,  3.93s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████▌                                                       | 3032/4993 [3:24:32<2:07:29,  3.90s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████▋                                                       | 3033/4993 [3:24:36<2:05:25,  3.84s/it] 61%|████████████████████████████████████████████████████████��████████████████████████████▋                                                       | 3034/4993 [3:24:40<2:06:32,  3.88s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████▋                                                       | 3035/4993 [3:24:45<2:12:24,  4.06s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████▋                                                       | 3036/4993 [3:24:49<2:14:14,  4.12s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████▊                                                       | 3037/4993 [3:24:53<2:11:08,  4.02s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████▊                                                       | 3038/4993 [3:24:56<2:06:52,  3.89s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████▊                                                       | 3039/4993 [3:25:01<2:11:57,  4.05s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████▊                                                       | 3040/4993 [3:25:05<2:14:22,  4.13s/it]                                                                                                                                                                                          {'loss': 0.5586, 'grad_norm': 1.625, 'learning_rate': 1.722574076072751e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1632.6, 'epoch': 6.08}
+ 61%|█████████████████████████████████████████████████████████████████████████████████████▊                                                       | 3040/4993 [3:25:05<2:14:22,  4.13s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████▉                                                       | 3041/4993 [3:25:09<2:12:32,  4.07s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████▉                                                       | 3042/4993 [3:25:13<2:11:59,  4.06s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████▉                                                       | 3043/4993 [3:25:17<2:11:30,  4.05s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████▉                                                       | 3044/4993 [3:25:21<2:09:31,  3.99s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████▉                                                       | 3045/4993 [3:25:25<2:12:09,  4.07s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████                                                       | 3046/4993 [3:25:29<2:13:42,  4.12s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████                                                       | 3047/4993 [3:25:33<2:11:54,  4.07s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████                                                       | 3048/4993 [3:25:37<2:12:19,  4.08s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████                                                       | 3049/4993 [3:25:42<2:12:24,  4.09s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████▏                                                      | 3050/4993 [3:25:45<2:10:27,  4.03s/it]                                                                                                                                                                                          {'loss': 0.562, 'grad_norm': 2.21875, 'learning_rate': 1.707334578420693e-06, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1932.56, 'epoch': 6.1}
+ 61%|██████████████████████████████████████████████████████████████████████████████████████▏                                                      | 3050/4993 [3:25:45<2:10:27,  4.03s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████▏                                                      | 3051/4993 [3:25:49<2:06:31,  3.91s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████▏                                                      | 3052/4993 [3:25:53<2:06:58,  3.93s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████▏                                                      | 3053/4993 [3:25:57<2:10:18,  4.03s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████▏                                                      | 3054/4993 [3:26:02<2:15:19,  4.19s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████▎                                                      | 3055/4993 [3:26:06<2:10:41,  4.05s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████▎                                                      | 3056/4993 [3:26:10<2:13:38,  4.14s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████▎                                                      | 3057/4993 [3:26:14<2:16:08,  4.22s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████▎                                                      | 3058/4993 [3:26:19<2:18:12,  4.29s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████▍                                                      | 3059/4993 [3:26:23<2:14:14,  4.16s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████▍                                                      | 3060/4993 [3:26:27<2:11:25,  4.08s/it]                                                                                                                                                                                          {'loss': 0.5582, 'grad_norm': 1.5703125, 'learning_rate': 1.692127757434353e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 2074.48, 'epoch': 6.12}
+ 61%|██████████████████████████████████████████████████████████████████████████████████████▍                                                      | 3060/4993 [3:26:27<2:11:25,  4.08s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████▍                                                      | 3061/4993 [3:26:31<2:17:31,  4.27s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████▍                                                      | 3062/4993 [3:26:36<2:17:31,  4.27s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████▍                                                      | 3063/4993 [3:26:40<2:17:26,  4.27s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████▌                                                      | 3064/4993 [3:26:44<2:17:46,  4.29s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████▌                                                      | 3065/4993 [3:26:48<2:16:09,  4.24s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████▌                                                      | 3066/4993 [3:26:52<2:14:31,  4.19s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████▌                                                      | 3067/4993 [3:26:56<2:14:32,  4.19s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████▋                                                      | 3068/4993 [3:27:01<2:14:49,  4.20s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████▋                                                      | 3069/4993 [3:27:05<2:13:00,  4.15s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████▋                                                      | 3070/4993 [3:27:09<2:14:37,  4.20s/it]                                                                                                                                                                                          {'loss': 0.5475, 'grad_norm': 1.8125, 'learning_rate': 1.6769542399963895e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1919.63, 'epoch': 6.14}
+ 61%|██████████████████████████████████████████████████████████████████████████████████████▋                                                      | 3070/4993 [3:27:09<2:14:37,  4.20s/it] 62%|██████████████████████████████████████████████████████████████████████████████████████▋                                                      | 3071/4993 [3:27:13<2:08:36,  4.01s/it] 62%|██████████████████████████████████████████████████████████████████████████████████████▊                                                      | 3072/4993 [3:27:16<2:05:35,  3.92s/it] 62%|██████████████████████████████████████████████████████████████████████████████████████▊                                                      | 3073/4993 [3:27:20<2:03:05,  3.85s/it] 62%|██████████████████████████████████████████████████████████████████████████████████████▊                                                      | 3074/4993 [3:27:24<2:03:41,  3.87s/it] 62%|██████████████████████████████████████████████████████████████████████████████████████▊                                                      | 3075/4993 [3:27:28<2:04:33,  3.90s/it] 62%|██████████████████████████████████████████████████████████████████████████████████████▊                                                      | 3076/4993 [3:27:32<2:02:12,  3.83s/it] 62%|██████████████████████████████████████████████████████████████████████████████████████▉                                                      | 3077/4993 [3:27:35<1:59:05,  3.73s/it] 62%|██████████████████████████████████████████████████████████████████████████████████████▉                                                      | 3078/4993 [3:27:40<2:08:58,  4.04s/it] 62%|██████████████████████████████████████████████████████████████████████████████████████▉                                                      | 3079/4993 [3:27:44<2:07:09,  3.99s/it] 62%|██████████████████████████████████████████████████████████████████████████████████████▉                                                      | 3080/4993 [3:27:47<2:05:23,  3.93s/it]                                                                                                                                                                                          {'loss': 0.5763, 'grad_norm': 2.140625, 'learning_rate': 1.661814651616561e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1814.71, 'epoch': 6.16}
+ 62%|██████████████████████████████████████████████████████████████████████████████████████▉                                                      | 3080/4993 [3:27:48<2:05:23,  3.93s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████                                                      | 3081/4993 [3:27:51<2:05:16,  3.93s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████                                                      | 3082/4993 [3:27:55<2:03:30,  3.88s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████                                                      | 3083/4993 [3:27:59<2:06:42,  3.98s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████                                                      | 3084/4993 [3:28:03<2:07:37,  4.01s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████                                                      | 3085/4993 [3:28:08<2:08:26,  4.04s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████▏                                                     | 3086/4993 [3:28:12<2:08:44,  4.05s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████▏                                                     | 3087/4993 [3:28:16<2:09:09,  4.07s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████▏                                                     | 3088/4993 [3:28:20<2:07:39,  4.02s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████▏                                                     | 3089/4993 [3:28:24<2:07:37,  4.02s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████▎                                                     | 3090/4993 [3:28:28<2:10:35,  4.12s/it]                                                                                                                                                                                          {'loss': 0.5627, 'grad_norm': 1.8125, 'learning_rate': 1.6467096164059433e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1796.34, 'epoch': 6.18}
+ 62%|███████████████████████████████████████████████████████████████████████████████████████▎                                                     | 3090/4993 [3:28:28<2:10:35,  4.12s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████▎                                                     | 3091/4993 [3:28:32<2:11:44,  4.16s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████▎                                                     | 3092/4993 [3:28:36<2:10:24,  4.12s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████▎                                                     | 3093/4993 [3:28:40<2:07:22,  4.02s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████▎                                                     | 3094/4993 [3:28:45<2:11:13,  4.15s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████▍                                                     | 3095/4993 [3:28:49<2:11:51,  4.17s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████▍                                                     | 3096/4993 [3:28:53<2:10:39,  4.13s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████▍                                                     | 3097/4993 [3:28:57<2:06:25,  4.00s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████▍                                                     | 3098/4993 [3:29:00<2:05:35,  3.98s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████▌                                                     | 3099/4993 [3:29:04<2:00:34,  3.82s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████▌                                                     | 3100/4993 [3:29:08<2:00:36,  3.82s/it]                                                                                                                                                                                          {'loss': 0.532, 'grad_norm': 2.1875, 'learning_rate': 1.6316397570511988e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1902.47, 'epoch': 6.2}
+ 62%|███████████████████████████████████████████████████████████████████████████████████████▌                                                     | 3100/4993 [3:29:08<2:00:36,  3.82s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████▌                                                     | 3101/4993 [3:29:11<1:59:35,  3.79s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████▌                                                     | 3102/4993 [3:29:15<1:59:35,  3.79s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████▋                                                     | 3103/4993 [3:29:20<2:05:59,  4.00s/it] 62%|████████████████████████��██████████████████████████████████████████████████████████████▋                                                     | 3104/4993 [3:29:24<2:08:09,  4.07s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████▋                                                     | 3105/4993 [3:29:28<2:08:36,  4.09s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████▋                                                     | 3106/4993 [3:29:32<2:05:59,  4.01s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████▋                                                     | 3107/4993 [3:29:36<2:05:53,  4.00s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████▊                                                     | 3108/4993 [3:29:40<2:05:37,  4.00s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████▊                                                     | 3109/4993 [3:29:44<2:02:39,  3.91s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████▊                                                     | 3110/4993 [3:29:47<2:00:29,  3.84s/it]                                                                                                                                                                                          {'loss': 0.5773, 'grad_norm': 2.234375, 'learning_rate': 1.6166056947889085e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 2101.73, 'epoch': 6.22}
+ 62%|███████████████████████████████████████████████████████████████████████████████████████▊                                                     | 3110/4993 [3:29:47<2:00:29,  3.84s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████▊                                                     | 3111/4993 [3:29:51<2:02:53,  3.92s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████▉                                                     | 3112/4993 [3:29:55<2:00:52,  3.86s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████▉                                                     | 3113/4993 [3:29:59<2:02:28,  3.91s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████▉                                                     | 3114/4993 [3:30:03<2:01:39,  3.88s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████▉                                                     | 3115/4993 [3:30:07<2:01:12,  3.87s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████▉                                                     | 3116/4993 [3:30:10<1:57:31,  3.76s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████                                                     | 3117/4993 [3:30:14<1:58:48,  3.80s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████                                                     | 3118/4993 [3:30:18<1:56:04,  3.71s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████                                                     | 3119/4993 [3:30:22<1:58:35,  3.80s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████                                                     | 3120/4993 [3:30:26<1:59:17,  3.82s/it]                                                                                                                                                                                          {'loss': 0.5903, 'grad_norm': 2.21875, 'learning_rate': 1.6016080493799643e-06, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1803.54, 'epoch': 6.24}
+ 62%|████████████████████████████████████████████████████████████████████████████████████████                                                     | 3120/4993 [3:30:26<1:59:17,  3.82s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 3121/4993 [3:30:29<2:00:07,  3.85s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 3122/4993 [3:30:33<1:56:46,  3.74s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 3123/4993 [3:30:37<2:03:32,  3.96s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 3124/4993 [3:30:42<2:05:00,  4.01s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 3125/4993 [3:30:46<2:06:39,  4.07s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▎                                                    | 3126/4993 [3:30:50<2:09:33,  4.16s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▎                                                    | 3127/4993 [3:30:54<2:07:02,  4.09s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▎                                                    | 3128/4993 [3:30:58<2:06:03,  4.06s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▎                                                    | 3129/4993 [3:31:02<2:03:38,  3.98s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▍                                                    | 3130/4993 [3:31:06<2:05:34,  4.04s/it]                                                                                                                                                                                          {'loss': 0.5639, 'grad_norm': 2.140625, 'learning_rate': 1.5866474390840126e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1932.67, 'epoch': 6.26}
+ 63%|████████████████████████████████████████████████████████████████████████████████████████▍                                                    | 3130/4993 [3:31:06<2:05:34,  4.04s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▍                                                    | 3131/4993 [3:31:10<2:04:34,  4.01s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▍                                                    | 3132/4993 [3:31:14<2:03:06,  3.97s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▍                                                    | 3133/4993 [3:31:18<2:03:12,  3.97s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▌                                                    | 3134/4993 [3:31:22<2:06:41,  4.09s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▌                                                    | 3135/4993 [3:31:26<2:03:14,  3.98s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▌                                                    | 3136/4993 [3:31:30<2:02:53,  3.97s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▌                                                    | 3137/4993 [3:31:34<2:03:22,  3.99s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▌                                                    | 3138/4993 [3:31:37<1:59:16,  3.86s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▋                                                    | 3139/4993 [3:31:41<1:57:15,  3.79s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▋                                                    | 3140/4993 [3:31:45<1:57:29,  3.80s/it]                                                                                                                                                                                          {'loss': 0.5698, 'grad_norm': 2.359375, 'learning_rate': 1.571724480633978e-06, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1853.58, 'epoch': 6.28}
+ 63%|████████████████████████████████████████████████████████████████████████████████████████▋                                                    | 3140/4993 [3:31:45<1:57:29,  3.80s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▋                                                    | 3141/4993 [3:31:49<1:56:57,  3.79s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▋                                                    | 3142/4993 [3:31:53<1:57:28,  3.81s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▊                                                    | 3143/4993 [3:31:57<2:02:05,  3.96s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▊                                                    | 3144/4993 [3:32:01<2:00:53,  3.92s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▊                                                    | 3145/4993 [3:32:05<2:00:07,  3.90s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▊                                                    | 3146/4993 [3:32:09<2:02:23,  3.98s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▊                                                    | 3147/4993 [3:32:13<2:05:35,  4.08s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▉                                                    | 3148/4993 [3:32:17<2:03:01,  4.00s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▉                                                    | 3149/4993 [3:32:21<2:00:26,  3.92s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▉                                                    | 3150/4993 [3:32:25<2:05:07,  4.07s/it]                                                                                                                                                                                          {'loss': 0.5529, 'grad_norm': 1.6640625, 'learning_rate': 1.5568397892106282e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1770.04, 'epoch': 6.3}
+ 63%|████████████████████████████████████████████████████████████████████████████████████████▉                                                    | 3150/4993 [3:32:25<2:05:07,  4.07s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████▉                                                    | 3151/4993 [3:32:29<2:05:43,  4.10s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████                                                    | 3152/4993 [3:32:34<2:08:30,  4.19s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████                                                    | 3153/4993 [3:32:38<2:06:43,  4.13s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████                                                    | 3154/4993 [3:32:42<2:10:43,  4.27s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████                                                    | 3155/4993 [3:32:46<2:10:09,  4.25s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████                                                    | 3156/4993 [3:32:51<2:10:42,  4.27s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████▏                                                   | 3157/4993 [3:32:55<2:09:10,  4.22s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████▏                                                   | 3158/4993 [3:32:59<2:05:43,  4.11s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████▏                                                   | 3159/4993 [3:33:03<2:07:24,  4.17s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████▏                                                   | 3160/4993 [3:33:07<2:05:22,  4.10s/it]                                                                                                                                                                                          {'loss': 0.5737, 'grad_norm': 1.953125, 'learning_rate': 1.5419939784172245e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 2269.38, 'epoch': 6.32}
+ 63%|█████████████████████████████████████████████████████████████████████████████████████████▏                                                   | 3160/4993 [3:33:07<2:05:22,  4.10s/it] 63%|█████████████████████████████████████��███████████████████████████████████████████████████▎                                                   | 3161/4993 [3:33:11<2:04:52,  4.09s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████▎                                                   | 3162/4993 [3:33:15<2:05:45,  4.12s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████▎                                                   | 3163/4993 [3:33:19<2:06:25,  4.15s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████▎                                                   | 3164/4993 [3:33:23<2:04:02,  4.07s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                   | 3165/4993 [3:33:28<2:06:20,  4.15s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                   | 3166/4993 [3:33:32<2:10:28,  4.29s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                   | 3167/4993 [3:33:36<2:05:59,  4.14s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                   | 3168/4993 [3:33:40<2:02:37,  4.03s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                   | 3169/4993 [3:33:44<2:04:12,  4.09s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████▌                                                   | 3170/4993 [3:33:48<2:01:42,  4.01s/it]                                                                                                                                                                                          {'loss': 0.5572, 'grad_norm': 2.328125, 'learning_rate': 1.5271876602542188e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 2199.03, 'epoch': 6.34}
+ 63%|█████████████████████████████████████████████████████████████████████████████████████████▌                                                   | 3170/4993 [3:33:48<2:01:42,  4.01s/it] 64%|█████████████████████████████████████████████████████████████████████████████████████████▌                                                   | 3171/4993 [3:33:51<1:55:41,  3.81s/it] 64%|█████████████████████████████████████████████████████████████████████████████████████████▌                                                   | 3172/4993 [3:33:55<1:57:45,  3.88s/it] 64%|█████████��███████████████████████████████████████████████████████████████████████████████▌                                                   | 3173/4993 [3:33:59<1:56:51,  3.85s/it] 64%|█████████████████████████████████████████████████████████████████████████████████████████▋                                                   | 3174/4993 [3:34:03<1:57:41,  3.88s/it] 64%|█████████████████████████████████████████████████████████████████████████████████████████▋                                                   | 3175/4993 [3:34:06<1:54:26,  3.78s/it] 64%|█████████████████████████████████████████████████████████████████████████████████████████▋                                                   | 3176/4993 [3:34:11<1:59:48,  3.96s/it] 64%|█████████████████████████████████████████████████████████████████████████████████████████▋                                                   | 3177/4993 [3:34:15<2:01:16,  4.01s/it] 64%|█████████████████████████████████████████████████████████████████████████████████████████▋                                                   | 3178/4993 [3:34:19<1:58:07,  3.91s/it] 64%|█████████████████████████████████████████████████████████████████████████████████████████▊                                                   | 3179/4993 [3:34:22<1:55:04,  3.81s/it] 64%|█████████████████████████████████████████████████████████████████████████████████████████▊                                                   | 3180/4993 [3:34:26<1:53:08,  3.74s/it]                                                                                                                                                                                          {'loss': 0.5855, 'grad_norm': 2.625, 'learning_rate': 1.5124214450940273e-06, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1880.5, 'epoch': 6.36}
+ 64%|█████████████████████████████████████████████████████████████████████████████████████████▊                                                   | 3180/4993 [3:34:26<1:53:08,  3.74s/it] 64%|█████████████████████████████████████████████████████████████████████████████████████████▊                                                   | 3181/4993 [3:34:30<1:57:45,  3.90s/it] 64%|█████████████████████████████████████████████████████████████████████████████████████████▊                                                   | 3182/4993 [3:34:34<2:01:03,  4.01s/it] 64%|█████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 3183/4993 [3:34:38<2:01:59,  4.04s/it] 64%|█████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 3184/4993 [3:34:42<2:02:11,  4.05s/it] 64%|█████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 3185/4993 [3:34:46<2:00:35,  4.00s/it] 64%|█████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 3186/4993 [3:34:50<2:00:07,  3.99s/it] 64%|█████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 3187/4993 [3:34:54<1:59:06,  3.96s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████                                                   | 3188/4993 [3:34:58<2:00:05,  3.99s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████                                                   | 3189/4993 [3:35:02<2:00:53,  4.02s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████                                                   | 3190/4993 [3:35:07<2:02:40,  4.08s/it]                                                                                                                                                                                          {'loss': 0.5742, 'grad_norm': 1.7578125, 'learning_rate': 1.49769594165587e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1915.1, 'epoch': 6.38}
+ 64%|██████████████████████████████████████████████████████████████████████████████████████████                                                   | 3190/4993 [3:35:07<2:02:40,  4.08s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████                                                   | 3191/4993 [3:35:11<2:03:06,  4.10s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                  | 3192/4993 [3:35:15<2:06:13,  4.21s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                  | 3193/4993 [3:35:20<2:07:39,  4.26s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                  | 3194/4993 [3:35:24<2:06:35,  4.22s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                  | 3195/4993 [3:35:27<2:00:58,  4.04s/it] 64%|███████████████████████████████████████████████████████████████████████████���██████████████▎                                                  | 3196/4993 [3:35:31<1:59:10,  3.98s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                  | 3197/4993 [3:35:35<1:56:26,  3.89s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                  | 3198/4993 [3:35:39<1:57:23,  3.92s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                  | 3199/4993 [3:35:43<1:58:29,  3.96s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                  | 3200/4993 [3:35:47<1:56:57,  3.91s/it]                                                                                                                                                                                          {'loss': 0.5516, 'grad_norm': 2.53125, 'learning_rate': 1.4830117569806752e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 2003.58, 'epoch': 6.4}
+ 64%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                  | 3200/4993 [3:35:47<1:56:57,  3.91s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████▍                                                  | 3201/4993 [3:35:51<1:57:38,  3.94s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████▍                                                  | 3202/4993 [3:35:55<1:58:48,  3.98s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████▍                                                  | 3203/4993 [3:35:59<2:03:04,  4.13s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████▍                                                  | 3204/4993 [3:36:03<2:02:26,  4.11s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████▌                                                  | 3205/4993 [3:36:07<1:57:04,  3.93s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████▌                                                  | 3206/4993 [3:36:11<1:56:35,  3.91s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████▌                                                  | 3207/4993 [3:36:15<1:56:13,  3.90s/it] 64%|███████████████████████████████████████���██████████████████████████████████████████████████▌                                                  | 3208/4993 [3:36:19<1:57:21,  3.94s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████▌                                                  | 3209/4993 [3:36:23<1:59:22,  4.01s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 3210/4993 [3:36:27<2:01:31,  4.09s/it]                                                                                                                                                                                          {'loss': 0.5495, 'grad_norm': 1.921875, 'learning_rate': 1.4683694964060554e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1862.72, 'epoch': 6.42}
+ 64%|██████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 3210/4993 [3:36:27<2:01:31,  4.09s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 3211/4993 [3:36:31<2:02:05,  4.11s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 3212/4993 [3:36:35<2:01:48,  4.10s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 3213/4993 [3:36:39<1:55:37,  3.90s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████▊                                                  | 3214/4993 [3:36:43<1:58:17,  3.99s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████▊                                                  | 3215/4993 [3:36:48<2:07:31,  4.30s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████▊                                                  | 3216/4993 [3:36:52<2:06:51,  4.28s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████▊                                                  | 3217/4993 [3:36:56<2:04:43,  4.21s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████▊                                                  | 3218/4993 [3:37:00<1:59:29,  4.04s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████▉                                                  | 3219/4993 [3:37:04<1:58:57,  4.02s/it] 64%|██��███████████████████████████████████████████████████████████████████████████████████████▉                                                  | 3220/4993 [3:37:08<1:59:53,  4.06s/it]                                                                                                                                                                                          {'loss': 0.584, 'grad_norm': 2.03125, 'learning_rate': 1.4537697635413528e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1867.38, 'epoch': 6.44}
+ 64%|██████████████████████████████████████████████████████████████████████████████████████████▉                                                  | 3220/4993 [3:37:08<1:59:53,  4.06s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████▉                                                  | 3221/4993 [3:37:12<1:58:36,  4.02s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████▉                                                  | 3222/4993 [3:37:16<1:56:47,  3.96s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████                                                  | 3223/4993 [3:37:20<1:56:46,  3.96s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████                                                  | 3224/4993 [3:37:24<1:57:27,  3.98s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████                                                  | 3225/4993 [3:37:28<1:59:23,  4.05s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████                                                  | 3226/4993 [3:37:32<1:57:11,  3.98s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████▏                                                 | 3227/4993 [3:37:36<1:57:27,  3.99s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████▏                                                 | 3228/4993 [3:37:40<1:57:02,  3.98s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████▏                                                 | 3229/4993 [3:37:44<2:02:14,  4.16s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████▏                                                 | 3230/4993 [3:37:49<2:02:50,  4.18s/it]                                                                                                                                                                                          {'loss': 0.5826, 'grad_norm': 1.890625, 'learning_rate': 1.439213160242759e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1836.0, 'epoch': 6.46}
+ 65%|███████████████████████████████████████████████████████████████████████████████████████████▏                                                 | 3230/4993 [3:37:49<2:02:50,  4.18s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████▏                                                 | 3231/4993 [3:37:53<2:01:23,  4.13s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████▎                                                 | 3232/4993 [3:37:57<2:01:28,  4.14s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████▎                                                 | 3233/4993 [3:38:01<2:02:58,  4.19s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████▎                                                 | 3234/4993 [3:38:05<2:00:09,  4.10s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████▎                                                 | 3235/4993 [3:38:09<1:58:40,  4.05s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████▍                                                 | 3236/4993 [3:38:13<2:02:49,  4.19s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████▍                                                 | 3237/4993 [3:38:18<2:03:35,  4.22s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████▍                                                 | 3238/4993 [3:38:22<2:01:05,  4.14s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████▍                                                 | 3239/4993 [3:38:26<2:00:10,  4.11s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████▍                                                 | 3240/4993 [3:38:30<2:01:41,  4.16s/it]                                                                                                                                                                                          {'loss': 0.5907, 'grad_norm': 1.7421875, 'learning_rate': 1.4247002865884985e-06, 'memory/max_active (GiB)': 42.85, 'memory/max_allocated (GiB)': 42.85, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1767.96, 'epoch': 6.48}
+ 65%|███████████████████████████████████████████████████████████████████████████████████████████▍                                                 | 3240/4993 [3:38:30<2:01:41,  4.16s/it] 65%|█████████████████████���█████████████████████████████████████████████████████████████████████▌                                                 | 3241/4993 [3:38:34<2:01:19,  4.15s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████▌                                                 | 3242/4993 [3:38:38<1:56:10,  3.98s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████▌                                                 | 3243/4993 [3:38:41<1:52:30,  3.86s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████▌                                                 | 3244/4993 [3:38:45<1:55:07,  3.95s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                 | 3245/4993 [3:38:49<1:55:06,  3.95s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                 | 3246/4993 [3:38:53<1:52:50,  3.88s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                 | 3247/4993 [3:38:57<1:55:12,  3.96s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                 | 3248/4993 [3:39:02<1:58:18,  4.07s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 3249/4993 [3:39:05<1:55:45,  3.98s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 3250/4993 [3:39:09<1:54:21,  3.94s/it]                                                                                                                                                                                          {'loss': 0.6067, 'grad_norm': 1.9921875, 'learning_rate': 1.4102317408540955e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1993.22, 'epoch': 6.5}
+ 65%|███████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 3250/4993 [3:39:09<1:54:21,  3.94s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 3251/4993 [3:39:13<1:54:24,  3.94s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 3252/4993 [3:39:17<1:52:55,  3.89s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 3253/4993 [3:39:21<1:54:00,  3.93s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████▉                                                 | 3254/4993 [3:39:26<2:00:00,  4.14s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████▉                                                 | 3255/4993 [3:39:29<1:57:00,  4.04s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████▉                                                 | 3256/4993 [3:39:33<1:57:46,  4.07s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████▉                                                 | 3257/4993 [3:39:38<1:57:54,  4.07s/it] 65%|████████████████████████████████████████████████████████████████████████████████████████████                                                 | 3258/4993 [3:39:41<1:54:36,  3.96s/it] 65%|████████████████████████████████████████████████████████████████████████████████████████████                                                 | 3259/4993 [3:39:45<1:55:17,  3.99s/it] 65%|████████████████████████████████████████████████████████████████████████████████████████████                                                 | 3260/4993 [3:39:49<1:51:05,  3.85s/it]                                                                                                                                                                                          {'loss': 0.5548, 'grad_norm': 2.421875, 'learning_rate': 1.3958081194877122e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 2083.66, 'epoch': 6.52}
+ 65%|████████████████████████████████████████████████████████████████████████████████████████████                                                 | 3260/4993 [3:39:49<1:51:05,  3.85s/it] 65%|████████████████████████████████████████████████████████████████████████████████████████████                                                 | 3261/4993 [3:39:53<1:54:31,  3.97s/it] 65%|████████████████████████████████████████████████████████████████████████████████████████████                                                 | 3262/4993 [3:39:57<1:51:29,  3.86s/it] 65%|████████████████████████████████████████████████████████████████████████████████████████████▏                                                | 3263/4993 [3:40:00<1:50:33,  3.83s/it] 65%|█████████████████████████████████████████████████████��██████████████████████████████████████▏                                                | 3264/4993 [3:40:04<1:52:16,  3.90s/it] 65%|████████████████████████████████████████████████████████████████████████████████████████████▏                                                | 3265/4993 [3:40:08<1:52:41,  3.91s/it] 65%|████████████████████████████████████████████████████████████████████████████████████████████▏                                                | 3266/4993 [3:40:12<1:50:11,  3.83s/it] 65%|████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 3267/4993 [3:40:16<1:51:17,  3.87s/it] 65%|████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 3268/4993 [3:40:20<1:51:26,  3.88s/it] 65%|████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 3269/4993 [3:40:24<1:52:01,  3.90s/it] 65%|████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 3270/4993 [3:40:28<1:52:59,  3.93s/it]                                                                                                                                                                                          {'loss': 0.5716, 'grad_norm': 2.25, 'learning_rate': 1.3814300170855554e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1761.06, 'epoch': 6.54}
+ 65%|████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 3270/4993 [3:40:28<1:52:59,  3.93s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 3271/4993 [3:40:31<1:48:37,  3.78s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████▍                                                | 3272/4993 [3:40:36<1:52:55,  3.94s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████▍                                                | 3273/4993 [3:40:39<1:48:47,  3.80s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████▍                                                | 3274/4993 [3:40:43<1:53:43,  3.97s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████▍                                                | 3275/4993 [3:40:47<1:51:32,  3.90s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████▌                                                | 3276/4993 [3:40:52<1:55:29,  4.04s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████▌                                                | 3277/4993 [3:40:55<1:52:38,  3.94s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████▌                                                | 3278/4993 [3:40:59<1:51:34,  3.90s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████▌                                                | 3279/4993 [3:41:03<1:49:48,  3.84s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                | 3280/4993 [3:41:07<1:51:25,  3.90s/it]                                                                                                                                                                                          {'loss': 0.5767, 'grad_norm': 2.15625, 'learning_rate': 1.3670980263673684e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1835.79, 'epoch': 6.56}
+ 66%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                | 3280/4993 [3:41:07<1:51:25,  3.90s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                | 3281/4993 [3:41:11<1:50:10,  3.86s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                | 3282/4993 [3:41:15<1:52:08,  3.93s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                | 3283/4993 [3:41:19<1:52:47,  3.96s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                | 3284/4993 [3:41:23<1:54:37,  4.02s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████▊                                                | 3285/4993 [3:41:27<1:52:56,  3.97s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████▊                                                | 3286/4993 [3:41:31<1:51:50,  3.93s/it] 66%|███████████████████████████████████████████████████████████████████████��████████████████████▊                                                | 3287/4993 [3:41:35<1:52:18,  3.95s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████▊                                                | 3288/4993 [3:41:38<1:51:35,  3.93s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████▉                                                | 3289/4993 [3:41:42<1:50:23,  3.89s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████▉                                                | 3290/4993 [3:41:46<1:48:37,  3.83s/it]                                                                                                                                                                                          {'loss': 0.5916, 'grad_norm': 2.234375, 'learning_rate': 1.352812738151999e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 2098.36, 'epoch': 6.58}
+ 66%|████████████████████████████████████████████████████████████████████████████████████████████▉                                                | 3290/4993 [3:41:46<1:48:37,  3.83s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████▉                                                | 3291/4993 [3:41:50<1:51:35,  3.93s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████▉                                                | 3292/4993 [3:41:54<1:52:18,  3.96s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████▉                                                | 3293/4993 [3:41:58<1:48:32,  3.83s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████                                                | 3294/4993 [3:42:02<1:50:18,  3.90s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████                                                | 3295/4993 [3:42:05<1:46:22,  3.76s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████                                                | 3296/4993 [3:42:09<1:48:14,  3.83s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████                                                | 3297/4993 [3:42:13<1:48:13,  3.83s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████▏                                               | 3298/4993 [3:42:17<1:46:45,  3.78s/it] 66%|█████████████████���███████████████████████████████████████████████████████████████████████████▏                                               | 3299/4993 [3:42:21<1:50:36,  3.92s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████▏                                               | 3300/4993 [3:42:25<1:52:29,  3.99s/it]                                                                                                                                                                                          {'loss': 0.5715, 'grad_norm': 2.421875, 'learning_rate': 1.3385747413330391e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1608.56, 'epoch': 6.6}
+ 66%|█████████████████████████████████████████████████████████████████████████████████████████████▏                                               | 3300/4993 [3:42:25<1:52:29,  3.99s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████▏                                               | 3301/4993 [3:42:29<1:56:13,  4.12s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████▏                                               | 3302/4993 [3:42:33<1:54:03,  4.05s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████▎                                               | 3303/4993 [3:42:38<1:58:05,  4.19s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████▎                                               | 3304/4993 [3:42:42<1:57:18,  4.17s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████▎                                               | 3305/4993 [3:42:46<1:57:57,  4.19s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████▎                                               | 3306/4993 [3:42:50<1:54:11,  4.06s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 3307/4993 [3:42:54<1:53:03,  4.02s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 3308/4993 [3:42:58<1:53:49,  4.05s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 3309/4993 [3:43:02<1:53:30,  4.04s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 3310/4993 [3:43:06<1:50:52,  3.95s/it]                                                                                                                                                                                          {'loss': 0.5743, 'grad_norm': 1.96875, 'learning_rate': 1.3243846228545505e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 2142.23, 'epoch': 6.62}
+ 66%|█████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 3310/4993 [3:43:06<1:50:52,  3.95s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████▌                                               | 3311/4993 [3:43:10<1:53:58,  4.07s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████▌                                               | 3312/4993 [3:43:14<1:49:24,  3.90s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████▌                                               | 3313/4993 [3:43:18<1:51:09,  3.97s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████▌                                               | 3314/4993 [3:43:22<1:51:54,  4.00s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████▌                                               | 3315/4993 [3:43:25<1:48:15,  3.87s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████▋                                               | 3316/4993 [3:43:29<1:46:29,  3.81s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████▋                                               | 3317/4993 [3:43:33<1:44:38,  3.75s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████▋                                               | 3318/4993 [3:43:37<1:51:09,  3.98s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████▋                                               | 3319/4993 [3:43:41<1:48:41,  3.90s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                               | 3320/4993 [3:43:45<1:49:18,  3.92s/it]                                                                                                                                                                                          {'loss': 0.568, 'grad_norm': 2.109375, 'learning_rate': 1.3102429676868684e-06, 'memory/max_active (GiB)': 44.5, 'memory/max_allocated (GiB)': 44.5, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1778.61, 'epoch': 6.64}
+ 66%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                               | 3320/4993 [3:43:45<1:49:18,  3.92s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                               | 3321/4993 [3:43:49<1:48:30,  3.89s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                               | 3322/4993 [3:43:53<1:48:50,  3.91s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                               | 3323/4993 [3:43:57<1:52:06,  4.03s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                               | 3324/4993 [3:44:01<1:51:28,  4.01s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████▉                                               | 3325/4993 [3:44:05<1:50:19,  3.97s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████▉                                               | 3326/4993 [3:44:09<1:50:01,  3.96s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████▉                                               | 3327/4993 [3:44:12<1:46:21,  3.83s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████▉                                               | 3328/4993 [3:44:16<1:47:42,  3.88s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████                                               | 3329/4993 [3:44:20<1:45:07,  3.79s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████                                               | 3330/4993 [3:44:24<1:47:31,  3.88s/it]                                                                                                                                                                                          {'loss': 0.5725, 'grad_norm': 5.5, 'learning_rate': 1.2961503588024903e-06, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1996.89, 'epoch': 6.66}
+ 67%|██████████████████████████████████████████████████████████████████████████████████████████████                                               | 3330/4993 [3:44:24<1:47:31,  3.88s/it] 67%|███████████████████████████████████████████████████████████████���██████████████████████████████                                               | 3331/4993 [3:44:27<1:43:24,  3.73s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████                                               | 3332/4993 [3:44:32<1:52:41,  4.07s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████                                               | 3333/4993 [3:44:36<1:51:37,  4.03s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 3334/4993 [3:44:40<1:51:22,  4.03s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 3335/4993 [3:44:44<1:53:42,  4.11s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 3336/4993 [3:44:49<1:55:12,  4.17s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 3337/4993 [3:44:53<1:52:56,  4.09s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████▎                                              | 3338/4993 [3:44:57<1:52:13,  4.07s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████▎                                              | 3339/4993 [3:45:01<1:52:38,  4.09s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████▎                                              | 3340/4993 [3:45:05<1:56:19,  4.22s/it]                                                                                                                                                                                          {'loss': 0.5904, 'grad_norm': 2.15625, 'learning_rate': 1.2821073771520364e-06, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1779.02, 'epoch': 6.68}
+ 67%|██████████████████████████████████████████████████████████████████████████████████████████████▎                                              | 3340/4993 [3:45:05<1:56:19,  4.22s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████▎                                              | 3341/4993 [3:45:09<1:53:59,  4.14s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████▍                                              | 3342/4993 [3:45:13<1:51:41,  4.06s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████▍                                              | 3343/4993 [3:45:18<1:55:56,  4.22s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████▍                                              | 3344/4993 [3:45:21<1:51:09,  4.04s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████▍                                              | 3345/4993 [3:45:25<1:51:26,  4.06s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████▍                                              | 3346/4993 [3:45:30<1:52:09,  4.09s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                              | 3347/4993 [3:45:33<1:49:05,  3.98s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                              | 3348/4993 [3:45:38<1:53:18,  4.13s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                              | 3349/4993 [3:45:42<1:53:34,  4.15s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                              | 3350/4993 [3:45:46<1:50:51,  4.05s/it]                                                                                                                                                                                          {'loss': 0.6172, 'grad_norm': 2.265625, 'learning_rate': 1.2681146016403062e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1997.51, 'epoch': 6.7}
+ 67%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                              | 3350/4993 [3:45:46<1:50:51,  4.05s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████▋                                              | 3351/4993 [3:45:49<1:47:18,  3.92s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████▋                                              | 3352/4993 [3:45:54<1:50:07,  4.03s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████▋                                              | 3353/4993 [3:45:58<1:49:04,  3.99s/it] 67%|█████████████████████████████████████████████████��████████████████████████████████████████████▋                                              | 3354/4993 [3:46:01<1:47:00,  3.92s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████▋                                              | 3355/4993 [3:46:05<1:45:26,  3.86s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 3356/4993 [3:46:09<1:46:04,  3.89s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 3357/4993 [3:46:13<1:46:52,  3.92s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 3358/4993 [3:46:17<1:47:02,  3.93s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 3359/4993 [3:46:21<1:48:40,  3.99s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                              | 3360/4993 [3:46:25<1:45:51,  3.89s/it]                                                                                                                                                                                          {'loss': 0.5632, 'grad_norm': 2.5, 'learning_rate': 1.2541726091024137e-06, 'memory/max_active (GiB)': 42.85, 'memory/max_allocated (GiB)': 42.85, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1892.25, 'epoch': 6.72}
+ 67%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                              | 3360/4993 [3:46:25<1:45:51,  3.89s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                              | 3361/4993 [3:46:28<1:43:42,  3.81s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                              | 3362/4993 [3:46:32<1:42:43,  3.78s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                              | 3363/4993 [3:46:36<1:42:33,  3.77s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                              | 3364/4993 [3:46:40<1:44:40,  3.86s/it] 67%|███████████████████████████████████████████████████████████████████████████████████████████████                                              | 3365/4993 [3:46:44<1:44:02,  3.83s/it] 67%|███████████████████████████████████████████████████████████████████████████████████████████████                                              | 3366/4993 [3:46:48<1:43:38,  3.82s/it] 67%|███████████████████████████████████████████████████████████████████████████████████████████████                                              | 3367/4993 [3:46:51<1:41:50,  3.76s/it] 67%|███████████████████████████████████████████████████████████████████████████████████████████████                                              | 3368/4993 [3:46:56<1:47:18,  3.96s/it] 67%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                             | 3369/4993 [3:46:59<1:45:35,  3.90s/it] 67%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                             | 3370/4993 [3:47:04<1:48:49,  4.02s/it]                                                                                                                                                                                          {'loss': 0.5649, 'grad_norm': 1.75, 'learning_rate': 1.2402819742800044e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1745.71, 'epoch': 6.74}
+ 67%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                             | 3370/4993 [3:47:04<1:48:49,  4.02s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                             | 3371/4993 [3:47:08<1:48:25,  4.01s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                             | 3372/4993 [3:47:11<1:44:45,  3.88s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████▎                                             | 3373/4993 [3:47:15<1:44:25,  3.87s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████▎                                             | 3374/4993 [3:47:19<1:47:39,  3.99s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████▎                                             | 3375/4993 [3:47:24<1:53:07,  4.20s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████▎                                             | 3376/4993 [3:47:28<1:52:36,  4.18s/it] 68%|█████████████████████████████��█████████████████████████████████████████████████████████████████▎                                             | 3377/4993 [3:47:32<1:49:59,  4.08s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████▍                                             | 3378/4993 [3:47:36<1:49:14,  4.06s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████▍                                             | 3379/4993 [3:47:40<1:48:47,  4.04s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████▍                                             | 3380/4993 [3:47:44<1:48:00,  4.02s/it]                                                                                                                                                                                          {'loss': 0.5749, 'grad_norm': 2.015625, 'learning_rate': 1.2264432697975675e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1929.83, 'epoch': 6.76}
+ 68%|███████████████████████████████████████████████████████████████████████████████████████████████▍                                             | 3380/4993 [3:47:44<1:48:00,  4.02s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████▍                                             | 3381/4993 [3:47:48<1:45:00,  3.91s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████▌                                             | 3382/4993 [3:47:52<1:46:26,  3.96s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████▌                                             | 3383/4993 [3:47:55<1:44:20,  3.89s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████▌                                             | 3384/4993 [3:48:00<1:46:05,  3.96s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████▌                                             | 3385/4993 [3:48:03<1:45:39,  3.94s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████▌                                             | 3386/4993 [3:48:07<1:43:48,  3.88s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████▋                                             | 3387/4993 [3:48:11<1:46:55,  3.99s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████▋                                             | 3388/4993 [3:48:15<1:46:21,  3.98s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████▋                                             | 3389/4993 [3:48:20<1:50:08,  4.12s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████▋                                             | 3390/4993 [3:48:24<1:52:29,  4.21s/it]                                                                                                                                                                                          {'loss': 0.546, 'grad_norm': 2.359375, 'learning_rate': 1.2126570661388223e-06, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1714.74, 'epoch': 6.78}
+ 68%|███████████████████████████████████████████████████████████████████████████████████████████████▋                                             | 3390/4993 [3:48:24<1:52:29,  4.21s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████▊                                             | 3391/4993 [3:48:28<1:45:39,  3.96s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████▊                                             | 3392/4993 [3:48:31<1:43:50,  3.89s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████▊                                             | 3393/4993 [3:48:35<1:45:25,  3.95s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████▊                                             | 3394/4993 [3:48:39<1:43:13,  3.87s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████▊                                             | 3395/4993 [3:48:44<1:47:26,  4.03s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████▉                                             | 3396/4993 [3:48:47<1:45:26,  3.96s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████▉                                             | 3397/4993 [3:48:51<1:45:25,  3.96s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████▉                                             | 3398/4993 [3:48:55<1:46:09,  3.99s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████▉                                             | 3399/4993 [3:48:59<1:44:16,  3.93s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████                                             | 3400/4993 [3:49:04<1:49:10,  4.11s/it]                                                                                                                                                                                          {'loss': 0.5845, 'grad_norm': 1.9140625, 'learning_rate': 1.1989239316232119e-06, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.53, 'tokens_per_second_per_gpu': 1668.12, 'epoch': 6.8}
+ 68%|████████████████████████████████████████████████████████████████████████████████████████████████                                             | 3400/4993 [3:49:04<1:49:10,  4.11s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████                                             | 3401/4993 [3:49:08<1:50:10,  4.15s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████                                             | 3402/4993 [3:49:12<1:46:10,  4.00s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████                                             | 3403/4993 [3:49:16<1:46:14,  4.01s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████▏                                            | 3404/4993 [3:49:20<1:49:59,  4.15s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████▏                                            | 3405/4993 [3:49:24<1:50:05,  4.16s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████▏                                            | 3406/4993 [3:49:28<1:46:05,  4.01s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████▏                                            | 3407/4993 [3:49:32<1:43:26,  3.91s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████▏                                            | 3408/4993 [3:49:35<1:42:42,  3.89s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 3409/4993 [3:49:39<1:42:17,  3.87s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 3410/4993 [3:49:43<1:44:00,  3.94s/it]                                                                                                                                                                                          {'loss': 0.5657, 'grad_norm': 1.8046875, 'learning_rate': 1.1852444323824628e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1811.58, 'epoch': 6.82}
+ 68%|████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 3410/4993 [3:49:43<1:44:00,  3.94s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 3411/4993 [3:49:47<1:42:26,  3.89s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 3412/4993 [3:49:51<1:43:30,  3.93s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████▍                                            | 3413/4993 [3:49:55<1:44:20,  3.96s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████▍                                            | 3414/4993 [3:49:59<1:43:50,  3.95s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████▍                                            | 3415/4993 [3:50:03<1:42:06,  3.88s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████▍                                            | 3416/4993 [3:50:07<1:42:00,  3.88s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████▍                                            | 3417/4993 [3:50:11<1:43:30,  3.94s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                            | 3418/4993 [3:50:15<1:45:13,  4.01s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                            | 3419/4993 [3:50:19<1:44:00,  3.96s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                            | 3420/4993 [3:50:23<1:46:41,  4.07s/it]                                                                                                                                                                                          {'loss': 0.5678, 'grad_norm': 1.8359375, 'learning_rate': 1.1716191323372581e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1755.2, 'epoch': 6.84}
+ 68%|██████████████████████████████████████████████████████████��█████████████████████████████████████▌                                            | 3420/4993 [3:50:23<1:46:41,  4.07s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                            | 3421/4993 [3:50:27<1:46:19,  4.06s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████▋                                            | 3422/4993 [3:50:31<1:45:28,  4.03s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████▋                                            | 3423/4993 [3:50:35<1:46:17,  4.06s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████▋                                            | 3424/4993 [3:50:40<1:48:20,  4.14s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████▋                                            | 3425/4993 [3:50:44<1:47:01,  4.10s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████▋                                            | 3426/4993 [3:50:48<1:45:35,  4.04s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████▊                                            | 3427/4993 [3:50:51<1:45:01,  4.02s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████▊                                            | 3428/4993 [3:50:56<1:48:16,  4.15s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████▊                                            | 3429/4993 [3:51:00<1:47:19,  4.12s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████▊                                            | 3430/4993 [3:51:04<1:45:03,  4.03s/it]                                                                                                                                                                                          {'loss': 0.557, 'grad_norm': 2.046875, 'learning_rate': 1.158048593173981e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1989.13, 'epoch': 6.86}
+ 69%|████████████████████████████████████████████████████████████████████████████████████████████████▊                                            | 3430/4993 [3:51:04<1:45:03,  4.03s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████▉                                            | 3431/4993 [3:51:08<1:47:05,  4.11s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████▉                                            | 3432/4993 [3:51:12<1:42:26,  3.94s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████▉                                            | 3433/4993 [3:51:15<1:41:26,  3.90s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████▉                                            | 3434/4993 [3:51:20<1:43:33,  3.99s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████                                            | 3435/4993 [3:51:24<1:44:11,  4.01s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████                                            | 3436/4993 [3:51:28<1:48:17,  4.17s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████                                            | 3437/4993 [3:51:33<1:51:15,  4.29s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████                                            | 3438/4993 [3:51:37<1:48:15,  4.18s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████                                            | 3439/4993 [3:51:41<1:49:02,  4.21s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 3440/4993 [3:51:45<1:47:01,  4.14s/it]                                                                                                                                                                                          {'loss': 0.5457, 'grad_norm': 2.15625, 'learning_rate': 1.1445333743215648e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 2173.6, 'epoch': 6.88}
+ 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 3440/4993 [3:51:45<1:47:01,  4.14s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 3441/4993 [3:51:49<1:45:14,  4.07s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 3442/4993 [3:51:53<1:44:26,  4.04s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 3443/4993 [3:51:56<1:41:02,  3.91s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                           | 3444/4993 [3:52:00<1:39:38,  3.86s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                           | 3445/4993 [3:52:04<1:41:17,  3.93s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                           | 3446/4993 [3:52:08<1:42:16,  3.97s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                           | 3447/4993 [3:52:12<1:39:53,  3.88s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                           | 3448/4993 [3:52:16<1:40:55,  3.92s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▍                                           | 3449/4993 [3:52:20<1:40:41,  3.91s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▍                                           | 3450/4993 [3:52:24<1:42:13,  3.98s/it]                                                                                                                                                                                          {'loss': 0.5718, 'grad_norm': 1.875, 'learning_rate': 1.1310740329284331e-06, 'memory/max_active (GiB)': 40.36, 'memory/max_allocated (GiB)': 40.36, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1641.71, 'epoch': 6.9}
+ 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▍                                           | 3450/4993 [3:52:24<1:42:13,  3.98s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▍                                           | 3451/4993 [3:52:28<1:44:42,  4.07s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▍                                           | 3452/4993 [3:52:33<1:45:10,  4.09s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                           | 3453/4993 [3:52:37<1:44:21,  4.07s/it] 69%|██████████████████████████████████████��██████████████████████████████████████████████████████████▌                                           | 3454/4993 [3:52:40<1:42:01,  3.98s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                           | 3455/4993 [3:52:44<1:39:26,  3.88s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                           | 3456/4993 [3:52:48<1:39:37,  3.89s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                           | 3457/4993 [3:52:52<1:41:47,  3.98s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                                           | 3458/4993 [3:52:56<1:43:19,  4.04s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                                           | 3459/4993 [3:53:00<1:42:13,  4.00s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                                           | 3460/4993 [3:53:04<1:40:59,  3.95s/it]                                                                                                                                                                                          {'loss': 0.5431, 'grad_norm': 2.109375, 'learning_rate': 1.1176711238395266e-06, 'memory/max_active (GiB)': 40.36, 'memory/max_allocated (GiB)': 40.36, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1902.66, 'epoch': 6.92}
+ 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                                           | 3460/4993 [3:53:04<1:40:59,  3.95s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                                           | 3461/4993 [3:53:08<1:44:05,  4.08s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▊                                           | 3462/4993 [3:53:13<1:46:44,  4.18s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▊                                           | 3463/4993 [3:53:17<1:49:01,  4.28s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▊                                           | 3464/4993 [3:53:21<1:47:22,  4.21s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▊                                           | 3465/4993 [3:53:25<1:45:14,  4.13s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 3466/4993 [3:53:29<1:43:08,  4.05s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 3467/4993 [3:53:33<1:44:03,  4.09s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 3468/4993 [3:53:37<1:43:03,  4.05s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 3469/4993 [3:53:41<1:41:03,  3.98s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 3470/4993 [3:53:45<1:39:52,  3.93s/it]                                                                                                                                                                                          {'loss': 0.5815, 'grad_norm': 2.265625, 'learning_rate': 1.1043251995734328e-06, 'memory/max_active (GiB)': 44.5, 'memory/max_allocated (GiB)': 44.5, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 2046.36, 'epoch': 6.94}
+ 69%|█████████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 3470/4993 [3:53:45<1:39:52,  3.93s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████                                           | 3471/4993 [3:53:49<1:37:05,  3.83s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████                                           | 3472/4993 [3:53:53<1:38:28,  3.88s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████                                           | 3473/4993 [3:53:57<1:42:14,  4.04s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████                                           | 3474/4993 [3:54:01<1:45:35,  4.17s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▏                                          | 3475/4993 [3:54:05<1:42:29,  4.05s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▏                                          | 3476/4993 [3:54:09<1:40:06,  3.96s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▏                                          | 3477/4993 [3:54:13<1:43:30,  4.10s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▏                                          | 3478/4993 [3:54:17<1:42:03,  4.04s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▏                                          | 3479/4993 [3:54:21<1:41:39,  4.03s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                                          | 3480/4993 [3:54:25<1:40:03,  3.97s/it]                                                                                                                                                                                          {'loss': 0.5922, 'grad_norm': 2.515625, 'learning_rate': 1.0910368102996122e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 2101.11, 'epoch': 6.96}
+ 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                                          | 3480/4993 [3:54:25<1:40:03,  3.97s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                                          | 3481/4993 [3:54:29<1:37:52,  3.88s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                                          | 3482/4993 [3:54:33<1:36:55,  3.85s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                                          | 3483/4993 [3:54:36<1:36:51,  3.85s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                          | 3484/4993 [3:54:40<1:34:44,  3.77s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                          | 3485/4993 [3:54:44<1:37:27,  3.88s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                          | 3486/4993 [3:54:48<1:41:07,  4.03s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                          | 3487/4993 [3:54:52<1:40:08,  3.99s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                          | 3488/4993 [3:54:56<1:35:52,  3.82s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▌                                          | 3489/4993 [3:55:00<1:37:50,  3.90s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▌                                          | 3490/4993 [3:55:04<1:38:14,  3.92s/it]                                                                                                                                                                                          {'loss': 0.5726, 'grad_norm': 1.890625, 'learning_rate': 1.077806503815713e-06, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1885.36, 'epoch': 6.98}
+ 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▌                                          | 3490/4993 [3:55:04<1:38:14,  3.92s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▌                                          | 3491/4993 [3:55:08<1:39:04,  3.96s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▌                                          | 3492/4993 [3:55:12<1:36:54,  3.87s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 3493/4993 [3:55:15<1:35:50,  3.83s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 3494/4993 [3:55:19<1:36:48,  3.87s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 3495/4993 [3:55:23<1:36:47,  3.88s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 3496/4993 [3:55:27<1:35:07,  3.81s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 3497/4993 [3:55:31<1:37:08,  3.90s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 3498/4993 [3:55:35<1:41:39,  4.08s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 3499/4993 [3:55:39<1:41:25,  4.07s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 3500/4993 [3:55:41<1:19:39,  3.20s/it]                                                                                                                                                                                          {'loss': 0.5595, 'grad_norm': 5.90625, 'learning_rate': 1.0646348255249914e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 6349.73, 'epoch': 7.0}
+ 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 3500/4993 [3:55:41<1:19:39,  3.20s/it][2025-12-23 18:22:02,304] [INFO] [axolotl.core.trainers.base._save:671] [PID:5529] Saving model checkpoint to ./outputs/qwen3-4b-instruct-ded-full-train/checkpoint-3500
+ 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 3501/4993 [3:56:20<5:45:47, 13.91s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                                          | 3502/4993 [3:56:23<4:31:21, 10.92s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                                          | 3503/4993 [3:56:27<3:36:50,  8.73s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                                          | 3504/4993 [3:56:31<2:58:54,  7.21s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                                          | 3505/4993 [3:56:35<2:37:29,  6.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████                                          | 3506/4993 [3:56:39<2:17:26,  5.55s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████                                          | 3507/4993 [3:56:43<2:05:45,  5.08s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████                                          | 3508/4993 [3:56:47<1:58:05,  4.77s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████                                          | 3509/4993 [3:56:51<1:54:23,  4.63s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████                                          | 3510/4993 [3:56:55<1:48:00,  4.37s/it]                                                                                                                                                                                          {'loss': 0.5557, 'grad_norm': 2.4375, 'learning_rate': 1.0515223184138273e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1954.88, 'epoch': 7.02}
+ 70%|███████████████████████████████████████████████████████████████████████████████████████████████████                                          | 3510/4993 [3:56:55<1:48:00,  4.37s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                                         | 3511/4993 [3:56:59<1:48:44,  4.40s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                                         | 3512/4993 [3:57:03<1:46:14,  4.30s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                                         | 3513/4993 [3:57:08<1:47:30,  4.36s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                                         | 3514/4993 [3:57:12<1:45:09,  4.27s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 3515/4993 [3:57:16<1:43:15,  4.19s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 3516/4993 [3:57:20<1:40:44,  4.09s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 3517/4993 [3:57:24<1:40:10,  4.07s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 3518/4993 [3:57:29<1:44:14,  4.24s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 3519/4993 [3:57:33<1:45:59,  4.31s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████▍                                         | 3520/4993 [3:57:37<1:43:19,  4.21s/it]                                                                                                                                                                                          {'loss': 0.5685, 'grad_norm': 2.078125, 'learning_rate': 1.0384695230293444e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 2244.29, 'epoch': 7.04}
+ 70%|███████████████████████████████████████████████████████████████████████████████████████████████████▍                                         | 3520/4993 [3:57:37<1:43:19,  4.21s/it] 71%|███████████████████████████████████████████████████████████████████████████████████████████████████▍                                         | 3521/4993 [3:57:41<1:43:16,  4.21s/it] 71%|███████████████████████████████████████████████████████████████████████████████████████████████████▍                                         | 3522/4993 [3:57:45<1:39:56,  4.08s/it] 71%|███████████████████████████████████████████████████████████████████████████████████████████████████▍                                         | 3523/4993 [3:57:49<1:38:08,  4.01s/it] 71%|███████████████████████████████████████████████████████████████████████████████████████████████████▌                                         | 3524/4993 [3:57:53<1:39:04,  4.05s/it] 71%|███████████████████████████████████████████████████████████████████████████████████████████████████▌                                         | 3525/4993 [3:57:58<1:44:39,  4.28s/it] 71%|███████████████████████████████████████████████████████████████████████████████████████████████████▌                                         | 3526/4993 [3:58:01<1:40:06,  4.09s/it] 71%|███████████████████████████████████████████████████████████████████████████████████████████████████▌                                         | 3527/4993 [3:58:06<1:40:23,  4.11s/it] 71%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 3528/4993 [3:58:09<1:36:45,  3.96s/it] 71%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 3529/4993 [3:58:13<1:37:23,  3.99s/it] 71%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 3530/4993 [3:58:18<1:40:12,  4.11s/it]                                                                                                                                                                                          {'loss': 0.5644, 'grad_norm': 1.6953125, 'learning_rate': 1.0254769774571185e-06, 'memory/max_active (GiB)': 39.54, 'memory/max_allocated (GiB)': 39.54, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1821.88, 'epoch': 7.06}
+ 71%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 3530/4993 [3:58:18<1:40:12,  4.11s/it] 71%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 3531/4993 [3:58:22<1:42:42,  4.22s/it] 71%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 3532/4993 [3:58:26<1:41:51,  4.18s/it] 71%|███████████████████████████████████████████████████████████████████████████████████████████████████▊                                         | 3533/4993 [3:58:30<1:41:18,  4.16s/it] 71%|███████████████████████████████████████████████████████████████████████████████████████████████████▊                                         | 3534/4993 [3:58:35<1:41:42,  4.18s/it] 71%|███████████████████████████████████████████████████████████████████████████████████████████████████▊                                         | 3535/4993 [3:58:38<1:39:26,  4.09s/it] 71%|███████████████████████████████████████████████████████████████████████████████████████████████████▊                                         | 3536/4993 [3:58:42<1:36:39,  3.98s/it] 71%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 3537/4993 [3:58:46<1:38:15,  4.05s/it] 71%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 3538/4993 [3:58:50<1:38:59,  4.08s/it] 71%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 3539/4993 [3:58:55<1:38:37,  4.07s/it] 71%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 3540/4993 [3:58:59<1:39:31,  4.11s/it]                                                                                                                                                                                          {'loss': 0.5709, 'grad_norm': 1.9609375, 'learning_rate': 1.0125452172990025e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1955.09, 'epoch': 7.08}
+ 71%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 3540/4993 [3:58:59<1:39:31,  4.11s/it] 71%|███████████���███████████████████████████████████████████████████████████████████████████████████████▉                                         | 3541/4993 [3:59:02<1:36:46,  4.00s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████                                         | 3542/4993 [3:59:06<1:36:02,  3.97s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████                                         | 3543/4993 [3:59:10<1:33:14,  3.86s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████                                         | 3544/4993 [3:59:14<1:33:33,  3.87s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████                                         | 3545/4993 [3:59:18<1:35:27,  3.96s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 3546/4993 [3:59:22<1:37:41,  4.05s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 3547/4993 [3:59:27<1:39:04,  4.11s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 3548/4993 [3:59:31<1:39:15,  4.12s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 3549/4993 [3:59:35<1:40:10,  4.16s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████▎                                        | 3550/4993 [3:59:39<1:38:49,  4.11s/it]                                                                                                                                                                                          {'loss': 0.5614, 'grad_norm': 2.171875, 'learning_rate': 9.99674775651046e-07, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1996.83, 'epoch': 7.1}
+ 71%|████████████████████████████████████████████████████████████████████████████████████████████████████▎                                        | 3550/4993 [3:59:39<1:38:49,  4.11s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████▎                                        | 3551/4993 [3:59:43<1:37:15,  4.05s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████▎                                        | 3552/4993 [3:59:47<1:40:30,  4.18s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████▎                                        | 3553/4993 [3:59:51<1:37:51,  4.08s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████▎                                        | 3554/4993 [3:59:55<1:37:02,  4.05s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 3555/4993 [3:59:59<1:34:06,  3.93s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 3556/4993 [4:00:03<1:35:54,  4.00s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 3557/4993 [4:00:07<1:38:44,  4.13s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 3558/4993 [4:00:12<1:40:19,  4.19s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████▌                                        | 3559/4993 [4:00:16<1:38:42,  4.13s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████▌                                        | 3560/4993 [4:00:20<1:38:59,  4.14s/it]                                                                                                                                                                                          {'loss': 0.5648, 'grad_norm': 1.796875, 'learning_rate': 9.86866183081515e-07, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1807.4, 'epoch': 7.12}
+ 71%|████████████████████████████████████████████████████████████████████████████████████████████████████▌                                        | 3560/4993 [4:00:20<1:38:59,  4.14s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████▌                                        | 3561/4993 [4:00:24<1:38:43,  4.14s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████▌                                        | 3562/4993 [4:00:28<1:36:04,  4.03s/it] 71%|█████████████████████████████���██████████████████████████████████████████████████████████████████████▌                                        | 3563/4993 [4:00:32<1:34:11,  3.95s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████▋                                        | 3564/4993 [4:00:36<1:35:35,  4.01s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████▋                                        | 3565/4993 [4:00:40<1:35:20,  4.01s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████▋                                        | 3566/4993 [4:00:43<1:31:18,  3.84s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████▋                                        | 3567/4993 [4:00:47<1:31:27,  3.85s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████▊                                        | 3568/4993 [4:00:51<1:33:51,  3.95s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████▊                                        | 3569/4993 [4:00:55<1:35:30,  4.02s/it] 72%|████████████████████████████████████████████████████████████████████████████████████████████████████▊                                        | 3570/4993 [4:00:59<1:31:44,  3.87s/it]                                                                                                                                                                                          {'loss': 0.5584, 'grad_norm': 2.40625, 'learning_rate': 9.74119967609026e-07, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 2126.97, 'epoch': 7.14}
+ 72%|████████████████████████████████████████████████████████████████████████████████████████████████████▊                                        | 3570/4993 [4:00:59<1:31:44,  3.87s/it] 72%|████████████████████████████████████████████████████████████████████████████████████████████████████▊                                        | 3571/4993 [4:01:03<1:33:37,  3.95s/it] 72%|████████████████████████████████████████████████████████████████████████████████████████████████████▊                                        | 3572/4993 [4:01:07<1:35:38,  4.04s/it] 72%|████████████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 3573/4993 [4:01:11<1:35:15,  4.03s/it] 72%|████████████████████████████████████��███████████████████████████████████████████████████████████████▉                                        | 3574/4993 [4:01:15<1:31:07,  3.85s/it] 72%|████████████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 3575/4993 [4:01:19<1:34:48,  4.01s/it] 72%|████████████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 3576/4993 [4:01:23<1:34:06,  3.99s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████                                        | 3577/4993 [4:01:27<1:31:22,  3.87s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████                                        | 3578/4993 [4:01:31<1:31:54,  3.90s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████                                        | 3579/4993 [4:01:35<1:34:35,  4.01s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████                                        | 3580/4993 [4:01:39<1:34:53,  4.03s/it]                                                                                                                                                                                          {'loss': 0.5964, 'grad_norm': 2.1875, 'learning_rate': 9.61436654680771e-07, 'memory/max_active (GiB)': 42.85, 'memory/max_allocated (GiB)': 42.85, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1790.02, 'epoch': 7.16}
+ 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████                                        | 3580/4993 [4:01:39<1:34:53,  4.03s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏                                       | 3581/4993 [4:01:43<1:33:07,  3.96s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏                                       | 3582/4993 [4:01:47<1:34:04,  4.00s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏                                       | 3583/4993 [4:01:51<1:35:10,  4.05s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏                                       | 3584/4993 [4:01:55<1:35:32,  4.07s/it] 72%|█████████████████████████████████████████��███████████████████████████████████████████████████████████▏                                       | 3585/4993 [4:01:59<1:35:01,  4.05s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 3586/4993 [4:02:03<1:32:24,  3.94s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 3587/4993 [4:02:07<1:31:16,  3.90s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 3588/4993 [4:02:11<1:34:09,  4.02s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 3589/4993 [4:02:15<1:32:39,  3.96s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                                       | 3590/4993 [4:02:19<1:31:11,  3.90s/it]                                                                                                                                                                                          {'loss': 0.5705, 'grad_norm': 2.34375, 'learning_rate': 9.488167671508657e-07, 'memory/max_active (GiB)': 40.32, 'memory/max_allocated (GiB)': 40.32, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1948.82, 'epoch': 7.18}
+ 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                                       | 3590/4993 [4:02:19<1:31:11,  3.90s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                                       | 3591/4993 [4:02:23<1:34:40,  4.05s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                                       | 3592/4993 [4:02:27<1:33:41,  4.01s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                                       | 3593/4993 [4:02:31<1:33:23,  4.00s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                                       | 3594/4993 [4:02:35<1:32:26,  3.96s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                                       | 3595/4993 [4:02:39<1:35:07,  4.08s/it] 72%|████████████████████████████████████████��████████████████████████████████████████████████████████████▌                                       | 3596/4993 [4:02:43<1:32:20,  3.97s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                                       | 3597/4993 [4:02:47<1:33:25,  4.02s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                                       | 3598/4993 [4:02:50<1:29:54,  3.87s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋                                       | 3599/4993 [4:02:54<1:30:29,  3.90s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋                                       | 3600/4993 [4:02:59<1:33:59,  4.05s/it]                                                                                                                                                                                          {'loss': 0.5667, 'grad_norm': 1.84375, 'learning_rate': 9.362608252587902e-07, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1758.36, 'epoch': 7.2}
+ 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋                                       | 3600/4993 [4:02:59<1:33:59,  4.05s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋                                       | 3601/4993 [4:03:02<1:31:27,  3.94s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋                                       | 3602/4993 [4:03:06<1:30:29,  3.90s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋                                       | 3603/4993 [4:03:10<1:29:31,  3.86s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 3604/4993 [4:03:14<1:29:08,  3.85s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 3605/4993 [4:03:18<1:29:15,  3.86s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 3606/4993 [4:03:22<1:29:11,  3.86s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 3607/4993 [4:03:25<1:28:20,  3.82s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 3608/4993 [4:03:30<1:32:38,  4.01s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 3609/4993 [4:03:34<1:32:24,  4.01s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 3610/4993 [4:03:38<1:34:14,  4.09s/it]                                                                                                                                                                                          {'loss': 0.5566, 'grad_norm': 1.859375, 'learning_rate': 9.237693466079417e-07, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1679.9, 'epoch': 7.22}
+ 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 3610/4993 [4:03:38<1:34:14,  4.09s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 3611/4993 [4:03:42<1:33:45,  4.07s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 3612/4993 [4:03:46<1:31:01,  3.95s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 3613/4993 [4:03:50<1:32:30,  4.02s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 3614/4993 [4:03:54<1:30:39,  3.94s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 3615/4993 [4:03:58<1:30:44,  3.95s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 3616/4993 [4:04:02<1:32:36,  4.04s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏                                      | 3617/4993 [4:04:06<1:30:48,  3.96s/it] 72%|██████████████████████████████████████���███████████████████████████████████████████████████████████████▏                                      | 3618/4993 [4:04:10<1:31:34,  4.00s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏                                      | 3619/4993 [4:04:14<1:31:32,  4.00s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏                                      | 3620/4993 [4:04:17<1:29:03,  3.89s/it]                                                                                                                                                                                          {'loss': 0.6082, 'grad_norm': 2.359375, 'learning_rate': 9.113428461443005e-07, 'memory/max_active (GiB)': 39.54, 'memory/max_allocated (GiB)': 39.54, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 2042.91, 'epoch': 7.24}
+ 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏                                      | 3620/4993 [4:04:17<1:29:03,  3.89s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 3621/4993 [4:04:21<1:29:08,  3.90s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 3622/4993 [4:04:25<1:29:51,  3.93s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 3623/4993 [4:04:30<1:31:23,  4.00s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 3624/4993 [4:04:33<1:30:32,  3.97s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 3625/4993 [4:04:38<1:31:35,  4.02s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                      | 3626/4993 [4:04:42<1:32:24,  4.06s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                      | 3627/4993 [4:04:46<1:32:33,  4.07s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                      | 3628/4993 [4:04:50<1:31:01,  4.00s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                      | 3629/4993 [4:04:53<1:29:44,  3.95s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 3630/4993 [4:04:57<1:27:51,  3.87s/it]                                                                                                                                                                                          {'loss': 0.5589, 'grad_norm': 2.40625, 'learning_rate': 8.98981836135199e-07, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1996.85, 'epoch': 7.26}
+ 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 3630/4993 [4:04:57<1:27:51,  3.87s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 3631/4993 [4:05:02<1:32:03,  4.06s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 3632/4993 [4:05:06<1:34:11,  4.15s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 3633/4993 [4:05:10<1:32:14,  4.07s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 3634/4993 [4:05:14<1:29:38,  3.96s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋                                      | 3635/4993 [4:05:18<1:29:19,  3.95s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋                                      | 3636/4993 [4:05:22<1:29:30,  3.96s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋                                      | 3637/4993 [4:05:26<1:32:24,  4.09s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋                                      | 3638/4993 [4:05:30<1:30:41,  4.02s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊                                      | 3639/4993 [4:05:34<1:33:14,  4.13s/it] 73%|████████████████████���█████████████████████████████████████████████████████████████████████████████████▊                                      | 3640/4993 [4:05:38<1:32:29,  4.10s/it]                                                                                                                                                                                          {'loss': 0.5551, 'grad_norm': 1.96875, 'learning_rate': 8.866868261482079e-07, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 2042.43, 'epoch': 7.28}
+ 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊                                      | 3640/4993 [4:05:38<1:32:29,  4.10s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊                                      | 3641/4993 [4:05:42<1:30:26,  4.01s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊                                      | 3642/4993 [4:05:46<1:27:02,  3.87s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                      | 3643/4993 [4:05:49<1:25:11,  3.79s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                      | 3644/4993 [4:05:54<1:29:24,  3.98s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                      | 3645/4993 [4:05:57<1:28:19,  3.93s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                      | 3646/4993 [4:06:02<1:32:05,  4.10s/it] 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                      | 3647/4993 [4:06:06<1:32:19,  4.12s/it] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████                                      | 3648/4993 [4:06:10<1:31:11,  4.07s/it] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████                                      | 3649/4993 [4:06:14<1:32:28,  4.13s/it] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████                                      | 3650/4993 [4:06:19<1:34:32,  4.22s/it]                                                                                                                                                                                          {'loss': 0.5598, 'grad_norm': 1.8359375, 'learning_rate': 8.744583230301248e-07, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1569.38, 'epoch': 7.3}
+ 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████                                      | 3650/4993 [4:06:19<1:34:32,  4.22s/it] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████                                      | 3651/4993 [4:06:23<1:34:43,  4.23s/it] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                     | 3652/4993 [4:06:27<1:31:48,  4.11s/it] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                     | 3653/4993 [4:06:31<1:30:21,  4.05s/it] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                     | 3654/4993 [4:06:35<1:32:10,  4.13s/it] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                     | 3655/4993 [4:06:39<1:30:44,  4.07s/it] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                     | 3656/4993 [4:06:43<1:32:19,  4.14s/it] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎                                     | 3657/4993 [4:06:47<1:31:23,  4.10s/it] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎                                     | 3658/4993 [4:06:51<1:29:15,  4.01s/it] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎                                     | 3659/4993 [4:06:55<1:28:28,  3.98s/it] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎                                     | 3660/4993 [4:06:59<1:30:21,  4.07s/it]                                                                                                                                                                                          {'loss': 0.5647, 'grad_norm': 1.8984375, 'learning_rate': 8.622968308860835e-07, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1749.77, 'epoch': 7.32}
+ 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎                                     | 3660/4993 [4:06:59<1:30:21,  4.07s/it] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍                                     | 3661/4993 [4:07:04<1:32:07,  4.15s/it] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍                                     | 3662/4993 [4:07:07<1:29:27,  4.03s/it] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍                                     | 3663/4993 [4:07:11<1:30:04,  4.06s/it] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍                                     | 3664/4993 [4:07:16<1:30:58,  4.11s/it] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍                                     | 3665/4993 [4:07:20<1:29:38,  4.05s/it] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                     | 3666/4993 [4:07:23<1:27:16,  3.95s/it] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                     | 3667/4993 [4:07:27<1:28:19,  4.00s/it] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                     | 3668/4993 [4:07:32<1:29:51,  4.07s/it] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                     | 3669/4993 [4:07:36<1:30:13,  4.09s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋                                     | 3670/4993 [4:07:40<1:29:08,  4.04s/it]                                                                                                                                                                                          {'loss': 0.5921, 'grad_norm': 2.328125, 'learning_rate': 8.502028510587734e-07, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 2026.64, 'epoch': 7.34}
+ 74%|█████████████████████████████████████████████████████████████████████████████████████████████████��█████▋                                     | 3670/4993 [4:07:40<1:29:08,  4.04s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋                                     | 3671/4993 [4:07:43<1:27:07,  3.95s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋                                     | 3672/4993 [4:07:48<1:28:39,  4.03s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋                                     | 3673/4993 [4:07:51<1:27:10,  3.96s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                     | 3674/4993 [4:07:55<1:26:08,  3.92s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                     | 3675/4993 [4:07:59<1:27:37,  3.99s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                     | 3676/4993 [4:08:04<1:28:24,  4.03s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                     | 3677/4993 [4:08:08<1:28:05,  4.02s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                     | 3678/4993 [4:08:12<1:28:27,  4.04s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉                                     | 3679/4993 [4:08:16<1:28:12,  4.03s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉                                     | 3680/4993 [4:08:19<1:26:51,  3.97s/it]                                                                                                                                                                                          {'loss': 0.5911, 'grad_norm': 2.53125, 'learning_rate': 8.381768821077687e-07, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1875.32, 'epoch': 7.36}
+ 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉                                     | 3680/4993 [4:08:19<1:26:51,  3.97s/it] 74%|████████████████████████████████████████████████████████████████████████████████��██████████████████████▉                                     | 3681/4993 [4:08:24<1:27:41,  4.01s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉                                     | 3682/4993 [4:08:28<1:27:59,  4.03s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████                                     | 3683/4993 [4:08:32<1:29:09,  4.08s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████                                     | 3684/4993 [4:08:36<1:28:01,  4.03s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████                                     | 3685/4993 [4:08:40<1:26:39,  3.98s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████                                     | 3686/4993 [4:08:44<1:28:05,  4.04s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████                                     | 3687/4993 [4:08:48<1:27:30,  4.02s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                    | 3688/4993 [4:08:51<1:24:11,  3.87s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                    | 3689/4993 [4:08:55<1:25:49,  3.95s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                    | 3690/4993 [4:08:59<1:24:20,  3.88s/it]                                                                                                                                                                                          {'loss': 0.5663, 'grad_norm': 1.9765625, 'learning_rate': 8.262194197889819e-07, 'memory/max_active (GiB)': 40.32, 'memory/max_allocated (GiB)': 40.32, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 2035.65, 'epoch': 7.38}
+ 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                    | 3690/4993 [4:08:59<1:24:20,  3.88s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                    | 3691/4993 [4:09:03<1:22:19,  3.79s/it] 74%|███████████████████████████████████████████████████████████��████████████████████████████████████████████▎                                    | 3692/4993 [4:09:06<1:21:16,  3.75s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 3693/4993 [4:09:10<1:22:29,  3.81s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 3694/4993 [4:09:14<1:23:05,  3.84s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 3695/4993 [4:09:18<1:24:09,  3.89s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 3696/4993 [4:09:22<1:24:23,  3.90s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 3697/4993 [4:09:26<1:25:08,  3.94s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 3698/4993 [4:09:30<1:25:38,  3.97s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 3699/4993 [4:09:34<1:26:10,  4.00s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 3700/4993 [4:09:38<1:23:21,  3.87s/it]                                                                                                                                                                                          {'loss': 0.5844, 'grad_norm': 2.421875, 'learning_rate': 8.143309570342167e-07, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1904.32, 'epoch': 7.4}
+ 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 3700/4993 [4:09:38<1:23:21,  3.87s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                    | 3701/4993 [4:09:42<1:23:28,  3.88s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                    | 3702/4993 [4:09:46<1:24:44,  3.94s/it] 74%|██████████████████████████████████��█████████████████████████████████████████████████████████████████████▌                                    | 3703/4993 [4:09:50<1:23:51,  3.90s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                    | 3704/4993 [4:09:54<1:26:43,  4.04s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 3705/4993 [4:09:58<1:25:09,  3.97s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 3706/4993 [4:10:02<1:25:24,  3.98s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 3707/4993 [4:10:06<1:25:45,  4.00s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 3708/4993 [4:10:11<1:29:58,  4.20s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 3709/4993 [4:10:14<1:26:30,  4.04s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 3710/4993 [4:10:18<1:25:49,  4.01s/it]                                                                                                                                                                                          {'loss': 0.5707, 'grad_norm': 2.078125, 'learning_rate': 8.025119839308606e-07, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1828.76, 'epoch': 7.42}
+ 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 3710/4993 [4:10:18<1:25:49,  4.01s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 3711/4993 [4:10:22<1:24:28,  3.95s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 3712/4993 [4:10:26<1:27:20,  4.09s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 3713/4993 [4:10:30<1:25:28,  4.01s/it] 74%|█████████���██████████████████████████████████████████████████████████████████████████████████████████████▉                                    | 3714/4993 [4:10:34<1:24:26,  3.96s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                    | 3715/4993 [4:10:38<1:24:42,  3.98s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                    | 3716/4993 [4:10:42<1:25:51,  4.03s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                    | 3717/4993 [4:10:46<1:25:41,  4.03s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                    | 3718/4993 [4:10:50<1:24:50,  3.99s/it] 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                                    | 3719/4993 [4:10:54<1:23:53,  3.95s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                                    | 3720/4993 [4:10:58<1:25:10,  4.01s/it]                                                                                                                                                                                          {'loss': 0.581, 'grad_norm': 2.21875, 'learning_rate': 7.907629877016703e-07, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1720.82, 'epoch': 7.44}
+ 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                                    | 3720/4993 [4:10:58<1:25:10,  4.01s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                                    | 3721/4993 [4:11:02<1:24:39,  3.99s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                                    | 3722/4993 [4:11:06<1:22:37,  3.90s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                   | 3723/4993 [4:11:10<1:21:41,  3.86s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                   | 3724/4993 [4:11:13<1:21:32,  3.86s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                   | 3725/4993 [4:11:17<1:20:44,  3.82s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                   | 3726/4993 [4:11:21<1:20:45,  3.82s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                   | 3727/4993 [4:11:25<1:22:24,  3.91s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                   | 3728/4993 [4:11:29<1:25:14,  4.04s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                   | 3729/4993 [4:11:33<1:23:40,  3.97s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                   | 3730/4993 [4:11:37<1:21:59,  3.89s/it]                                                                                                                                                                                          {'loss': 0.5935, 'grad_norm': 2.28125, 'learning_rate': 7.79084452684695e-07, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1965.21, 'epoch': 7.46}
+ 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                   | 3730/4993 [4:11:37<1:21:59,  3.89s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                   | 3731/4993 [4:11:41<1:22:51,  3.94s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                   | 3732/4993 [4:11:45<1:25:56,  4.09s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                   | 3733/4993 [4:11:50<1:25:44,  4.08s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                   | 3734/4993 [4:11:53<1:24:15,  4.02s/it] 75%|███████████████████████████████████████████████████████████████████████████████████��█████████████████████▍                                   | 3735/4993 [4:11:57<1:23:06,  3.96s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                   | 3736/4993 [4:12:01<1:22:38,  3.94s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                   | 3737/4993 [4:12:05<1:22:08,  3.92s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                   | 3738/4993 [4:12:09<1:24:15,  4.03s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                   | 3739/4993 [4:12:13<1:22:49,  3.96s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                   | 3740/4993 [4:12:17<1:22:20,  3.94s/it]                                                                                                                                                                                          {'loss': 0.5661, 'grad_norm': 5.28125, 'learning_rate': 7.674768603133026e-07, 'memory/max_active (GiB)': 39.53, 'memory/max_allocated (GiB)': 39.53, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1948.99, 'epoch': 7.48}
+ 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                   | 3740/4993 [4:12:17<1:22:20,  3.94s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 3741/4993 [4:12:21<1:24:26,  4.05s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 3742/4993 [4:12:25<1:23:56,  4.03s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 3743/4993 [4:12:29<1:22:46,  3.97s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 3744/4993 [4:12:33<1:24:03,  4.04s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 3745/4993 [4:12:37<1:23:44,  4.03s/it] 75%|██████████████████████████████████████████████████��██████████████████████████████████████████████████████▊                                   | 3746/4993 [4:12:41<1:21:45,  3.93s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 3747/4993 [4:12:45<1:19:45,  3.84s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 3748/4993 [4:12:49<1:20:36,  3.88s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 3749/4993 [4:12:53<1:21:21,  3.92s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                   | 3750/4993 [4:12:57<1:21:32,  3.94s/it]                                                                                                                                                                                          {'loss': 0.5571, 'grad_norm': 1.9921875, 'learning_rate': 7.559406890963381e-07, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1864.21, 'epoch': 7.5}
+ 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                   | 3750/4993 [4:12:57<1:21:32,  3.94s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                   | 3751/4993 [4:13:01<1:23:56,  4.06s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                   | 3752/4993 [4:13:05<1:22:48,  4.00s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                   | 3753/4993 [4:13:09<1:22:14,  3.98s/it] 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████                                   | 3754/4993 [4:13:13<1:24:20,  4.08s/it] 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████                                   | 3755/4993 [4:13:17<1:22:44,  4.01s/it] 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████                                   | 3756/4993 [4:13:21<1:23:28,  4.05s/it] 75%|█████████████████���████████████████████████████████████████████████████████████████████████████████████████                                   | 3757/4993 [4:13:25<1:21:38,  3.96s/it] 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████                                   | 3758/4993 [4:13:29<1:23:56,  4.08s/it] 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                  | 3759/4993 [4:13:33<1:22:13,  4.00s/it] 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                  | 3760/4993 [4:13:37<1:23:46,  4.08s/it]                                                                                                                                                                                          {'loss': 0.5726, 'grad_norm': 1.828125, 'learning_rate': 7.444764145983987e-07, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1871.7, 'epoch': 7.52}
+ 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                  | 3760/4993 [4:13:37<1:23:46,  4.08s/it] 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                  | 3761/4993 [4:13:42<1:26:39,  4.22s/it] 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                  | 3762/4993 [4:13:46<1:25:28,  4.17s/it] 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                  | 3763/4993 [4:13:50<1:25:22,  4.16s/it] 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                  | 3764/4993 [4:13:54<1:25:48,  4.19s/it] 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                  | 3765/4993 [4:13:58<1:20:50,  3.95s/it] 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                  | 3766/4993 [4:14:01<1:20:25,  3.93s/it] 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                  | 3767/4993 [4:14:05<1:17:18,  3.78s/it] 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                  | 3768/4993 [4:14:09<1:16:56,  3.77s/it] 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                  | 3769/4993 [4:14:13<1:17:54,  3.82s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                  | 3770/4993 [4:14:17<1:19:16,  3.89s/it]                                                                                                                                                                                          {'loss': 0.567, 'grad_norm': 2.234375, 'learning_rate': 7.330845094202243e-07, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1896.69, 'epoch': 7.54}
+ 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                  | 3770/4993 [4:14:17<1:19:16,  3.89s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                  | 3771/4993 [4:14:20<1:18:44,  3.87s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 3772/4993 [4:14:24<1:19:13,  3.89s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 3773/4993 [4:14:29<1:21:43,  4.02s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 3774/4993 [4:14:33<1:21:09,  3.99s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 3775/4993 [4:14:37<1:21:31,  4.02s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 3776/4993 [4:14:41<1:20:34,  3.97s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 3777/4993 [4:14:45<1:21:33,  4.02s/it] 76%|██████████████████████████████████████████████████████████████████████���███████████████████████████████████▋                                  | 3778/4993 [4:14:49<1:19:50,  3.94s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 3779/4993 [4:14:52<1:18:40,  3.89s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 3780/4993 [4:14:56<1:19:50,  3.95s/it]                                                                                                                                                                                          {'loss': 0.5754, 'grad_norm': 2.375, 'learning_rate': 7.217654431792181e-07, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1781.39, 'epoch': 7.56}
+ 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 3780/4993 [4:14:56<1:19:50,  3.95s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                  | 3781/4993 [4:15:00<1:18:36,  3.89s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                  | 3782/4993 [4:15:04<1:18:53,  3.91s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                  | 3783/4993 [4:15:08<1:19:12,  3.93s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                  | 3784/4993 [4:15:12<1:18:50,  3.91s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 3785/4993 [4:15:16<1:17:45,  3.86s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 3786/4993 [4:15:20<1:18:52,  3.92s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 3787/4993 [4:15:24<1:19:42,  3.97s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 3788/4993 [4:15:28<1:21:52,  4.08s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 3789/4993 [4:15:32<1:21:35,  4.07s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████                                  | 3790/4993 [4:15:36<1:21:47,  4.08s/it]                                                                                                                                                                                          {'loss': 0.5615, 'grad_norm': 2.328125, 'learning_rate': 7.10519682490089e-07, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1893.83, 'epoch': 7.58}
+ 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████                                  | 3790/4993 [4:15:36<1:21:47,  4.08s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████                                  | 3791/4993 [4:15:40<1:21:03,  4.05s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████                                  | 3792/4993 [4:15:44<1:17:22,  3.87s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████                                  | 3793/4993 [4:15:48<1:17:08,  3.86s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                 | 3794/4993 [4:15:52<1:21:01,  4.05s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                 | 3795/4993 [4:15:56<1:18:12,  3.92s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                 | 3796/4993 [4:15:59<1:13:56,  3.71s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                 | 3797/4993 [4:16:03<1:15:11,  3.77s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                 | 3798/4993 [4:16:07<1:15:53,  3.81s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                 | 3799/4993 [4:16:10<1:15:46,  3.81s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                 | 3800/4993 [4:16:14<1:14:32,  3.75s/it]                                                                                                                                                                                          {'loss': 0.5536, 'grad_norm': 2.5625, 'learning_rate': 6.993476909456118e-07, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1799.11, 'epoch': 7.6}
+ 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                 | 3800/4993 [4:16:14<1:14:32,  3.75s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                 | 3801/4993 [4:16:18<1:14:58,  3.77s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                 | 3802/4993 [4:16:22<1:13:51,  3.72s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 3803/4993 [4:16:25<1:14:49,  3.77s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 3804/4993 [4:16:30<1:17:41,  3.92s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 3805/4993 [4:16:34<1:17:54,  3.94s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 3806/4993 [4:16:38<1:18:07,  3.95s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                 | 3807/4993 [4:16:42<1:18:49,  3.99s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                 | 3808/4993 [4:16:45<1:15:55,  3.84s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                 | 3809/4993 [4:16:50<1:19:05,  4.01s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                 | 3810/4993 [4:16:53<1:17:09,  3.91s/it]                                                                                                                                                                                          {'loss': 0.5824, 'grad_norm': 2.328125, 'learning_rate': 6.882499290975187e-07, 'memory/max_active (GiB)': 44.5, 'memory/max_allocated (GiB)': 44.5, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 2040.98, 'epoch': 7.62}
+ 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                 | 3810/4993 [4:16:53<1:17:09,  3.91s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                 | 3811/4993 [4:16:57<1:17:08,  3.92s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                 | 3812/4993 [4:17:02<1:19:14,  4.03s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                 | 3813/4993 [4:17:06<1:19:09,  4.02s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                 | 3814/4993 [4:17:10<1:19:18,  4.04s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                 | 3815/4993 [4:17:14<1:18:42,  4.01s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                 | 3816/4993 [4:17:18<1:18:54,  4.02s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                 | 3817/4993 [4:17:22<1:20:22,  4.10s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                 | 3818/4993 [4:17:26<1:19:35,  4.06s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                 | 3819/4993 [4:17:30<1:18:22,  4.01s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 | 3820/4993 [4:17:34<1:18:15,  4.00s/it]                                                                                                                                                                                          {'loss': 0.5935, 'grad_norm': 2.4375, 'learning_rate': 6.772268544375124e-07, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1960.14, 'epoch': 7.64}
+ 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 | 3820/4993 [4:17:34<1:18:15,  4.00s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 | 3821/4993 [4:17:38<1:18:53,  4.04s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 | 3822/4993 [4:17:42<1:21:16,  4.16s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 | 3823/4993 [4:17:46<1:20:46,  4.14s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 | 3824/4993 [4:17:50<1:19:38,  4.09s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████                                 | 3825/4993 [4:17:54<1:18:37,  4.04s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████                                 | 3826/4993 [4:17:58<1:18:30,  4.04s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████                                 | 3827/4993 [4:18:02<1:17:51,  4.01s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████                                 | 3828/4993 [4:18:06<1:17:34,  4.00s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 3829/4993 [4:18:10<1:17:19,  3.99s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 3830/4993 [4:18:14<1:17:00,  3.97s/it]                                                                                                                                                                                          {'loss': 0.5961, 'grad_norm': 1.6796875, 'learning_rate': 6.662789213784101e-07, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1931.57, 'epoch': 7.66}
+ 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 3830/4993 [4:18:14<1:17:00,  3.97s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 3831/4993 [4:18:18<1:16:41,  3.96s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 3832/4993 [4:18:22<1:16:57,  3.98s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 3833/4993 [4:18:26<1:16:32,  3.96s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                | 3834/4993 [4:18:30<1:18:09,  4.05s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                | 3835/4993 [4:18:34<1:16:31,  3.97s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                | 3836/4993 [4:18:38<1:14:48,  3.88s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                | 3837/4993 [4:18:42<1:17:49,  4.04s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                | 3838/4993 [4:18:46<1:19:24,  4.12s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                | 3839/4993 [4:18:50<1:17:18,  4.02s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                | 3840/4993 [4:18:55<1:19:17,  4.13s/it]                                                                                                                                                                                          {'loss': 0.5725, 'grad_norm': 1.7734375, 'learning_rate': 6.554065812354058e-07, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 1805.09, 'epoch': 7.68}
+ 77%|███████████████████████████████████████��████████████████████████████████████████████████████████████████████▍                                | 3840/4993 [4:18:55<1:19:17,  4.13s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                | 3841/4993 [4:18:59<1:18:42,  4.10s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                | 3842/4993 [4:19:03<1:18:20,  4.08s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                | 3843/4993 [4:19:07<1:17:15,  4.03s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                | 3844/4993 [4:19:11<1:20:14,  4.19s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                | 3845/4993 [4:19:15<1:18:22,  4.10s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                | 3846/4993 [4:19:19<1:17:14,  4.04s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                | 3847/4993 [4:19:23<1:17:47,  4.07s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                | 3848/4993 [4:19:27<1:19:18,  4.16s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                | 3849/4993 [4:19:31<1:17:14,  4.05s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                | 3850/4993 [4:19:35<1:14:53,  3.93s/it]                                                                                                                                                                                          {'loss': 0.5804, 'grad_norm': 2.140625, 'learning_rate': 6.446102822074665e-07, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 48.54, 'tokens_per_second_per_gpu': 2111.01, 'epoch': 7.7}
+ 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                | 3850/4993 [4:19:35<1:14:53,  3.93s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                | 3851/4993 [4:19:39<1:17:23,  4.07s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                | 3852/4993 [4:19:43<1:15:55,  3.99s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                | 3853/4993 [4:19:47<1:14:54,  3.94s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                | 3854/4993 [4:19:51<1:15:24,  3.97s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                | 3855/4993 [4:19:55<1:18:01,  4.11s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                | 3856/4993 [4:20:01<1:24:00,  4.43s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                | 3857/4993 [4:20:05<1:24:16,  4.45s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                | 3858/4993 [4:20:09<1:21:36,  4.31s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                | 3859/4993 [4:20:14<1:24:45,  4.48s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████                                | 3860/4993 [4:20:18<1:22:06,  4.35s/it]                                                                                                                                                                                          {'loss': 0.5892, 'grad_norm': 2.078125, 'learning_rate': 6.33890469358861e-07, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 2209.26, 'epoch': 7.72}
+ 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████                                | 3860/4993 [4:20:18<1:22:06,  4.35s/it] 77%|████████████████████████████████████████████████████████████��████████████████████████████████████████████████                                | 3861/4993 [4:20:22<1:19:09,  4.20s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████                                | 3862/4993 [4:20:26<1:16:37,  4.06s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████                                | 3863/4993 [4:20:29<1:15:29,  4.01s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████                                | 3864/4993 [4:20:33<1:14:30,  3.96s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                               | 3865/4993 [4:20:37<1:13:43,  3.92s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                               | 3866/4993 [4:20:41<1:14:47,  3.98s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                               | 3867/4993 [4:20:45<1:14:06,  3.95s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                               | 3868/4993 [4:20:49<1:13:56,  3.94s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 3869/4993 [4:20:53<1:14:40,  3.99s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 3870/4993 [4:20:57<1:13:26,  3.92s/it]                                                                                                                                                                                          {'loss': 0.5709, 'grad_norm': 2.203125, 'learning_rate': 6.23247584600804e-07, 'memory/max_active (GiB)': 40.32, 'memory/max_allocated (GiB)': 40.32, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1925.34, 'epoch': 7.74}
+ 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 3870/4993 [4:20:57<1:13:26,  3.92s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 3871/4993 [4:21:01<1:14:32,  3.99s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 3872/4993 [4:21:05<1:13:49,  3.95s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 3873/4993 [4:21:09<1:14:17,  3.98s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                               | 3874/4993 [4:21:13<1:12:29,  3.89s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                               | 3875/4993 [4:21:16<1:09:46,  3.75s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                               | 3876/4993 [4:21:20<1:13:04,  3.93s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                               | 3877/4993 [4:21:24<1:13:01,  3.93s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                               | 3878/4993 [4:21:28<1:12:38,  3.91s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                               | 3879/4993 [4:21:32<1:13:45,  3.97s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                               | 3880/4993 [4:21:37<1:16:06,  4.10s/it]                                                                                                                                                                                          {'loss': 0.5888, 'grad_norm': 1.703125, 'learning_rate': 6.126820666732483e-07, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1760.31, 'epoch': 7.76}
+ 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                               | 3880/4993 [4:21:37<1:16:06,  4.10s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                               | 3881/4993 [4:21:40<1:13:57,  3.99s/it] 78%|████████████████████████████████████████████████████████████████████��████████████████████████████████████████▋                               | 3882/4993 [4:21:44<1:13:15,  3.96s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                               | 3883/4993 [4:21:48<1:10:56,  3.83s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                               | 3884/4993 [4:21:52<1:10:48,  3.83s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                               | 3885/4993 [4:21:56<1:11:24,  3.87s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                               | 3886/4993 [4:21:59<1:08:29,  3.71s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                               | 3887/4993 [4:22:03<1:09:09,  3.75s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                               | 3888/4993 [4:22:07<1:09:18,  3.76s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                               | 3889/4993 [4:22:11<1:10:36,  3.84s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                               | 3890/4993 [4:22:14<1:09:33,  3.78s/it]                                                                                                                                                                                          {'loss': 0.5732, 'grad_norm': 2.3125, 'learning_rate': 6.021943511267875e-07, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1853.45, 'epoch': 7.78}
+ 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                               | 3890/4993 [4:22:14<1:09:33,  3.78s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                               | 3891/4993 [4:22:18<1:08:22,  3.72s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                               | 3892/4993 [4:22:22<1:10:06,  3.82s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                               | 3893/4993 [4:22:26<1:11:29,  3.90s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                               | 3894/4993 [4:22:30<1:09:33,  3.80s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                               | 3895/4993 [4:22:33<1:08:20,  3.73s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 3896/4993 [4:22:37<1:10:46,  3.87s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 3897/4993 [4:22:41<1:09:58,  3.83s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 3898/4993 [4:22:45<1:09:59,  3.84s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 3899/4993 [4:22:49<1:10:46,  3.88s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                              | 3900/4993 [4:22:53<1:12:10,  3.96s/it]                                                                                                                                                                                          {'loss': 0.5825, 'grad_norm': 4.28125, 'learning_rate': 5.917848703047114e-07, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1667.62, 'epoch': 7.8}
+ 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                              | 3900/4993 [4:22:53<1:12:10,  3.96s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                              | 3901/4993 [4:22:57<1:11:31,  3.93s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                              | 3902/4993 [4:23:01<1:10:13,  3.86s/it] 78%|████████████████████████████████████████████████████████████████████████���█████████████████████████████████████▏                              | 3903/4993 [4:23:05<1:12:04,  3.97s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                              | 3904/4993 [4:23:09<1:13:10,  4.03s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 3905/4993 [4:23:13<1:13:51,  4.07s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 3906/4993 [4:23:17<1:14:06,  4.09s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 3907/4993 [4:23:21<1:12:34,  4.01s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 3908/4993 [4:23:25<1:11:40,  3.96s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                              | 3909/4993 [4:23:29<1:13:00,  4.04s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                              | 3910/4993 [4:23:33<1:12:21,  4.01s/it]                                                                                                                                                                                          {'loss': 0.5587, 'grad_norm': 1.8046875, 'learning_rate': 5.814540533251786e-07, 'memory/max_active (GiB)': 40.36, 'memory/max_allocated (GiB)': 40.36, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 2026.3, 'epoch': 7.82}
+ 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                              | 3910/4993 [4:23:33<1:12:21,  4.01s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                              | 3911/4993 [4:23:38<1:15:01,  4.16s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                              | 3912/4993 [4:23:42<1:14:32,  4.14s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 3913/4993 [4:23:46<1:15:37,  4.20s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 3914/4993 [4:23:50<1:15:55,  4.22s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 3915/4993 [4:23:54<1:13:18,  4.08s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 3916/4993 [4:23:58<1:13:19,  4.08s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 3917/4993 [4:24:02<1:12:34,  4.05s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                              | 3918/4993 [4:24:06<1:11:10,  3.97s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                              | 3919/4993 [4:24:10<1:10:35,  3.94s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                              | 3920/4993 [4:24:14<1:09:22,  3.88s/it]                                                                                                                                                                                          {'loss': 0.5397, 'grad_norm': 1.8984375, 'learning_rate': 5.712023260635244e-07, 'memory/max_active (GiB)': 44.5, 'memory/max_allocated (GiB)': 44.5, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 2147.75, 'epoch': 7.84}
+ 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                              | 3920/4993 [4:24:14<1:09:22,  3.88s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                              | 3921/4993 [4:24:17<1:08:16,  3.82s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                              | 3922/4993 [4:24:21<1:08:59,  3.87s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                              | 3923/4993 [4:24:25<1:09:09,  3.88s/it] 79%|██████████████████████████████████████████████████████████████���███████████████████████████████████████████████▊                              | 3924/4993 [4:24:29<1:10:33,  3.96s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                              | 3925/4993 [4:24:33<1:09:18,  3.89s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                              | 3926/4993 [4:24:37<1:10:44,  3.98s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                              | 3927/4993 [4:24:41<1:10:46,  3.98s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                              | 3928/4993 [4:24:46<1:12:53,  4.11s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                              | 3929/4993 [4:24:49<1:11:08,  4.01s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                              | 3930/4993 [4:24:53<1:11:12,  4.02s/it]                                                                                                                                                                                          {'loss': 0.5463, 'grad_norm': 1.9296875, 'learning_rate': 5.610301111347083e-07, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1922.49, 'epoch': 7.86}
+ 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                              | 3930/4993 [4:24:53<1:11:12,  4.02s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████                              | 3931/4993 [4:24:58<1:13:36,  4.16s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████                              | 3932/4993 [4:25:02<1:13:30,  4.16s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████                              | 3933/4993 [4:25:06<1:14:00,  4.19s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████                              | 3934/4993 [4:25:11<1:15:36,  4.28s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████                              | 3935/4993 [4:25:15<1:15:31,  4.28s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                             | 3936/4993 [4:25:20<1:16:10,  4.32s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                             | 3937/4993 [4:25:24<1:16:20,  4.34s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                             | 3938/4993 [4:25:27<1:12:09,  4.10s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                             | 3939/4993 [4:25:32<1:12:51,  4.15s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                             | 3940/4993 [4:25:35<1:09:31,  3.96s/it]                                                                                                                                                                                          {'loss': 0.5588, 'grad_norm': 2.296875, 'learning_rate': 5.509378278758892e-07, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 2359.28, 'epoch': 7.88}
+ 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                             | 3940/4993 [4:25:35<1:09:31,  3.96s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                             | 3941/4993 [4:25:39<1:09:20,  3.96s/it] 79%|████████████████▌    | 3942/4993 [4:25:43<1:08:54,  3.93s/it]                                                                                                                         79%|████████████████▌    | 3943/4993 [4:25:47<1:09:58,  4.00s/it] 79%|████████████████▌    | 3944/4993 [4:25:52<1:12:20,  4.14s/it] 79%|████████████████▌    | 3945/4993 [4:25:56<1:12:19,  4.14s/it] 79%|████████████████▌    | 3946/4993 [4:26:00<1:13:40,  4.22s/it] 79%|████████████████▌    | 3947/4993 [4:26:04<1:13:34,  4.22s/it] 79%|████████████████▌    | 3948/4993 [4:26:08<1:11:59,  4.13s/it] 79%|████████████████▌    | 3949/4993 [4:26:13<1:12:37,  4.17s/it] 79%|████████████████▌    | 3950/4993 [4:26:17<1:15:24,  4.34s/it]                                                                  {'loss': 0.5493, 'grad_norm': 1.78125, 'learning_rate': 5.409258923291435e-07, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1848.22, 'epoch': 7.9}
+ 79%|█████████��██████▌    | 3950/4993 [4:26:17<1:15:24,  4.34s/it] 79%|████████████████▌    | 3951/4993 [4:26:21<1:13:13,  4.22s/it] 79%|████████████████▌    | 3952/4993 [4:26:25<1:12:03,  4.15s/it] 79%|████████████████▋    | 3953/4993 [4:26:29<1:09:08,  3.99s/it] 79%|████████████████▋    | 3954/4993 [4:26:33<1:08:10,  3.94s/it] 79%|████████████████▋    | 3955/4993 [4:26:36<1:06:38,  3.85s/it] 79%|████████████████▋    | 3956/4993 [4:26:40<1:05:42,  3.80s/it] 79%|████████████████▋    | 3957/4993 [4:26:44<1:04:20,  3.73s/it] 79%|████████████████▋    | 3958/4993 [4:26:47<1:04:36,  3.75s/it] 79%|████████████████▋    | 3959/4993 [4:26:51<1:04:54,  3.77s/it] 79%|████████████████▋    | 3960/4993 [4:26:55<1:03:54,  3.71s/it]                                                                  {'loss': 0.5693, 'grad_norm': 2.1875, 'learning_rate': 5.309947172243085e-07, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1801.27, 'epoch': 7.92}
+ 79%|████████████████▋    | 3960/4993 [4:26:55<1:03:54,  3.71s/it] 79%|████████████████▋    | 3961/4993 [4:26:59<1:05:16,  3.80s/it] 79%|████████████████▋    | 3962/4993 [4:27:03<1:04:57,  3.78s/it] 79%|████████████████▋    | 3963/4993 [4:27:06<1:04:20,  3.75s/it] 79%|████████████████▋    | 3964/4993 [4:27:10<1:06:21,  3.87s/it] 79%|████████████████▋    | 3965/4993 [4:27:14<1:05:48,  3.84s/it] 79%|████████████████▋    | 3966/4993 [4:27:18<1:06:08,  3.86s/it] 79%|████████████████▋    | 3967/4993 [4:27:23<1:10:14,  4.11s/it] 79%|████████████████▋    | 3968/4993 [4:27:27<1:12:42,  4.26s/it] 79%|████████████████▋    | 3969/4993 [4:27:31<1:11:02,  4.16s/it] 80%|████████████████▋    | 3970/4993 [4:27:35<1:10:45,  4.15s/it]                                                                  {'loss': 0.5422, 'grad_norm': 1.984375, 'learning_rate': 5.211447119619703e-07, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1932.5, 'epoch': 7.94}
+ 80%|████████████████▋    | 3970/4993 [4:27:35<1:10:45,  4.15s/it] 80%|████████████████▋    | 3971/4993 [4:27:39<1:09:52,  4.10s/it] 80%|████████████████▋    | 3972/4993 [4:27:43<1:09:16,  4.07s/it] 80%|████████████████▋    | 3973/4993 [4:27:47<1:08:56,  4.06s/it] 80%|████████████████▋    | 3974/4993 [4:27:52<1:09:53,  4.12s/it] 80%|████████████████▋    | 3975/4993 [4:27:55<1:08:07,  4.01s/it] 80%|████████████████▋    | 3976/4993 [4:28:00<1:09:50,  4.12s/it] 80%|████████████████▋    | 3977/4993 [4:28:04<1:11:44,  4.24s/it] 80%|████████████████▋    | 3978/4993 [4:28:08<1:08:36,  4.06s/it] 80%|████████████████▋    | 3979/4993 [4:28:12<1:07:20,  3.98s/it] 80%|████████████████▋    | 3980/4993 [4:28:16<1:07:51,  4.02s/it]                                                                  {'loss': 0.5703, 'grad_norm': 1.7578125, 'learning_rate': 5.113762825965904e-07, 'memory/max_active (GiB)': 40.36, 'memory/max_allocated (GiB)': 40.36, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1897.49, 'epoch': 7.96}
+ 80%|████████████████▋    | 3980/4993 [4:28:16<1:07:51,  4.02s/it] 80%|████████████████▋    | 3981/4993 [4:28:20<1:07:22,  4.00s/it] 80%|████████████████▋    | 3982/4993 [4:28:24<1:08:23,  4.06s/it] 80%|████████████████▊    | 3983/4993 [4:28:28<1:08:24,  4.06s/it] 80%|████████████████▊    | 3984/4993 [4:28:32<1:08:01,  4.04s/it] 80%|████████████████▊    | 3985/4993 [4:28:36<1:07:28,  4.02s/it] 80%|████████████████▊    | 3986/4993 [4:28:40<1:08:42,  4.09s/it] 80%|████████████████▊    | 3987/4993 [4:28:44<1:07:17,  4.01s/it] 80%|████████████████▊    | 3988/4993 [4:28:48<1:05:50,  3.93s/it] 80%|████████████████▊    | 3989/4993 [4:28:51<1:03:49,  3.81s/it] 80%|████████████████▊    | 3990/4993 [4:28:55<1:02:53,  3.76s/it]                                                                  {'loss': 0.5487, 'grad_norm': 1.96875, 'learning_rate': 5.016898318197599e-07, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 2006.88, 'epoch': 7.98}
+ 80%|████████████████▊    | 3990/4993 [4:28:55<1:02:53,  3.76s/it] 80%|████████████████▊    | 3991/4993 [4:28:59<1:03:16,  3.79s/it] 80%|████████████████▊    | 3992/4993 [4:29:03<1:02:35,  3.75s/it] 80%|████████████████▊    | 3993/4993 [4:29:07<1:03:55,  3.84s/it] 80%|████████████████▊    | 3994/4993 [4:29:11<1:05:52,  3.96s/it] 80%|████████████████▊    | 3995/4993 [4:29:15<1:05:34,  3.94s/it] 80%|████████████████▊    | 3996/4993 [4:29:19<1:05:10,  3.92s/it] 80%|████████████████▊    | 3997/4993 [4:29:23<1:05:09,  3.92s/it] 80%|████████████████▊    | 3998/4993 [4:29:26<1:04:57,  3.92s/it] 80%|████████████████▊    | 3999/4993 [4:29:31<1:06:11,  4.00s/it] 80%|██████████████████▍    | 4000/4993 [4:29:32<52:21,  3.16s/it]                                                                  {'loss': 0.5791, 'grad_norm': 4.75, 'learning_rate': 4.920857589436046e-07, 'memory/max_active (GiB)': 40.36, 'memory/max_allocated (GiB)': 40.36, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 6236.55, 'epoch': 8.0}
+ 80%|██████████████████▍    | 4000/4993 [4:29:32<52:21,  3.16s/it][2025-12-23 18:55:53,509] [INFO] [axolotl.core.trainers.base._save:671] [PID:5529] Saving model checkpoint to ./outputs/qwen3-4b-instruct-ded-full-train/checkpoint-4000
+ 80%|████████████████▊    | 4001/4993 [4:30:10<3:47:34, 13.76s/it] 80%|████████████████▊    | 4002/4993 [4:30:14<2:58:00, 10.78s/it] 80%|████████████████▊    | 4003/4993 [4:30:18<2:24:04,  8.73s/it] 80%|████████████████▊    | 4004/4993 [4:30:23<2:02:23,  7.43s/it] 80%|████████████████▊    | 4005/4993 [4:30:26<1:44:44,  6.36s/it] 80%|████████████████▊    | 4006/4993 [4:30:30<1:30:53,  5.53s/it] 80%|████████████████▊    | 4007/4993 [4:30:34<1:22:58,  5.05s/it] 80%|████████████████▊    | 4008/4993 [4:30:38<1:18:34,  4.79s/it] 80%|████████████████▊    | 4009/4993 [4:30:42<1:14:53,  4.57s/it] 80%|████████████████▊    | 4010/4993 [4:30:46<1:10:42,  4.32s/it]                                                                  {'loss': 0.573, 'grad_norm': 2.140625, 'learning_rate': 4.825644598843202e-07, 'memory/max_active (GiB)': 40.36, 'memory/max_allocated (GiB)': 40.36, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 2007.59, 'epoch': 8.02}
+ 80%|████████████████▊    | 4010/4993 [4:30:46<1:10:42,  4.32s/it] 80%|████████████████▊    | 4011/4993 [4:30:50<1:07:35,  4.13s/it] 80%|████████████████▊    | 4012/4993 [4:30:53<1:05:08,  3.98s/it] 80%|████████████████▉    | 4013/4993 [4:30:57<1:04:36,  3.96s/it] 80%|████████████████▉    | 4014/4993 [4:31:01<1:05:17,  4.00s/it] 80%|████████████████▉    | 4015/4993 [4:31:05<1:03:54,  3.92s/it] 80%|████████████████▉    | 4016/4993 [4:31:09<1:03:35,  3.91s/it] 80%|████████████████▉    | 4017/4993 [4:31:13<1:05:33,  4.03s/it] 80%|████████████████▉    | 4018/4993 [4:31:17<1:04:37,  3.98s/it] 80%|████████████████▉    | 4019/4993 [4:31:21<1:04:00,  3.94s/it] 81%|████████████████▉    | 4020/4993 [4:31:25<1:03:11,  3.90s/it]                                                                  {'loss': 0.5652, 'grad_norm': 2.25, 'learning_rate': 4.73126327145855e-07, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1919.12, 'epoch': 8.04}
+ 81%|████████████████▉    | 4020/4993 [4:31:25<1:03:11,  3.90s/it] 81%|██████████████���█▉    | 4021/4993 [4:31:30<1:08:07,  4.21s/it] 81%|████████████████▉    | 4022/4993 [4:31:34<1:09:06,  4.27s/it] 81%|████████████████▉    | 4023/4993 [4:31:38<1:08:22,  4.23s/it] 81%|████████████████▉    | 4024/4993 [4:31:42<1:07:17,  4.17s/it] 81%|████████████████▉    | 4025/4993 [4:31:46<1:07:29,  4.18s/it] 81%|████████████████▉    | 4026/4993 [4:31:50<1:03:43,  3.95s/it] 81%|████████████████▉    | 4027/4993 [4:31:54<1:04:46,  4.02s/it] 81%|████████████████▉    | 4028/4993 [4:31:58<1:04:08,  3.99s/it] 81%|████████████████▉    | 4029/4993 [4:32:02<1:04:23,  4.01s/it] 81%|████████████████▉    | 4030/4993 [4:32:06<1:05:23,  4.07s/it]                                                                  {'loss': 0.5795, 'grad_norm': 2.140625, 'learning_rate': 4.63771749803725e-07, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1987.93, 'epoch': 8.06}
+ 81%|████████████████▉    | 4030/4993 [4:32:06<1:05:23,  4.07s/it] 81%|████████████████▉    | 4031/4993 [4:32:11<1:07:10,  4.19s/it] 81%|████████████████▉    | 4032/4993 [4:32:15<1:07:26,  4.21s/it] 81%|████████████████▉    | 4033/4993 [4:32:19<1:05:23,  4.09s/it] 81%|████████████████▉    | 4034/4993 [4:32:22<1:02:12,  3.89s/it] 81%|████████████████▉    | 4035/4993 [4:32:26<1:03:16,  3.96s/it] 81%|████████████████▉    | 4036/4993 [4:32:30<1:03:07,  3.96s/it] 81%|████████████████▉    | 4037/4993 [4:32:35<1:05:20,  4.10s/it] 81%|████████████████▉    | 4038/4993 [4:32:39<1:04:23,  4.05s/it] 81%|████████████████▉    | 4039/4993 [4:32:43<1:06:10,  4.16s/it] 81%|████████████████▉    | 4040/4993 [4:32:47<1:04:28,  4.06s/it]                                                                  {'loss': 0.5645, 'grad_norm': 2.171875, 'learning_rate': 4.545011134889771e-07, 'memory/max_active (GiB)': 44.5, 'memory/max_allocated (GiB)': 44.5, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 2009.99, 'epoch': 8.08}
+ 81%|████████████████▉    | 4040/4993 [4:32:47<1:04:28,  4.06s/it] 81%|████████████████▉    | 4041/4993 [4:32:51<1:06:21,  4.18s/it] 81%|█████████████████    | 4042/4993 [4:32:55<1:06:36,  4.20s/it] 81%|█████████████████    | 4043/4993 [4:33:00<1:05:43,  4.15s/it] 81%|█████████████████    | 4044/4993 [4:33:03<1:04:40,  4.09s/it] 81%|█████████████████    | 4045/4993 [4:33:08<1:04:44,  4.10s/it] 81%|█████████████████    | 4046/4993 [4:33:12<1:03:57,  4.05s/it] 81%|█████████████████    | 4047/4993 [4:33:15<1:01:26,  3.90s/it] 81%|█████████████████    | 4048/4993 [4:33:19<1:00:41,  3.85s/it] 81%|█████████████████    | 4049/4993 [4:33:23<1:01:35,  3.91s/it] 81%|█████████████████    | 4050/4993 [4:33:27<1:03:59,  4.07s/it]                                                                  {'loss': 0.5788, 'grad_norm': 1.7421875, 'learning_rate': 4.4531480037229317e-07, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1815.53, 'epoch': 8.1}
+ 81%|█████████████████    | 4050/4993 [4:33:27<1:03:59,  4.07s/it] 81%|█████████████████    | 4051/4993 [4:33:31<1:02:20,  3.97s/it] 81%|█████████████████    | 4052/4993 [4:33:35<1:01:51,  3.94s/it] 81%|█████████████████    | 4053/4993 [4:33:39<1:01:42,  3.94s/it] 81%|█████████████████    | 4054/4993 [4:33:43<1:00:57,  3.90s/it] 81%|█████████████████    | 4055/4993 [4:33:46<1:00:39,  3.88s/it] 81%|█████████████████    | 4056/4993 [4:33:50<1:00:55,  3.90s/it] 81%|█████████████████    | 4057/4993 [4:33:54<1:00:51,  3.90s/it] 81%|█████████████████    | 4058/4993 [4:33:58<1:00:01,  3.85s/it] 81%|█████████████████    | 4059/4993 [4:34:02<1:00:09,  3.86s/it] 81%|██████████████████▋    | 4060/4993 [4:34:05<57:58,  3.73s/it]                                                                  {'loss': 0.578, 'grad_norm': 2.109375, 'learning_rate': 4.3621318914823213e-07, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 2161.93, 'epoch': 8.12}
+ 81%|██████████████████▋    | 4060/4993 [4:34:05<57:58,  3.73s/it] 81%|██████████████████▋    | 4061/4993 [4:34:09<59:13,  3.81s/it] 81%|█████████████████    | 4062/4993 [4:34:13<1:00:06,  3.87s/it] 81%|█████████████████    | 4063/4993 [4:34:17<1:00:27,  3.90s/it] 81%|██████████████████▋    | 4064/4993 [4:34:21<58:33,  3.78s/it] 81%|██████████████████▋    | 4065/4993 [4:34:25<58:53,  3.81s/it] 81%|██████████████████▋    | 4066/4993 [4:34:29<59:55,  3.88s/it] 81%|██████████████████▋    | 4067/4993 [4:34:33<59:55,  3.88s/it] 81%|█████████████████    | 4068/4993 [4:34:37<1:00:59,  3.96s/it] 81%|█████████████████    | 4069/4993 [4:34:41<1:00:50,  3.95s/it] 82%|█████████████████    | 4070/4993 [4:34:45<1:00:48,  3.95s/it]                                                                  {'loss': 0.5596, 'grad_norm': 1.875, 'learning_rate': 4.27196655019623e-07, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1950.15, 'epoch': 8.14}
+ 82%|█████████████████    | 4070/4993 [4:34:45<1:00:48,  3.95s/it] 82%|█████████████████    | 4071/4993 [4:34:49<1:02:44,  4.08s/it] 82%|█████████████████▏   | 4072/4993 [4:34:53<1:02:51,  4.09s/it] 82%|█████████████████▏   | 4073/4993 [4:34:57<1:03:06,  4.12s/it] 82%|█████████████████▏   | 4074/4993 [4:35:01<1:01:01,  3.98s/it] 82%|█████████████████▏   | 4075/4993 [4:35:05<1:02:58,  4.12s/it] 82%|█████████████████▏   | 4076/4993 [4:35:10<1:02:54,  4.12s/it] 82%|█████████████████▏   | 4077/4993 [4:35:14<1:03:46,  4.18s/it] 82%|█████████████████▏   | 4078/4993 [4:35:18<1:01:33,  4.04s/it] 82%|█████████████████▏   | 4079/4993 [4:35:21<1:00:45,  3.99s/it] 82%|██████████████████▊    | 4080/4993 [4:35:25<59:28,  3.91s/it]                                                                  {'loss': 0.5712, 'grad_norm': 2.65625, 'learning_rate': 4.182655696820914e-07, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 2034.5, 'epoch': 8.16}
+ 82%|██████████████████▊    | 4080/4993 [4:35:25<59:28,  3.91s/it] 82%|█████████████████▏   | 4081/4993 [4:35:29<1:00:02,  3.95s/it] 82%|█████████████████▏   | 4082/4993 [4:35:33<1:00:38,  3.99s/it] 82%|██████████████████▊    | 4083/4993 [4:35:37<59:59,  3.96s/it] 82%|██████████████████▊    | 4084/4993 [4:35:41<59:47,  3.95s/it] 82%|██████████████████▊    | 4085/4993 [4:35:45<59:17,  3.92s/it] 82%|█████████████████▏   | 4086/4993 [4:35:49<1:00:33,  4.01s/it] 82%|█████████████████▏   | 4087/4993 [4:35:53<1:01:06,  4.05s/it] 82%|█████████████████▏   | 4088/4993 [4:35:58<1:01:58,  4.11s/it] 82%|█████████████████▏   | 4089/4993 [4:36:02<1:03:03,  4.19s/it] 82%|█████████████████▏   | 4090/4993 [4:36:06<1:02:51,  4.18s/it]                                                                  {'loss': 0.5711, 'grad_norm': 11.0, 'learning_rate': 4.0942030130874446e-07, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1872.96, 'epoch': 8.18}
+ 82%|█████████████████▏   | 4090/4993 [4:36:06<1:02:51,  4.18s/it] 82%|█████████████████▏   | 4091/4993 [4:36:10<1:01:31,  4.09s/it] 82%|█████████████████▏   | 4092/4993 [4:36:14<1:02:40,  4.17s/it] 82%|███████████████��█▏   | 4093/4993 [4:36:18<1:01:48,  4.12s/it] 82%|█████████████████▏   | 4094/4993 [4:36:23<1:02:00,  4.14s/it] 82%|█████████████████▏   | 4095/4993 [4:36:26<1:00:33,  4.05s/it] 82%|██████████████████▊    | 4096/4993 [4:36:30<59:06,  3.95s/it] 82%|█████████████████▏   | 4097/4993 [4:36:34<1:00:30,  4.05s/it] 82%|██████████████████▉    | 4098/4993 [4:36:38<59:38,  4.00s/it] 82%|██████████████████▉    | 4099/4993 [4:36:42<59:52,  4.02s/it] 82%|█████████████████▏   | 4100/4993 [4:36:47<1:01:07,  4.11s/it]                                                                  {'loss': 0.5783, 'grad_norm': 1.828125, 'learning_rate': 4.0066121453498866e-07, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1796.19, 'epoch': 8.2}
+ 82%|█████████████████▏   | 4100/4993 [4:36:47<1:01:07,  4.11s/it] 82%|██████████████████▉    | 4101/4993 [4:36:50<58:33,  3.94s/it] 82%|█████████████████▎   | 4102/4993 [4:36:55<1:00:42,  4.09s/it] 82%|█████████████████▎   | 4103/4993 [4:36:59<1:00:10,  4.06s/it] 82%|██████████████████▉    | 4104/4993 [4:37:02<59:08,  3.99s/it] 82%|██████████████████▉    | 4105/4993 [4:37:07<59:24,  4.01s/it] 82%|█████████████████▎   | 4106/4993 [4:37:11<1:01:16,  4.14s/it] 82%|██████████████████▉    | 4107/4993 [4:37:15<58:46,  3.98s/it] 82%|██████████████████▉    | 4108/4993 [4:37:19<59:50,  4.06s/it] 82%|██████████████████▉    | 4109/4993 [4:37:23<59:45,  4.06s/it] 82%|█████████████████▎   | 4110/4993 [4:37:27<1:01:05,  4.15s/it]                                                                  {'loss': 0.5483, 'grad_norm': 2.25, 'learning_rate': 3.9198867044349803e-07, 'memory/max_active (GiB)': 44.5, 'memory/max_allocated (GiB)': 44.5, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1729.6, 'epoch': 8.22}
+ 82%|█████████████████▎   | 4110/4993 [4:37:27<1:01:05,  4.15s/it] 82%|██████████████████▉    | 4111/4993 [4:37:31<59:53,  4.07s/it] 82%|█████████████████▎   | 4112/4993 [4:37:35<1:00:10,  4.10s/it] 82%|██████████████████▉    | 4113/4993 [4:37:39<59:05,  4.03s/it] 82%|█████████████████▎   | 4114/4993 [4:37:44<1:00:28,  4.13s/it] 82%|██████████████████▉    | 4115/4993 [4:37:47<59:27,  4.06s/it] 82%|█████████████████▎   | 4116/4993 [4:37:52<1:00:28,  4.14s/it] 82%|██████████████████▉    | 4117/4993 [4:37:56<59:24,  4.07s/it] 82%|██████████████████▉    | 4118/4993 [4:37:59<57:33,  3.95s/it] 82%|██████████████████▉    | 4119/4993 [4:38:03<58:03,  3.99s/it] 83%|██████████████████▉    | 4120/4993 [4:38:07<57:29,  3.95s/it]                                                                  {'loss': 0.5806, 'grad_norm': 2.21875, 'learning_rate': 3.834030265493305e-07, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1862.95, 'epoch': 8.24}
+ 83%|██████████████████▉    | 4120/4993 [4:38:07<57:29,  3.95s/it] 83%|██████████████████▉    | 4121/4993 [4:38:11<56:31,  3.89s/it] 83%|██████████████████▉    | 4122/4993 [4:38:15<55:10,  3.80s/it] 83%|██████████████████▉    | 4123/4993 [4:38:19<56:23,  3.89s/it] 83%|██████████████████▉    | 4124/4993 [4:38:23<57:57,  4.00s/it] 83%|███████████████████    | 4125/4993 [4:38:27<56:50,  3.93s/it] 83%|███████████████████    | 4126/4993 [4:38:31<58:30,  4.05s/it] 83%|███████████████████    | 4127/4993 [4:38:35<56:58,  3.95s/it] 83%|███████████████████    | 4128/4993 [4:38:38<55:06,  3.82s/it] 83%|███████████████████    | 4129/4993 [4:38:42<54:22,  3.78s/it] 83%|███████████████████    | 4130/4993 [4:38:46<54:50,  3.81s/it]                                                                  {'loss': 0.5813, 'grad_norm': 2.171875, 'learning_rate': 3.7490463678518915e-07, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1781.78, 'epoch': 8.26}
+ 83%|███████████████████    | 4130/4993 [4:38:46<54:50,  3.81s/it] 83%|███████████████████    | 4131/4993 [4:38:49<53:54,  3.75s/it] 83%|███████████████████    | 4132/4993 [4:38:53<54:21,  3.79s/it] 83%|███████████████████    | 4133/4993 [4:38:57<55:17,  3.86s/it] 83%|███████████████████    | 4134/4993 [4:39:01<54:08,  3.78s/it] 83%|███████████████████    | 4135/4993 [4:39:05<54:15,  3.79s/it] 83%|███████████████████    | 4136/4993 [4:39:09<55:13,  3.87s/it] 83%|███████████████████    | 4137/4993 [4:39:14<59:36,  4.18s/it] 83%|███████████████████    | 4138/4993 [4:39:18<58:13,  4.09s/it] 83%|███████████████████    | 4139/4993 [4:39:22<59:41,  4.19s/it] 83%|███████████████████    | 4140/4993 [4:39:26<58:37,  4.12s/it]                                                                  {'loss': 0.5574, 'grad_norm': 2.265625, 'learning_rate': 3.6649385148683323e-07, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1962.72, 'epoch': 8.28}
+ 83%|███████████████████    | 4140/4993 [4:39:26<58:37,  4.12s/it] 83%|███████████████████    | 4141/4993 [4:39:30<58:24,  4.11s/it] 83%|███████████████████    | 4142/4993 [4:39:34<56:39,  3.99s/it] 83%|███████████████████    | 4143/4993 [4:39:38<56:05,  3.96s/it] 83%|███████████████████    | 4144/4993 [4:39:41<54:48,  3.87s/it] 83%|███████████████████    | 4145/4993 [4:39:45<55:04,  3.90s/it] 83%|███████████████████    | 4146/4993 [4:39:49<55:19,  3.92s/it] 83%|███████████████████    | 4147/4993 [4:39:53<56:16,  3.99s/it] 83%|███████████████████    | 4148/4993 [4:39:58<56:45,  4.03s/it] 83%|███████████████████    | 4149/4993 [4:40:02<57:17,  4.07s/it] 83%|███████████████████    | 4150/4993 [4:40:05<55:19,  3.94s/it]                                                                  {'loss': 0.5642, 'grad_norm': 2.046875, 'learning_rate': 3.581710173786329e-07, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 2158.05, 'epoch': 8.3}
+ 83%|███████████████████    | 4150/4993 [4:40:05<55:19,  3.94s/it] 83%|███████████████████    | 4151/4993 [4:40:09<53:31,  3.81s/it] 83%|███████████████████▏   | 4152/4993 [4:40:13<52:49,  3.77s/it] 83%|███████████████████▏   | 4153/4993 [4:40:17<53:46,  3.84s/it] 83%|███████████████████▏   | 4154/4993 [4:40:20<52:44,  3.77s/it] 83%|███████████████████▏   | 4155/4993 [4:40:25<55:28,  3.97s/it] 83%|███████████████████▏   | 4156/4993 [4:40:28<54:34,  3.91s/it] 83%|███████████████████▏   | 4157/4993 [4:40:32<54:16,  3.90s/it] 83%|███████████████████▏   | 4158/4993 [4:40:36<53:43,  3.86s/it] 83%|███████████████████▏   | 4159/4993 [4:40:40<53:41,  3.86s/it] 83%|███████████████████▏   | 4160/4993 [4:40:44<53:29,  3.85s/it]                                                                  {'loss': 0.5602, 'grad_norm': 2.375, 'learning_rate': 3.4993647755927786e-07, 'memory/max_active (GiB)': 40.32, 'memory/max_allocated (GiB)': 40.32, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1820.7, 'epoch': 8.32}
+ 83%|███████████████████▏   | 4160/4993 [4:40:44<53:29,  3.85s/it] 83%|███████████████████▏   | 4161/4993 [4:40:49<57:30,  4.15s/it] 83%|███████████████████▏   | 4162/4993 [4:40:52<55:55,  4.04s/it] 83%|██████████���████████▏   | 4163/4993 [4:40:57<57:17,  4.14s/it] 83%|███████████████████▏   | 4164/4993 [4:41:01<55:46,  4.04s/it] 83%|███████████████████▏   | 4165/4993 [4:41:04<55:02,  3.99s/it] 83%|███████████████████▏   | 4166/4993 [4:41:08<55:00,  3.99s/it] 83%|███████████████████▏   | 4167/4993 [4:41:13<56:47,  4.13s/it] 83%|███████████████████▏   | 4168/4993 [4:41:17<55:16,  4.02s/it] 83%|███████████████████▏   | 4169/4993 [4:41:20<54:14,  3.95s/it] 84%|███████████████████▏   | 4170/4993 [4:41:24<54:39,  3.98s/it]                                                                  {'loss': 0.5811, 'grad_norm': 2.125, 'learning_rate': 3.4179057148763544e-07, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1985.99, 'epoch': 8.34}
+ 84%|███████████████████▏   | 4170/4993 [4:41:24<54:39,  3.98s/it] 84%|███████████████████▏   | 4171/4993 [4:41:29<55:13,  4.03s/it] 84%|███████████████████▏   | 4172/4993 [4:41:33<56:27,  4.13s/it] 84%|███████████████████▏   | 4173/4993 [4:41:37<55:37,  4.07s/it] 84%|███████████████████▏   | 4174/4993 [4:41:41<54:33,  4.00s/it] 84%|███████████████████▏   | 4175/4993 [4:41:44<53:27,  3.92s/it] 84%|███████████████████▏   | 4176/4993 [4:41:48<53:53,  3.96s/it] 84%|███████████████████▏   | 4177/4993 [4:41:53<54:46,  4.03s/it] 84%|███████████████████▏   | 4178/4993 [4:41:57<54:51,  4.04s/it] 84%|███████████████████▎   | 4179/4993 [4:42:00<53:24,  3.94s/it] 84%|███████████████████▎   | 4180/4993 [4:42:04<52:41,  3.89s/it]                                                                  {'loss': 0.5766, 'grad_norm': 2.1875, 'learning_rate': 3.337336349687517e-07, 'memory/max_active (GiB)': 39.54, 'memory/max_allocated (GiB)': 39.54, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 2030.81, 'epoch': 8.36}
+ 84%|███████████████████▎   | 4180/4993 [4:42:04<52:41,  3.89s/it] 84%|███████████████████▎   | 4181/4993 [4:42:08<52:45,  3.90s/it] 84%|███████████████████▎   | 4182/4993 [4:42:12<53:15,  3.94s/it] 84%|███████████████████▎   | 4183/4993 [4:42:16<54:11,  4.01s/it] 84%|███████████████████▎   | 4184/4993 [4:42:20<52:38,  3.90s/it] 84%|███████████████████▎   | 4185/4993 [4:42:24<52:00,  3.86s/it] 84%|███████████████████▎   | 4186/4993 [4:42:28<52:27,  3.90s/it] 84%|███████████████████▎   | 4187/4993 [4:42:31<51:21,  3.82s/it] 84%|███████████████████▎   | 4188/4993 [4:42:36<53:33,  3.99s/it] 84%|███████████████████▎   | 4189/4993 [4:42:40<53:38,  4.00s/it] 84%|███████████████████▎   | 4190/4993 [4:42:44<52:46,  3.94s/it]                                                                  {'loss': 0.5647, 'grad_norm': 2.53125, 'learning_rate': 3.2576600014001506e-07, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1832.43, 'epoch': 8.38}
+ 84%|███████████████████▎   | 4190/4993 [4:42:44<52:46,  3.94s/it] 84%|███████████████████▎   | 4191/4993 [4:42:48<53:09,  3.98s/it] 84%|███████████████████▎   | 4192/4993 [4:42:52<52:49,  3.96s/it] 84%|███████████████████▎   | 4193/4993 [4:42:56<53:07,  3.98s/it] 84%|███████████████████▎   | 4194/4993 [4:43:00<55:28,  4.17s/it] 84%|███████████████████▎   | 4195/4993 [4:43:04<54:12,  4.08s/it] 84%|███████████████████▎   | 4196/4993 [4:43:08<52:03,  3.92s/it] 84%|███████████████████▎   | 4197/4993 [4:43:12<52:03,  3.92s/it] 84%|███████████████████▎   | 4198/4993 [4:43:15<51:45,  3.91s/it] 84%|███████████████���███▎   | 4199/4993 [4:43:19<51:22,  3.88s/it] 84%|███████████████████▎   | 4200/4993 [4:43:24<52:56,  4.01s/it]                                                                  {'loss': 0.5605, 'grad_norm': 1.6796875, 'learning_rate': 3.1788799545745627e-07, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1822.49, 'epoch': 8.4}
+ 84%|███████████████████▎   | 4200/4993 [4:43:24<52:56,  4.01s/it] 84%|███████████████████▎   | 4201/4993 [4:43:28<53:16,  4.04s/it] 84%|███████████████████▎   | 4202/4993 [4:43:31<50:25,  3.83s/it] 84%|███████████████████▎   | 4203/4993 [4:43:35<51:25,  3.91s/it] 84%|███████████████████▎   | 4204/4993 [4:43:40<53:27,  4.07s/it] 84%|███████████████████▎   | 4205/4993 [4:43:43<52:29,  4.00s/it] 84%|███████████████████▎   | 4206/4993 [4:43:47<52:03,  3.97s/it] 84%|███████████████████▍   | 4207/4993 [4:43:51<52:31,  4.01s/it] 84%|███████████████████▍   | 4208/4993 [4:43:55<51:29,  3.94s/it] 84%|███████████████████▍   | 4209/4993 [4:43:58<48:59,  3.75s/it] 84%|███████████████████▍   | 4210/4993 [4:44:02<48:11,  3.69s/it]                                                                  {'loss': 0.5601, 'grad_norm': 2.125, 'learning_rate': 3.1009994568221597e-07, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 2035.12, 'epoch': 8.42}
+ 84%|███████████████████▍   | 4210/4993 [4:44:02<48:11,  3.69s/it] 84%|███████████████████▍   | 4211/4993 [4:44:06<48:20,  3.71s/it] 84%|███████████████████▍   | 4212/4993 [4:44:10<49:37,  3.81s/it] 84%|███████████████████▍   | 4213/4993 [4:44:14<49:48,  3.83s/it] 84%|███████████████████▍   | 4214/4993 [4:44:18<51:35,  3.97s/it] 84%|███████████████████▍   | 4215/4993 [4:44:22<51:44,  3.99s/it] 84%|███████████████████▍   | 4216/4993 [4:44:26<53:28,  4.13s/it] 84%|███████████████████▍   | 4217/4993 [4:44:30<52:36,  4.07s/it] 84%|███████████████████▍   | 4218/4993 [4:44:34<51:51,  4.01s/it] 84%|███████████████████▍   | 4219/4993 [4:44:38<49:50,  3.86s/it] 85%|███████████████████▍   | 4220/4993 [4:44:42<52:28,  4.07s/it]                                                                  {'loss': 0.5711, 'grad_norm': 1.78125, 'learning_rate': 3.024021718671516e-07, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1662.39, 'epoch': 8.44}
+ 85%|███████████████████▍   | 4220/4993 [4:44:42<52:28,  4.07s/it] 85%|███████████████████▍   | 4221/4993 [4:44:47<52:50,  4.11s/it] 85%|███████████████████▍   | 4222/4993 [4:44:50<51:17,  3.99s/it] 85%|███████████████████▍   | 4223/4993 [4:44:55<52:24,  4.08s/it] 85%|███████████████████▍   | 4224/4993 [4:44:58<49:34,  3.87s/it] 85%|███████████████████▍   | 4225/4993 [4:45:02<50:38,  3.96s/it] 85%|███████████████████▍   | 4226/4993 [4:45:06<50:43,  3.97s/it] 85%|███████████████████▍   | 4227/4993 [4:45:10<50:18,  3.94s/it] 85%|███████████████████▍   | 4228/4993 [4:45:14<50:12,  3.94s/it] 85%|███████████████████▍   | 4229/4993 [4:45:18<51:09,  4.02s/it] 85%|███████████████████▍   | 4230/4993 [4:45:22<50:45,  3.99s/it]                                                                  {'loss': 0.6236, 'grad_norm': 2.015625, 'learning_rate': 2.94794991343606e-07, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1971.92, 'epoch': 8.46}
+ 85%|███████████████████▍   | 4230/4993 [4:45:22<50:45,  3.99s/it] 85%|███████████████████▍   | 4231/4993 [4:45:26<50:47,  4.00s/it] 85%|███████████████████▍   | 4232/4993 [4:45:30<51:09,  4.03s/it] 85%|███████████████████▍   | 4233/4993 [4:45:34<50:13,  3.97s/it] 85%|███████████████████▌   | 4234/4993 [4:45:38<49:56,  3.95s/it] 85%|███████████████████▌   | 4235/4993 [4:45:42<50:09,  3.97s/it] 85%|███████████████████▌   | 4236/4993 [4:45:46<48:54,  3.88s/it] 85%|███████████████████▌   | 4237/4993 [4:45:50<49:48,  3.95s/it] 85%|███████████████████▌   | 4238/4993 [4:45:54<50:48,  4.04s/it] 85%|███████████████████▌   | 4239/4993 [4:45:58<49:21,  3.93s/it] 85%|███████████████████▌   | 4240/4993 [4:46:02<50:48,  4.05s/it]                                                                  {'loss': 0.5734, 'grad_norm': 2.078125, 'learning_rate': 2.8727871770832195e-07, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1729.3, 'epoch': 8.48}
+ 85%|███████████████████▌   | 4240/4993 [4:46:02<50:48,  4.05s/it] 85%|███████████████████▌   | 4241/4993 [4:46:06<51:35,  4.12s/it] 85%|███████████████████▌   | 4242/4993 [4:46:11<52:40,  4.21s/it] 85%|███████████████████▌   | 4243/4993 [4:46:15<51:17,  4.10s/it] 85%|███████████████████▌   | 4244/4993 [4:46:18<50:44,  4.07s/it] 85%|███████████████████▌   | 4245/4993 [4:46:23<50:53,  4.08s/it] 85%|███████████████████▌   | 4246/4993 [4:46:26<49:12,  3.95s/it] 85%|███████████████████▌   | 4247/4993 [4:46:30<48:42,  3.92s/it] 85%|███████████████████▌   | 4248/4993 [4:46:34<49:49,  4.01s/it] 85%|███████████████████▌   | 4249/4993 [4:46:38<49:15,  3.97s/it] 85%|███████████████████▌   | 4250/4993 [4:46:42<50:01,  4.04s/it]                                                                  {'loss': 0.558, 'grad_norm': 2.3125, 'learning_rate': 2.798536608105171e-07, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1880.11, 'epoch': 8.5}
+ 85%|███████████████████▌   | 4250/4993 [4:46:42<50:01,  4.04s/it] 85%|███████████████████▌   | 4251/4993 [4:46:46<49:48,  4.03s/it] 85%|███████████████████▌   | 4252/4993 [4:46:50<48:16,  3.91s/it] 85%|███████████████████▌   | 4253/4993 [4:46:54<47:44,  3.87s/it] 85%|███████████████████▌   | 4254/4993 [4:46:58<48:22,  3.93s/it] 85%|███████████████████▌   | 4255/4993 [4:47:02<49:20,  4.01s/it] 85%|███████████████████▌   | 4256/4993 [4:47:06<48:01,  3.91s/it] 85%|███████████████████▌   | 4257/4993 [4:47:10<47:25,  3.87s/it] 85%|███████████████████▌   | 4258/4993 [4:47:13<47:00,  3.84s/it] 85%|███████████████████▌   | 4259/4993 [4:47:17<48:11,  3.94s/it] 85%|███████████████████▌   | 4260/4993 [4:47:21<47:34,  3.89s/it]                                                                  {'loss': 0.5609, 'grad_norm': 2.15625, 'learning_rate': 2.7252012673911173e-07, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1854.27, 'epoch': 8.52}
+ 85%|███████████████████▌   | 4260/4993 [4:47:21<47:34,  3.89s/it] 85%|███████████████████▋   | 4261/4993 [4:47:25<47:04,  3.86s/it] 85%|███████████████████▋   | 4262/4993 [4:47:29<48:44,  4.00s/it] 85%|███████████████████▋   | 4263/4993 [4:47:33<47:30,  3.90s/it] 85%|███████████████████▋   | 4264/4993 [4:47:37<48:06,  3.96s/it] 85%|███████████████████▋   | 4265/4993 [4:47:42<50:27,  4.16s/it] 85%|███████████████████▋   | 4266/4993 [4:47:46<50:46,  4.19s/it] 85%|███████████████████▋   | 4267/4993 [4:47:50<49:41,  4.11s/it] 85%|███████████████████▋   | 4268/4993 [4:47:55<51:35,  4.27s/it] 85%|███████████████████▋   | 4269/4993 [4:47:58<49:18,  4.09s/it] 86%|███████████████████▋   | 4270/4993 [4:48:02<48:57,  4.06s/it]                                                                  {'loss': 0.583, 'grad_norm': 1.953125, 'learning_rate': 2.6527841781010753e-07, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1970.93, 'epoch': 8.54}
+ 86%|███████████████████▋   | 4270/4993 [4:48:02<48:57,  4.06s/it] 86%|███████████████████▋   | 4271/4993 [4:48:07<49:36,  4.12s/it] 86%|███████████████████▋   | 4272/4993 [4:48:11<49:08,  4.09s/it] 86%|███████████████████▋   | 4273/4993 [4:48:14<46:48,  3.90s/it] 86%|███████████████████▋   | 4274/4993 [4:48:18<47:05,  3.93s/it] 86%|███████████████████▋   | 4275/4993 [4:48:22<49:08,  4.11s/it] 86%|███████████████████▋   | 4276/4993 [4:48:26<46:37,  3.90s/it] 86%|███████████████████▋   | 4277/4993 [4:48:30<46:01,  3.86s/it] 86%|███████████████████▋   | 4278/4993 [4:48:34<46:55,  3.94s/it] 86%|███████████████████▋   | 4279/4993 [4:48:38<48:02,  4.04s/it] 86%|███████████████████▋   | 4280/4993 [4:48:42<47:01,  3.96s/it]                                                                  {'loss': 0.5451, 'grad_norm': 1.9375, 'learning_rate': 2.5812883255412704e-07, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 2013.1, 'epoch': 8.56}
+ 86%|███████████████████▋   | 4280/4993 [4:48:42<47:01,  3.96s/it] 86%|███████████████████▋   | 4281/4993 [4:48:46<47:22,  3.99s/it] 86%|███████████████████▋   | 4282/4993 [4:48:50<47:53,  4.04s/it] 86%|███████████████████▋   | 4283/4993 [4:48:54<48:05,  4.06s/it] 86%|███████████████████▋   | 4284/4993 [4:48:58<47:09,  3.99s/it] 86%|███████████████████▋   | 4285/4993 [4:49:02<45:38,  3.87s/it] 86%|███████████████████▋   | 4286/4993 [4:49:05<45:07,  3.83s/it] 86%|███████████████████▋   | 4287/4993 [4:49:09<44:45,  3.80s/it] 86%|███████████████████▊   | 4288/4993 [4:49:13<46:27,  3.95s/it] 86%|███████████████████▊   | 4289/4993 [4:49:17<45:46,  3.90s/it] 86%|███████████████████▊   | 4290/4993 [4:49:21<46:59,  4.01s/it]                                                                  {'loss': 0.5525, 'grad_norm': 1.578125, 'learning_rate': 2.5107166570410735e-07, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1846.22, 'epoch': 8.58}
+ 86%|███████████████████▊   | 4290/4993 [4:49:21<46:59,  4.01s/it] 86%|███████████████████▊   | 4291/4993 [4:49:26<49:03,  4.19s/it] 86%|███████████████████▊   | 4292/4993 [4:49:30<48:27,  4.15s/it] 86%|███████████████████▊   | 4293/4993 [4:49:34<48:24,  4.15s/it] 86%|███████████████████▊   | 4294/4993 [4:49:38<48:14,  4.14s/it] 86%|███████████████████▊   | 4295/4993 [4:49:42<46:37,  4.01s/it] 86%|███████████████████▊   | 4296/4993 [4:49:46<46:35,  4.01s/it] 86%|███████████████████▊   | 4297/4993 [4:49:50<45:43,  3.94s/it] 86%|███████████████████▊   | 4298/4993 [4:49:54<45:17,  3.91s/it] 86%|███████████████████▊   | 4299/4993 [4:49:57<44:06,  3.81s/it] 86%|███████████████████▊   | 4300/4993 [4:50:02<45:42,  3.96s/it]                                                                  {'loss': 0.5757, 'grad_norm': 1.8359375, 'learning_rate': 2.441072081831486e-07, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1782.22, 'epoch': 8.6}
+ 86%|███████████████████▊   | 4300/4993 [4:50:02<45:42,  3.96s/it] 86%|███████████████████▊   | 4301/4993 [4:50:06<46:29,  4.03s/it] 86%|███████████████████▊   | 4302/4993 [4:50:10<46:28,  4.04s/it] 86%|███████████████████▊   | 4303/4993 [4:50:14<45:56,  3.99s/it] 86%|███████████████████▊   | 4304/4993 [4:50:18<46:38,  4.06s/it] 86%|███████████████████▊   | 4305/4993 [4:50:22<46:48,  4.08s/it] 86%|███████████████████▊   | 4306/4993 [4:50:26<46:43,  4.08s/it] 86%|███████████████████▊   | 4307/4993 [4:50:30<46:01,  4.03s/it] 86%|███████████████████▊   | 4308/4993 [4:50:34<46:19,  4.06s/it] 86%|███████████████████▊   | 4309/4993 [4:50:38<45:00,  3.95s/it] 86%|███████████████████▊   | 4310/4993 [4:50:42<44:42,  3.93s/it]                                                                  {'loss': 0.5314, 'grad_norm': 2.875, 'learning_rate': 2.372357470925224e-07, 'memory/max_active (GiB)': 39.53, 'memory/max_allocated (GiB)': 39.53, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1864.85, 'epoch': 8.62}
+ 86%|███████████████████▊   | 4310/4993 [4:50:42<44:42,  3.93s/it] 86%|███████████████████▊   | 4311/4993 [4:50:46<45:36,  4.01s/it] 86%|███████████████████▊   | 4312/4993 [4:50:50<45:04,  3.97s/it] 86%|███████████████████▊   | 4313/4993 [4:50:53<43:23,  3.83s/it] 86%|███████████████████▊   | 4314/4993 [4:50:57<41:54,  3.70s/it] 86%|███████████████████▉   | 4315/4993 [4:51:00<41:40,  3.69s/it] 86%|███████████████████▉   | 4316/4993 [4:51:05<43:22,  3.84s/it] 86%|███████████████████▉   | 4317/4993 [4:51:08<43:24,  3.85s/it] 86%|███████████████████▉   | 4318/4993 [4:51:12<43:07,  3.83s/it] 87%|███████████████████▉   | 4319/4993 [4:51:16<44:25,  3.95s/it] 87%|███████████████████▉   | 4320/4993 [4:51:20<43:12,  3.85s/it]                                                                  {'loss': 0.5435, 'grad_norm': 2.09375, 'learning_rate': 2.304575656998348e-07, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1960.23, 'epoch': 8.64}
+ 87%|███████████████████▉   | 4320/4993 [4:51:20<43:12,  3.85s/it] 87%|███████████████████▉   | 4321/4993 [4:51:24<42:46,  3.82s/it] 87%|███████████████████▉   | 4322/4993 [4:51:28<42:31,  3.80s/it] 87%|███████████████████▉   | 4323/4993 [4:51:31<42:11,  3.78s/it] 87%|███████████████████▉   | 4324/4993 [4:51:36<44:10,  3.96s/it] 87%|███████████████████▉   | 4325/4993 [4:51:40<45:09,  4.06s/it] 87%|███████████████████▉   | 4326/4993 [4:51:44<44:38,  4.02s/it] 87%|███████████████████▉   | 4327/4993 [4:51:48<44:06,  3.97s/it] 87%|███████████████████▉   | 4328/4993 [4:51:52<44:13,  3.99s/it] 87%|███████████████████▉   | 4329/4993 [4:51:55<42:58,  3.88s/it] 87%|███████████████████▉   | 4330/4993 [4:51:59<43:12,  3.91s/it]                                                                  {'loss': 0.601, 'grad_norm': 1.9609375, 'learning_rate': 2.2377294342735224e-07, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1933.54, 'epoch': 8.66}
+ 87%|███████████████████▉   | 4330/4993 [4:51:59<43:12,  3.91s/it] 87%|███████████████████▉   | 4331/4993 [4:52:04<44:28,  4.03s/it] 87%|███████████████████▉   | 4332/4993 [4:52:07<43:21,  3.94s/it] 87%|███████████████████▉   | 4333/4993 [4:52:11<42:55,  3.90s/it] 87%|███████████████████▉   | 4334/4993 [4:52:16<45:19,  4.13s/it] 87%|███████████████████▉   | 4335/4993 [4:52:20<45:19,  4.13s/it] 87%|███████████████████▉   | 4336/4993 [4:52:24<45:38,  4.17s/it] 87%|███████████████████▉   | 4337/4993 [4:52:29<45:53,  4.20s/it] 87%|███████████████████▉   | 4338/4993 [4:52:32<44:22,  4.07s/it] 87%|███████████████████▉   | 4339/4993 [4:52:36<44:05,  4.05s/it] 87%|███████████████████▉   | 4340/4993 [4:52:40<43:23,  3.99s/it]                                                                  {'loss': 0.5725, 'grad_norm': 4.125, 'learning_rate': 2.1718215584047826e-07, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1961.51, 'epoch': 8.68}
+ 87%|███████████████████▉   | 4340/4993 [4:52:40<43:23,  3.99s/it] 87%|███████████████████▉   | 4341/4993 [4:52:44<43:32,  4.01s/it] 87%|████████████████████   | 4342/4993 [4:52:48<43:46,  4.03s/it] 87%|████████████████████   | 4343/4993 [4:52:52<42:49,  3.95s/it] 87%|████████████████████   | 4344/4993 [4:52:56<41:23,  3.83s/it] 87%|████████████████████   | 4345/4993 [4:53:00<42:07,  3.90s/it] 87%|████████████████████   | 4346/4993 [4:53:03<41:27,  3.84s/it] 87%|████████████████████   | 4347/4993 [4:53:08<44:01,  4.09s/it] 87%|████████████████████   | 4348/4993 [4:53:13<45:01,  4.19s/it] 87%|████████████████████   | 4349/4993 [4:53:16<43:14,  4.03s/it] 87%|████████████████████   | 4350/4993 [4:53:20<42:49,  4.00s/it]                                                                  {'loss': 0.5851, 'grad_norm': 2.171875, 'learning_rate': 2.1068547463639648e-07, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1832.46, 'epoch': 8.7}
+ 87%|████████████████████   | 4350/4993 [4:53:20<42:49,  4.00s/it] 87%|████████████████████   | 4351/4993 [4:53:24<42:34,  3.98s/it] 87%|████████████████████   | 4352/4993 [4:53:28<42:58,  4.02s/it] 87%|████████████████████   | 4353/4993 [4:53:32<42:27,  3.98s/it] 87%|████████████████████   | 4354/4993 [4:53:36<41:00,  3.85s/it] 87%|████████████████████   | 4355/4993 [4:53:40<42:10,  3.97s/it] 87%|████████████████████   | 4356/4993 [4:53:44<42:28,  4.00s/it] 87%|████████████████████   | 4357/4993 [4:53:48<42:04,  3.97s/it] 87%|████████████████████   | 4358/4993 [4:53:52<41:17,  3.90s/it] 87%|████████████████████   | 4359/4993 [4:53:56<41:33,  3.93s/it] 87%|████████████████████   | 4360/4993 [4:54:00<42:40,  4.05s/it]                                                                  {'loss': 0.5554, 'grad_norm': 1.8125, 'learning_rate': 2.0428316763287075e-07, 'memory/max_active (GiB)': 39.54, 'memory/max_allocated (GiB)': 39.54, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1780.45, 'epoch': 8.72}
+ 87%|████████████████████   | 4360/4993 [4:54:00<42:40,  4.05s/it] 87%|████████████████████   | 4361/4993 [4:54:04<42:19,  4.02s/it] 87%|████████████████████   | 4362/4993 [4:54:07<40:56,  3.89s/it] 87%|████████████████████   | 4363/4993 [4:54:12<41:38,  3.97s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 4364/4993 [4:54:16<42:24,  4.05s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                  | 4365/4993 [4:54:20<42:28,  4.06s/it] 87%|██��██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                  | 4366/4993 [4:54:23<40:20,  3.86s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                  | 4367/4993 [4:54:27<41:01,  3.93s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                  | 4368/4993 [4:54:32<43:31,  4.18s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 4369/4993 [4:54:36<42:10,  4.05s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 4370/4993 [4:54:40<42:27,  4.09s/it]                                                                                                                                                                                          {'loss': 0.5813, 'grad_norm': 3.03125, 'learning_rate': 1.979754987572019e-07, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1753.86, 'epoch': 8.74}
+ 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 4370/4993 [4:54:40<42:27,  4.09s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 4371/4993 [4:54:44<41:26,  4.00s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 4372/4993 [4:54:48<41:56,  4.05s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 4373/4993 [4:54:52<41:45,  4.04s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                 | 4374/4993 [4:54:56<42:39,  4.13s/it] 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████���████████████████████▎                 | 4375/4993 [4:55:01<42:54,  4.17s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                 | 4376/4993 [4:55:04<41:50,  4.07s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                 | 4377/4993 [4:55:09<43:06,  4.20s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                 | 4378/4993 [4:55:13<42:36,  4.16s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                 | 4379/4993 [4:55:17<41:23,  4.04s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                 | 4380/4993 [4:55:21<40:41,  3.98s/it]                                                                                                                                                                                          {'loss': 0.5693, 'grad_norm': 2.140625, 'learning_rate': 1.9176272803535123e-07, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 2046.04, 'epoch': 8.76}
+ 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                 | 4380/4993 [4:55:21<40:41,  3.98s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                 | 4381/4993 [4:55:24<40:01,  3.92s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 4382/4993 [4:55:29<40:53,  4.02s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 4383/4993 [4:55:32<40:14,  3.96s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 4384/4993 [4:55:37<40:30,  3.99s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 4385/4993 [4:55:40<38:51,  3.84s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 4386/4993 [4:55:44<38:40,  3.82s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 4387/4993 [4:55:48<39:24,  3.90s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 4388/4993 [4:55:52<39:00,  3.87s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 4389/4993 [4:55:55<38:06,  3.79s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 4390/4993 [4:55:59<38:11,  3.80s/it]                                                                                                                                                                                          {'loss': 0.5651, 'grad_norm': 1.8984375, 'learning_rate': 1.8564511158121635e-07, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1835.91, 'epoch': 8.78}
+ 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 4390/4993 [4:55:59<38:11,  3.80s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 4391/4993 [4:56:03<37:52,  3.77s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 4392/4993 [4:56:07<38:06,  3.81s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 4393/4993 [4:56:11<38:36,  3.86s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 4394/4993 [4:56:15<38:20,  3.84s/it] 88%|█████████���███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 4395/4993 [4:56:19<39:42,  3.98s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 4396/4993 [4:56:23<39:14,  3.94s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 4397/4993 [4:56:27<40:04,  4.03s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 4398/4993 [4:56:31<39:53,  4.02s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 4399/4993 [4:56:35<40:25,  4.08s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                 | 4400/4993 [4:56:39<38:58,  3.94s/it]                                                                                                                                                                                          {'loss': 0.5251, 'grad_norm': 2.421875, 'learning_rate': 1.7962290158607925e-07, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 2081.89, 'epoch': 8.8}
+ 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                 | 4400/4993 [4:56:39<38:58,  3.94s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                 | 4401/4993 [4:56:43<39:43,  4.03s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                 | 4402/4993 [4:56:47<39:09,  3.97s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                 | 4403/4993 [4:56:51<38:47,  3.94s/it] 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████��█████████████████▏                | 4404/4993 [4:56:55<38:42,  3.94s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 4405/4993 [4:56:59<38:58,  3.98s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 4406/4993 [4:57:03<39:14,  4.01s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 4407/4993 [4:57:07<39:59,  4.10s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 4408/4993 [4:57:11<38:45,  3.98s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                | 4409/4993 [4:57:15<39:09,  4.02s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                | 4410/4993 [4:57:19<37:54,  3.90s/it]                                                                                                                                                                                          {'loss': 0.5832, 'grad_norm': 2.40625, 'learning_rate': 1.736963463082056e-07, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 2174.48, 'epoch': 8.82}
+ 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                | 4410/4993 [4:57:19<37:54,  3.90s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                | 4411/4993 [4:57:23<38:15,  3.94s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                | 4412/4993 [4:57:27<38:39,  3.99s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                | 4413/4993 [4:57:31<38:32,  3.99s/it] 88%|██████████████████████████████████████████████████████��███████████████████████████████████████████████████████████████████████▍                | 4414/4993 [4:57:35<39:33,  4.10s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                | 4415/4993 [4:57:39<38:19,  3.98s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                | 4416/4993 [4:57:42<37:27,  3.89s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 4417/4993 [4:57:47<37:58,  3.96s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 4418/4993 [4:57:51<39:59,  4.17s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 4419/4993 [4:57:55<39:20,  4.11s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 4420/4993 [4:57:59<38:39,  4.05s/it]                                                                                                                                                                                          {'loss': 0.5784, 'grad_norm': 2.0, 'learning_rate': 1.678656900626119e-07, 'memory/max_active (GiB)': 40.36, 'memory/max_allocated (GiB)': 40.36, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 2046.43, 'epoch': 8.84}
+ 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 4420/4993 [4:57:59<38:39,  4.05s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 4421/4993 [4:58:03<37:41,  3.95s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 4422/4993 [4:58:07<38:02,  4.00s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 4423/4993 [4:58:10<36:30,  3.84s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 4424/4993 [4:58:15<37:21,  3.94s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 4425/4993 [4:58:19<37:24,  3.95s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                | 4426/4993 [4:58:23<37:42,  3.99s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                | 4427/4993 [4:58:26<37:10,  3.94s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                | 4428/4993 [4:58:30<36:54,  3.92s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                | 4429/4993 [4:58:34<35:57,  3.83s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                | 4430/4993 [4:58:38<37:56,  4.04s/it]                                                                                                                                                                                          {'loss': 0.5708, 'grad_norm': 1.90625, 'learning_rate': 1.6213117321099398e-07, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1744.23, 'epoch': 8.86}
+ 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                | 4430/4993 [4:58:38<37:56,  4.04s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                | 4431/4993 [4:58:42<36:39,  3.91s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                | 4432/4993 [4:58:46<37:32,  4.01s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████��███████████████████████████████▉                | 4433/4993 [4:58:50<37:44,  4.04s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                | 4434/4993 [4:58:54<36:51,  3.96s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 4435/4993 [4:58:58<36:37,  3.94s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 4436/4993 [4:59:02<35:52,  3.86s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 4437/4993 [4:59:06<36:45,  3.97s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 4438/4993 [4:59:10<35:57,  3.89s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 4439/4993 [4:59:14<36:42,  3.97s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 4440/4993 [4:59:18<37:03,  4.02s/it]                                                                                                                                                                                          {'loss': 0.5369, 'grad_norm': 1.9765625, 'learning_rate': 1.5649303215181822e-07, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1801.27, 'epoch': 8.88}
+ 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 4440/4993 [4:59:18<37:03,  4.02s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 4441/4993 [4:59:22<38:02,  4.13s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 4442/4993 [4:59:26<37:28,  4.08s/it] 89%|████████████████████████████████████���██████████████████████████████████████████████████████████████████████████████████████████▏               | 4443/4993 [4:59:30<37:22,  4.08s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 4444/4993 [4:59:34<36:36,  4.00s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 4445/4993 [4:59:38<36:39,  4.01s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 4446/4993 [4:59:42<36:10,  3.97s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 4447/4993 [4:59:46<36:06,  3.97s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍               | 4448/4993 [4:59:50<36:47,  4.05s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍               | 4449/4993 [4:59:54<36:01,  3.97s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍               | 4450/4993 [4:59:59<37:02,  4.09s/it]                                                                                                                                                                                          {'loss': 0.6051, 'grad_norm': 2.140625, 'learning_rate': 1.5095149931057762e-07, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.55, 'tokens_per_second_per_gpu': 1752.56, 'epoch': 8.9}
+ 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍               | 4450/4993 [4:59:59<37:02,  4.09s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍               | 4451/4993 [5:00:03<37:14,  4.12s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���████▌               | 4452/4993 [5:00:06<35:58,  3.99s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 4453/4993 [5:00:10<35:24,  3.93s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 4454/4993 [5:00:15<36:53,  4.11s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 4455/4993 [5:00:18<35:43,  3.98s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 4456/4993 [5:00:22<35:15,  3.94s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 4457/4993 [5:00:26<35:04,  3.93s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 4458/4993 [5:00:30<35:23,  3.97s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 4459/4993 [5:00:34<35:24,  3.98s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 4460/4993 [5:00:38<36:10,  4.07s/it]                                                                                                                                                                                          {'loss': 0.57, 'grad_norm': 1.796875, 'learning_rate': 1.455068031302076e-07, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1905.28, 'epoch': 8.92}
+ 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 4460/4993 [5:00:39<36:10,  4.07s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊               | 4461/4993 [5:00:42<35:07,  3.96s/it] 89%|█████████████████████████████████████████████████████████████���█████████████████████████████████████████████████████████████████▊               | 4462/4993 [5:00:46<34:41,  3.92s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊               | 4463/4993 [5:00:50<34:25,  3.90s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊               | 4464/4993 [5:00:54<34:18,  3.89s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 4465/4993 [5:00:58<34:00,  3.87s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 4466/4993 [5:01:02<34:25,  3.92s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 4467/4993 [5:01:06<35:06,  4.01s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 4468/4993 [5:01:10<34:51,  3.98s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 4469/4993 [5:01:14<35:44,  4.09s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████               | 4470/4993 [5:01:18<35:57,  4.12s/it]                                                                                                                                                                                          {'loss': 0.573, 'grad_norm': 2.15625, 'learning_rate': 1.401591680616704e-07, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1847.08, 'epoch': 8.94}
+ 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████               | 4470/4993 [5:01:18<35:57,  4.12s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████               | 4471/4993 [5:01:22<35:41,  4.10s/it] 90%|���███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████               | 4472/4993 [5:01:26<35:11,  4.05s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████               | 4473/4993 [5:01:30<35:02,  4.04s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏              | 4474/4993 [5:01:34<34:51,  4.03s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏              | 4475/4993 [5:01:39<35:23,  4.10s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏              | 4476/4993 [5:01:42<34:39,  4.02s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏              | 4477/4993 [5:01:47<34:52,  4.06s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 4478/4993 [5:01:50<34:19,  4.00s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 4479/4993 [5:01:54<34:34,  4.04s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 4480/4993 [5:01:59<34:38,  4.05s/it]                                                                                                                                                                                          {'loss': 0.5823, 'grad_norm': 2.046875, 'learning_rate': 1.3490881455470395e-07, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1880.22, 'epoch': 8.96}
+ 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 4480/4993 [5:01:59<34:38,  4.05s/it] 90%|████████████████████████████████████████████████████████████████████████████████��███████████████████████████████████████████████▎              | 4481/4993 [5:02:03<34:27,  4.04s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 4482/4993 [5:02:07<34:19,  4.03s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 4483/4993 [5:02:10<33:32,  3.95s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 4484/4993 [5:02:14<33:51,  3.99s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 4485/4993 [5:02:18<32:56,  3.89s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 4486/4993 [5:02:22<33:34,  3.97s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 4487/4993 [5:02:26<33:57,  4.03s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 4488/4993 [5:02:30<33:45,  4.01s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 4489/4993 [5:02:35<34:29,  4.11s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 4490/4993 [5:02:39<34:22,  4.10s/it]                                                                                                                                                                                          {'loss': 0.5591, 'grad_norm': 2.453125, 'learning_rate': 1.2975595904873073e-07, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1876.37, 'epoch': 8.98}
+ 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 4490/4993 [5:02:39<34:22,  4.10s/it] 90%|███████████���████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 4491/4993 [5:02:43<34:08,  4.08s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋              | 4492/4993 [5:02:47<33:35,  4.02s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋              | 4493/4993 [5:02:51<33:52,  4.06s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋              | 4494/4993 [5:02:55<34:01,  4.09s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋              | 4495/4993 [5:03:00<34:52,  4.20s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 4496/4993 [5:03:03<33:49,  4.08s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 4497/4993 [5:03:07<32:54,  3.98s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 4498/4993 [5:03:11<33:02,  4.00s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 4499/4993 [5:03:15<32:54,  4.00s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉              | 4500/4993 [5:03:16<26:19,  3.20s/it]                                                                                                                                                                                          {'loss': 0.5735, 'grad_norm': 3.1875, 'learning_rate': 1.247008139639372e-07, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 5736.73, 'epoch': 9.0}
+ 90%|████████████████████████████████████████████████████████████████████████████████████████████���███████████████████████████████████▉              | 4500/4993 [5:03:16<26:19,  3.20s/it][2025-12-23 19:29:38,105] [INFO] [axolotl.core.trainers.base._save:671] [PID:5529] Saving model checkpoint to ./outputs/qwen3-4b-instruct-ded-full-train/checkpoint-4500
+ 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 4501/4993 [5:03:55<1:54:15, 13.93s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏             | 4502/4993 [5:03:59<1:28:34, 10.82s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏             | 4503/4993 [5:04:03<1:12:30,  8.88s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏             | 4504/4993 [5:04:07<1:00:17,  7.40s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 4505/4993 [5:04:11<50:56,  6.26s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 4506/4993 [5:04:15<44:34,  5.49s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 4507/4993 [5:04:19<40:54,  5.05s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 4508/4993 [5:04:22<37:50,  4.68s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏             | 4509/4993 [5:04:26<36:13,  4.49s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏             | 4510/4993 [5:04:31<35:20,  4.39s/it]                                                                                                                                                                                          {'loss': 0.5717, 'grad_norm': 2.140625, 'learning_rate': 1.197435876925171e-07, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1681.9, 'epoch': 9.02}
+ 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏             | 4510/4993 [5:04:31<35:20,  4.39s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏             | 4511/4993 [5:04:34<33:38,  4.19s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏             | 4512/4993 [5:04:38<33:09,  4.14s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎             | 4513/4993 [5:04:42<32:21,  4.04s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎             | 4514/4993 [5:04:46<32:11,  4.03s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎             | 4515/4993 [5:04:50<31:10,  3.91s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎             | 4516/4993 [5:04:54<31:11,  3.92s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎             | 4517/4993 [5:04:58<30:46,  3.88s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍             | 4518/4993 [5:05:02<31:23,  3.97s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍             | 4519/4993 [5:05:06<32:00,  4.05s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍             | 4520/4993 [5:05:10<32:18,  4.10s/it]                                                                                                                                                                                          {'loss': 0.5835, 'grad_norm': 1.7109375, 'learning_rate': 1.1488448459008067e-07, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1780.78, 'epoch': 9.04}
+ 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍             | 4520/4993 [5:05:10<32:18,  4.10s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍             | 4521/4993 [5:05:14<31:42,  4.03s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 4522/4993 [5:05:18<31:45,  4.05s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 4523/4993 [5:05:22<30:56,  3.95s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 4524/4993 [5:05:26<30:20,  3.88s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 4525/4993 [5:05:29<30:16,  3.88s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋             | 4526/4993 [5:05:33<30:13,  3.88s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋             | 4527/4993 [5:05:38<31:00,  3.99s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋             | 4528/4993 [5:05:42<30:52,  3.98s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋             | 4529/4993 [5:05:45<30:19,  3.92s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████��████████████████████▋             | 4530/4993 [5:05:49<30:28,  3.95s/it]                                                                                                                                                                                          {'loss': 0.5872, 'grad_norm': 2.15625, 'learning_rate': 1.101237049672299e-07, 'memory/max_active (GiB)': 40.36, 'memory/max_allocated (GiB)': 40.36, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1898.44, 'epoch': 9.06}
+ 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋             | 4530/4993 [5:05:49<30:28,  3.95s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 4531/4993 [5:05:53<30:46,  4.00s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 4532/4993 [5:05:58<31:10,  4.06s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 4533/4993 [5:06:02<31:24,  4.10s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 4534/4993 [5:06:06<30:49,  4.03s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 4535/4993 [5:06:10<30:48,  4.04s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 4536/4993 [5:06:14<30:42,  4.03s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 4537/4993 [5:06:17<29:54,  3.93s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 4538/4993 [5:06:22<30:05,  3.97s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 4539/4993 [5:06:26<30:05,  3.98s/it] 91%|████████████████████████████████��█████████████████████████████████████████████████████████████████████████████████████████████████             | 4540/4993 [5:06:29<29:33,  3.91s/it]                                                                                                                                                                                          {'loss': 0.5626, 'grad_norm': 2.40625, 'learning_rate': 1.0546144508130102e-07, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1976.15, 'epoch': 9.08}
+ 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 4540/4993 [5:06:29<29:33,  3.91s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 4541/4993 [5:06:33<29:29,  3.91s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 4542/4993 [5:06:37<29:02,  3.86s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 4543/4993 [5:06:41<29:47,  3.97s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 4544/4993 [5:06:45<29:43,  3.97s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 4545/4993 [5:06:49<29:00,  3.88s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 4546/4993 [5:06:53<28:49,  3.87s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 4547/4993 [5:06:57<29:21,  3.95s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 4548/4993 [5:07:01<29:58,  4.04s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 4549/4993 [5:07:05<29:46,  4.02s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 4550/4993 [5:07:09<29:57,  4.06s/it]                                                                                                                                                                                          {'loss': 0.5482, 'grad_norm': 1.7265625, 'learning_rate': 1.0089789712827453e-07, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1847.97, 'epoch': 9.1}
+ 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 4550/4993 [5:07:09<29:57,  4.06s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 4551/4993 [5:07:13<29:16,  3.97s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 4552/4993 [5:07:17<28:39,  3.90s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 4553/4993 [5:07:21<28:39,  3.91s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 4554/4993 [5:07:25<29:02,  3.97s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 4555/4993 [5:07:29<28:57,  3.97s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 4556/4993 [5:07:32<28:00,  3.85s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 4557/4993 [5:07:36<28:31,  3.93s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 4558/4993 [5:07:41<29:47,  4.11s/it] 91%|██████████████████��███████████████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 4559/4993 [5:07:45<29:17,  4.05s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 4560/4993 [5:07:49<28:56,  4.01s/it]                                                                                                                                                                                          {'loss': 0.5719, 'grad_norm': 2.21875, 'learning_rate': 9.643324923485159e-08, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1871.72, 'epoch': 9.12}
+ 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 4560/4993 [5:07:49<28:56,  4.01s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 4561/4993 [5:07:53<28:34,  3.97s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 4562/4993 [5:07:56<27:53,  3.88s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 4563/4993 [5:08:00<27:43,  3.87s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 4564/4993 [5:08:05<28:51,  4.04s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 4565/4993 [5:08:09<29:10,  4.09s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 4566/4993 [5:08:13<29:20,  4.12s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 4567/4993 [5:08:17<28:34,  4.02s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 4568/4993 [5:08:21<29:28,  4.16s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 4569/4993 [5:08:25<29:01,  4.11s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 4570/4993 [5:08:29<28:50,  4.09s/it]                                                                                                                                                                                          {'loss': 0.5387, 'grad_norm': 2.109375, 'learning_rate': 9.206768545069911e-08, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1956.1, 'epoch': 9.14}
+ 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 4570/4993 [5:08:29<28:50,  4.09s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 4571/4993 [5:08:33<28:47,  4.09s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 4572/4993 [5:08:37<28:37,  4.08s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 4573/4993 [5:08:42<29:08,  4.16s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 4574/4993 [5:08:46<28:19,  4.06s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████            | 4575/4993 [5:08:49<27:49,  3.99s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████            | 4576/4993 [5:08:54<28:43,  4.13s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████            | 4577/4993 [5:08:58<28:03,  4.05s/it] 92%|█��█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████            | 4578/4993 [5:09:01<27:02,  3.91s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 4579/4993 [5:09:05<26:49,  3.89s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 4580/4993 [5:09:09<26:29,  3.85s/it]                                                                                                                                                                                          {'loss': 0.5854, 'grad_norm': 2.484375, 'learning_rate': 8.780138574086245e-08, 'memory/max_active (GiB)': 40.32, 'memory/max_allocated (GiB)': 40.32, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1951.34, 'epoch': 9.16}
+ 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 4580/4993 [5:09:09<26:29,  3.85s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 4581/4993 [5:09:13<27:03,  3.94s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 4582/4993 [5:09:18<29:21,  4.29s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎           | 4583/4993 [5:09:22<28:12,  4.13s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎           | 4584/4993 [5:09:26<27:48,  4.08s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎           | 4585/4993 [5:09:30<27:33,  4.05s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎           | 4586/4993 [5:09:34<27:27,  4.05s/it] 92%|█████████████████████████████████████████████████████████████��█████████████████████████████████████████████████████████████████████▎           | 4587/4993 [5:09:38<27:50,  4.12s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 4588/4993 [5:09:42<27:52,  4.13s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 4589/4993 [5:09:46<27:47,  4.13s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 4590/4993 [5:09:50<27:00,  4.02s/it]                                                                                                                                                                                          {'loss': 0.5949, 'grad_norm': 2.171875, 'learning_rate': 8.363452597834581e-08, 'memory/max_active (GiB)': 44.5, 'memory/max_allocated (GiB)': 44.5, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 2128.35, 'epoch': 9.18}
+ 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 4590/4993 [5:09:50<27:00,  4.02s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 4591/4993 [5:09:54<26:49,  4.00s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 4592/4993 [5:09:58<26:52,  4.02s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 4593/4993 [5:10:03<27:18,  4.10s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 4594/4993 [5:10:06<26:31,  3.99s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 4595/4993 [5:10:11<27:24,  4.13s/it] 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��█████████▋           | 4596/4993 [5:10:15<27:22,  4.14s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 4597/4993 [5:10:19<27:22,  4.15s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 4598/4993 [5:10:23<26:31,  4.03s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 4599/4993 [5:10:26<25:37,  3.90s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 4600/4993 [5:10:30<25:26,  3.88s/it]                                                                                                                                                                                          {'loss': 0.5601, 'grad_norm': 2.40625, 'learning_rate': 7.956727793686391e-08, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1949.06, 'epoch': 9.2}
+ 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 4600/4993 [5:10:30<25:26,  3.88s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 4601/4993 [5:10:34<25:37,  3.92s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 4602/4993 [5:10:38<25:28,  3.91s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 4603/4993 [5:10:43<26:22,  4.06s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 4604/4993 [5:10:46<25:35,  3.95s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 4605/4993 [5:10:51<26:16,  4.06s/it] 92%|███████████████████████████████���███████████████████████████████████████████████████████████████████████████████████████████████████▉           | 4606/4993 [5:10:55<26:56,  4.18s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 4607/4993 [5:10:59<26:42,  4.15s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 4608/4993 [5:11:04<27:18,  4.26s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 4609/4993 [5:11:08<27:19,  4.27s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 4610/4993 [5:11:12<26:47,  4.20s/it]                                                                                                                                                                                          {'loss': 0.562, 'grad_norm': 2.09375, 'learning_rate': 7.559980928375926e-08, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 2014.39, 'epoch': 9.22}
+ 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 4610/4993 [5:11:12<26:47,  4.20s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 4611/4993 [5:11:16<25:37,  4.03s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 4612/4993 [5:11:19<25:13,  3.97s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 4613/4993 [5:11:23<25:11,  3.98s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 4614/4993 [5:11:27<25:06,  3.97s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████��█████████████████████████████████████████▏          | 4615/4993 [5:11:32<25:42,  4.08s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 4616/4993 [5:11:35<24:50,  3.95s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 4617/4993 [5:11:40<25:07,  4.01s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 4618/4993 [5:11:43<24:29,  3.92s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 4619/4993 [5:11:47<24:04,  3.86s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 4620/4993 [5:11:51<23:28,  3.78s/it]                                                                                                                                                                                          {'loss': 0.575, 'grad_norm': 2.109375, 'learning_rate': 7.17322835730902e-08, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 2004.99, 'epoch': 9.24}
+ 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 4620/4993 [5:11:51<23:28,  3.78s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 4621/4993 [5:11:55<24:00,  3.87s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 4622/4993 [5:11:58<23:57,  3.87s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 4623/4993 [5:12:03<24:43,  4.01s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 4624/4993 [5:12:06<23:57,  3.90s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 4625/4993 [5:12:10<23:28,  3.83s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 4626/4993 [5:12:14<23:24,  3.83s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 4627/4993 [5:12:18<23:42,  3.89s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 4628/4993 [5:12:22<24:41,  4.06s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 4629/4993 [5:12:26<24:25,  4.03s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 4630/4993 [5:12:31<24:56,  4.12s/it]                                                                                                                                                                                          {'loss': 0.5467, 'grad_norm': 1.9375, 'learning_rate': 6.796486023888937e-08, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1799.31, 'epoch': 9.26}
+ 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 4630/4993 [5:12:31<24:56,  4.12s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 4631/4993 [5:12:35<25:32,  4.23s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 4632/4993 [5:12:39<25:03,  4.16s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 4633/4993 [5:12:43<24:48,  4.14s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 4634/4993 [5:12:47<24:35,  4.11s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 4635/4993 [5:12:51<24:01,  4.03s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 4636/4993 [5:12:55<23:45,  3.99s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 4637/4993 [5:12:59<24:15,  4.09s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 4638/4993 [5:13:03<23:32,  3.98s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 4639/4993 [5:13:07<23:28,  3.98s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 4640/4993 [5:13:11<23:49,  4.05s/it]                                                                                                                                                                                          {'loss': 0.5699, 'grad_norm': 1.875, 'learning_rate': 6.429769458859175e-08, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1937.89, 'epoch': 9.28}
+ 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 4640/4993 [5:13:11<23:49,  4.05s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 4641/4993 [5:13:15<23:10,  3.95s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 4642/4993 [5:13:19<23:49,  4.07s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████��███████████████████████████████▉          | 4643/4993 [5:13:23<23:44,  4.07s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 4644/4993 [5:13:28<23:42,  4.08s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 4645/4993 [5:13:32<23:52,  4.12s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 4646/4993 [5:13:36<23:38,  4.09s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 4647/4993 [5:13:40<23:32,  4.08s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 4648/4993 [5:13:44<23:27,  4.08s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 4649/4993 [5:13:48<22:55,  4.00s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 4650/4993 [5:13:52<23:11,  4.06s/it]                                                                                                                                                                                          {'loss': 0.5587, 'grad_norm': 2.03125, 'learning_rate': 6.073093779663058e-08, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1907.4, 'epoch': 9.3}
+ 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 4650/4993 [5:13:52<23:11,  4.06s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 4651/4993 [5:13:56<22:57,  4.03s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 4652/4993 [5:14:00<23:13,  4.09s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 4653/4993 [5:14:04<22:35,  3.99s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 4654/4993 [5:14:08<22:12,  3.93s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 4655/4993 [5:14:12<22:06,  3.93s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 4656/4993 [5:14:16<22:18,  3.97s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍         | 4657/4993 [5:14:20<22:44,  4.06s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍         | 4658/4993 [5:14:24<21:55,  3.93s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍         | 4659/4993 [5:14:28<22:17,  4.00s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍         | 4660/4993 [5:14:31<21:16,  3.83s/it]                                                                                                                                                                                          {'loss': 0.5733, 'grad_norm': 2.59375, 'learning_rate': 5.7264736898206e-08, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 2212.43, 'epoch': 9.32}
+ 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍         | 4660/4993 [5:14:31<21:16,  3.83s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍         | 4661/4993 [5:14:35<21:19,  3.85s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 4662/4993 [5:14:39<21:14,  3.85s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 4663/4993 [5:14:43<21:20,  3.88s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 4664/4993 [5:14:47<22:07,  4.03s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 4665/4993 [5:14:51<21:52,  4.00s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 4666/4993 [5:14:55<22:17,  4.09s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 4667/4993 [5:14:59<21:15,  3.91s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 4668/4993 [5:15:03<21:56,  4.05s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 4669/4993 [5:15:08<22:12,  4.11s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 4670/4993 [5:15:11<21:42,  4.03s/it]                                                                                                                                                                                          {'loss': 0.5568, 'grad_norm': 2.109375, 'learning_rate': 5.389923478322567e-08, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1924.04, 'epoch': 9.34}
+ 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 4670/4993 [5:15:11<21:42,  4.03s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 4671/4993 [5:15:16<21:49,  4.07s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 4672/4993 [5:15:20<22:06,  4.13s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 4673/4993 [5:15:24<21:27,  4.02s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 4674/4993 [5:15:28<21:52,  4.12s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 4675/4993 [5:15:32<21:58,  4.15s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 4676/4993 [5:15:37<22:13,  4.21s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 4677/4993 [5:15:41<22:07,  4.20s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 4678/4993 [5:15:44<21:05,  4.02s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████         | 4679/4993 [5:15:48<20:25,  3.90s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████         | 4680/4993 [5:15:52<19:53,  3.81s/it]                                                                                                                                                                                          {'loss': 0.5957, 'grad_norm': 2.546875, 'learning_rate': 5.063457019041096e-08, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 2214.18, 'epoch': 9.36}
+ 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████         | 4680/4993 [5:15:52<19:53,  3.81s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████         | 4681/4993 [5:15:56<20:38,  3.97s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████         | 4682/4993 [5:16:00<20:16,  3.91s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████         | 4683/4993 [5:16:04<20:25,  3.95s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 4684/4993 [5:16:07<19:58,  3.88s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 4685/4993 [5:16:12<20:27,  3.99s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 4686/4993 [5:16:16<21:32,  4.21s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 4687/4993 [5:16:20<20:50,  4.09s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 4688/4993 [5:16:24<20:29,  4.03s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 4689/4993 [5:16:28<20:08,  3.97s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 4690/4993 [5:16:32<19:51,  3.93s/it]                                                                                                                                                                                          {'loss': 0.5434, 'grad_norm': 3.859375, 'learning_rate': 4.747087770158032e-08, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1968.27, 'epoch': 9.38}
+ 94%|████████████████████████████��█████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 4690/4993 [5:16:32<19:51,  3.93s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 4691/4993 [5:16:36<19:42,  3.91s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 4692/4993 [5:16:40<19:45,  3.94s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 4693/4993 [5:16:44<19:48,  3.96s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 4694/4993 [5:16:47<19:07,  3.84s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 4695/4993 [5:16:52<20:06,  4.05s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 4696/4993 [5:16:56<20:03,  4.05s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 4697/4993 [5:17:00<20:16,  4.11s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 4698/4993 [5:17:04<19:54,  4.05s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 4699/4993 [5:17:08<19:32,  3.99s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 4700/4993 [5:17:12<20:10,  4.13s/it]                                                                                                                                                                                          {'loss': 0.5618, 'grad_norm': 1.78125, 'learning_rate': 4.4408287736099344e-08, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1831.91, 'epoch': 9.4}
+ 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 4700/4993 [5:17:12<20:10,  4.13s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 4701/4993 [5:17:16<19:57,  4.10s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 4702/4993 [5:17:20<19:57,  4.11s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 4703/4993 [5:17:24<19:35,  4.05s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 4704/4993 [5:17:28<19:40,  4.08s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 4705/4993 [5:17:33<19:37,  4.09s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 4706/4993 [5:17:37<19:48,  4.14s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 4707/4993 [5:17:41<19:13,  4.03s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 4708/4993 [5:17:45<19:02,  4.01s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 4709/4993 [5:17:48<18:48,  3.97s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████���██████████████████████████████████▉        | 4710/4993 [5:17:52<18:17,  3.88s/it]                                                                                                                                                                                          {'loss': 0.6013, 'grad_norm': 2.28125, 'learning_rate': 4.1446926545506414e-08, 'memory/max_active (GiB)': 39.54, 'memory/max_allocated (GiB)': 39.54, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 2126.99, 'epoch': 9.42}
+ 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉        | 4710/4993 [5:17:52<18:17,  3.88s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉        | 4711/4993 [5:17:56<18:39,  3.97s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉        | 4712/4993 [5:18:00<18:25,  3.93s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉        | 4713/4993 [5:18:04<18:14,  3.91s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████        | 4714/4993 [5:18:08<17:55,  3.85s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████        | 4715/4993 [5:18:12<17:57,  3.87s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████        | 4716/4993 [5:18:15<17:40,  3.83s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████        | 4717/4993 [5:18:19<17:32,  3.81s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████        | 4718/4993 [5:18:23<18:07,  3.95s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 4719/4993 [5:18:27<18:06,  3.96s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 4720/4993 [5:18:31<18:02,  3.96s/it]                                                                                                                                                                                          {'loss': 0.5859, 'grad_norm': 2.0, 'learning_rate': 3.85869162083069e-08, 'memory/max_active (GiB)': 40.36, 'memory/max_allocated (GiB)': 40.36, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1867.79, 'epoch': 9.44}
+ 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 4720/4993 [5:18:31<18:02,  3.96s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 4721/4993 [5:18:36<18:12,  4.02s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 4722/4993 [5:18:40<18:49,  4.17s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 4723/4993 [5:18:44<18:30,  4.11s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 4724/4993 [5:18:48<18:29,  4.12s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 4725/4993 [5:18:52<18:05,  4.05s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 4726/4993 [5:18:56<17:34,  3.95s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 4727/4993 [5:19:00<17:49,  4.02s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 4728/4993 [5:19:04<18:09,  4.11s/it] 95%|████████████████████���██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 4729/4993 [5:19:08<17:59,  4.09s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 4730/4993 [5:19:12<17:23,  3.97s/it]                                                                                                                                                                                          {'loss': 0.5687, 'grad_norm': 3.03125, 'learning_rate': 3.582837462493993e-08, 'memory/max_active (GiB)': 40.32, 'memory/max_allocated (GiB)': 40.32, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 2202.77, 'epoch': 9.46}
+ 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 4730/4993 [5:19:12<17:23,  3.97s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 4731/4993 [5:19:16<16:49,  3.85s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 4732/4993 [5:19:20<16:55,  3.89s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 4733/4993 [5:19:24<17:00,  3.92s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 4734/4993 [5:19:28<17:48,  4.12s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 4735/4993 [5:19:32<17:35,  4.09s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 4736/4993 [5:19:36<17:30,  4.09s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 4737/4993 [5:19:40<16:37,  3.90s/it] 95%|█████████████████████████████████████████████████████���█████████████████████████████████████████████████████████████████████████████████▋       | 4738/4993 [5:19:43<16:18,  3.84s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 4739/4993 [5:19:48<16:34,  3.92s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 4740/4993 [5:19:51<16:31,  3.92s/it]                                                                                                                                                                                          {'loss': 0.5907, 'grad_norm': 1.984375, 'learning_rate': 3.317141551292008e-08, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1953.26, 'epoch': 9.48}
+ 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 4740/4993 [5:19:51<16:31,  3.92s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 4741/4993 [5:19:56<17:03,  4.06s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 4742/4993 [5:20:00<16:50,  4.02s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 4743/4993 [5:20:03<16:20,  3.92s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 4744/4993 [5:20:07<16:07,  3.89s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 4745/4993 [5:20:11<16:19,  3.95s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 4746/4993 [5:20:15<15:58,  3.88s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 4747/4993 [5:20:19<16:04,  3.92s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 4748/4993 [5:20:23<15:57,  3.91s/it] 95%|█████████████████████▉ | 4749/4993 [5:20:27<16:10,  3.98s/it]                                                                                                                         95%|█████████████████████▉ | 4750/4993 [5:20:31<16:12,  4.00s/it]                                                                  {'loss': 0.5709, 'grad_norm': 2.171875, 'learning_rate': 3.061614840214722e-08, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1854.36, 'epoch': 9.5}
+ 95%|█████████████████████▉ | 4750/4993 [5:20:31<16:12,  4.00s/it] 95%|█████████████████████▉ | 4751/4993 [5:20:35<15:58,  3.96s/it] 95%|█████████████████████▉ | 4752/4993 [5:20:39<15:54,  3.96s/it] 95%|█████████████████████▉ | 4753/4993 [5:20:43<15:43,  3.93s/it] 95%|█████████████████████▉ | 4754/4993 [5:20:47<15:56,  4.00s/it] 95%|█████████████████████▉ | 4755/4993 [5:20:51<15:20,  3.87s/it] 95%|█████████████████████▉ | 4756/4993 [5:20:55<15:29,  3.92s/it] 95%|█████████████████████▉ | 4757/4993 [5:20:59<15:42,  3.99s/it] 95%|█████████████████████▉ | 4758/4993 [5:21:03<15:21,  3.92s/it] 95%|█████████████████████▉ | 4759/4993 [5:21:07<15:33,  3.99s/it] 95%|█████████████████████▉ | 4760/4993 [5:21:11<15:23,  3.97s/it]                                                                  {'loss': 0.5511, 'grad_norm': 2.203125, 'learning_rate': 2.816267863039346e-08, 'memory/max_active (GiB)': 39.53, 'memory/max_allocated (GiB)': 39.53, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1936.64, 'epoch': 9.52}
+ 95%|█████████████████████▉ | 4760/4993 [5:21:11<15:23,  3.97s/it] 95%|█████████████████████▉ | 4761/4993 [5:21:15<15:38,  4.04s/it] 95%|█████████████████████▉ | 4762/4993 [5:21:18<15:00,  3.90s/it] 95%|█████████████████████▉ | 4763/4993 [5:21:23<15:14,  3.97s/it] 95%|█████████████████████▉ | 4764/4993 [5:21:26<14:49,  3.88s/it] 95%|█████████████████████▉ | 4765/4993 [5:21:30<14:25,  3.80s/it] 95%|█████████████████████▉ | 4766/4993 [5:21:34<14:39,  3.88s/it] 95%|█████████████████████▉ | 4767/4993 [5:21:38<15:05,  4.01s/it] 95%|█████████████████████▉ | 4768/4993 [5:21:43<15:36,  4.16s/it] 96%|█████████████████████▉ | 4769/4993 [5:21:47<15:15,  4.09s/it] 96%|█████████████████████▉ | 4770/4993 [5:21:50<14:48,  3.98s/it]                                                                  {'loss': 0.5835, 'grad_norm': 2.234375, 'learning_rate': 2.581110733895886e-08, 'memory/max_active (GiB)': 42.85, 'memory/max_allocated (GiB)': 42.85, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1957.24, 'epoch': 9.54}
+ 96%|█████████████████████▉ | 4770/4993 [5:21:50<14:48,  3.98s/it] 96%|█████████████████████▉ | 4771/4993 [5:21:55<14:56,  4.04s/it] 96%|█████████████████████▉ | 4772/4993 [5:21:58<14:37,  3.97s/it] 96%|█████████████████████▉ | 4773/4993 [5:22:02<14:21,  3.91s/it] 96%|█████████████████████▉ | 4774/4993 [5:22:06<14:21,  3.93s/it] 96%|█████████████████████▉ | 4775/4993 [5:22:11<14:48,  4.08s/it] 96%|██████████████████████ | 4776/4993 [5:22:14<14:24,  3.98s/it] 96%|██████████████████████ | 4777/4993 [5:22:18<14:31,  4.04s/it] 96%|██████████████████████ | 4778/4993 [5:22:23<14:43,  4.11s/it] 96%|██████████████████████ | 4779/4993 [5:22:27<14:48,  4.15s/it] 96%|██████████████████████ | 4780/4993 [5:22:31<14:16,  4.02s/it]                                                                  {'loss': 0.552, 'grad_norm': 2.375, 'learning_rate': 2.356153146850365e-08, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 2158.49, 'epoch': 9.56}
+ 96%|██████████████████████ | 4780/4993 [5:22:31<14:16,  4.02s/it] 96%|██████████████████████ | 4781/4993 [5:22:35<14:09,  4.01s/it] 96%|██████████████████████ | 4782/4993 [5:22:39<13:56,  3.96s/it] 96%|██████████████████████ | 4783/4993 [5:22:43<14:11,  4.05s/it] 96%|██████████████████████ | 4784/4993 [5:22:47<14:04,  4.04s/it] 96%|██████████████████████ | 4785/4993 [5:22:51<13:42,  3.95s/it] 96%|██████████████████████ | 4786/4993 [5:22:54<13:35,  3.94s/it] 96%|██████████████████████ | 4787/4993 [5:22:59<14:04,  4.10s/it] 96%|██████████████████████ | 4788/4993 [5:23:03<13:41,  4.01s/it] 96%|██████████████████████ | 4789/4993 [5:23:07<13:55,  4.09s/it] 96%|██████████████████████ | 4790/4993 [5:23:11<13:49,  4.09s/it]                                                                  {'loss': 0.5529, 'grad_norm': 2.171875, 'learning_rate': 2.141404375505085e-08, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1967.37, 'epoch': 9.58}
+ 96%|██████████████████████ | 4790/4993 [5:23:11<13:49,  4.09s/it] 96%|██████████████████████ | 4791/4993 [5:23:15<13:55,  4.14s/it] 96%|██████████████████████ | 4792/4993 [5:23:19<13:51,  4.14s/it] 96%|██████████████████████ | 4793/4993 [5:23:23<13:30,  4.05s/it] 96%|██████████████████████ | 4794/4993 [5:23:27<13:31,  4.08s/it] 96%|██████████████████████ | 4795/4993 [5:23:32<13:29,  4.09s/it] 96%|██████████████████████ | 4796/4993 [5:23:35<13:06,  3.99s/it] 96%|██████████████████████ | 4797/4993 [5:23:39<12:47,  3.92s/it] 96%|██████████████████████ | 4798/4993 [5:23:43<12:42,  3.91s/it] 96%|██████████████████████ | 4799/4993 [5:23:47<12:30,  3.87s/it] 96%|██████████████████████ | 4800/4993 [5:23:51<12:40,  3.94s/it]                                                                  {'loss': 0.5635, 'grad_norm': 8.625, 'learning_rate': 1.936873272616352e-08, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1931.99, 'epoch': 9.6}
+ 96%|██████████████████████ | 4800/4993 [5:23:51<12:40,  3.94s/it] 96%|██████████████████████ | 4801/4993 [5:23:55<12:45,  3.99s/it] 96%|██████████████████████ | 4802/4993 [5:23:59<12:38,  3.97s/it] 96%|██████████████████████ | 4803/4993 [5:24:03<12:29,  3.95s/it] 96%|██████████████████████▏| 4804/4993 [5:24:07<12:29,  3.96s/it] 96%|██████████████████████▏| 4805/4993 [5:24:11<12:21,  3.94s/it] 96%|██████████████████████▏| 4806/4993 [5:24:15<12:19,  3.96s/it] 96%|██████████████████████▏| 4807/4993 [5:24:19<12:09,  3.92s/it] 96%|██████████████████████▏| 4808/4993 [5:24:22<11:57,  3.88s/it] 96%|██████████████████████▏| 4809/4993 [5:24:26<11:57,  3.90s/it] 96%|██████████████████████▏| 4810/4993 [5:24:31<12:20,  4.05s/it]                                                                  {'loss': 0.5924, 'grad_norm': 1.84375, 'learning_rate': 1.7425682697295165e-08, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1707.86, 'epoch': 9.62}
+ 96%|██████████████████████▏| 4810/4993 [5:24:31<12:20,  4.05s/it] 96%|██████████████████████▏| 4811/4993 [5:24:35<12:37,  4.16s/it] 96%|██████████████████████▏| 4812/4993 [5:24:39<11:54,  3.95s/it] 96%|██████████████████████▏| 4813/4993 [5:24:43<12:04,  4.02s/it] 96%|██████████████████████▏| 4814/4993 [5:24:47<12:26,  4.17s/it] 96%|██████████████████████▏| 4815/4993 [5:24:51<12:12,  4.11s/it] 96%|██████████████████████▏| 4816/4993 [5:24:55<11:47,  4.00s/it] 96%|██████████████████████▏| 4817/4993 [5:24:59<11:41,  3.99s/it] 96%|██████████████████████▏| 4818/4993 [5:25:02<11:08,  3.82s/it] 97%|██████████████████████▏| 4819/4993 [5:25:06<11:12,  3.86s/it] 97%|██████████████████████▏| 4820/4993 [5:25:10<11:05,  3.84s/it]                                                                  {'loss': 0.5944, 'grad_norm': 2.25, 'learning_rate': 1.558497376831475e-08, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1966.26, 'epoch': 9.64}
+ 97%|██████████████████████▏| 4820/4993 [5:25:10<11:05,  3.84s/it] 97%|██████████████████████▏| 4821/4993 [5:25:14<11:12,  3.91s/it] 97%|██████████████████████▏| 4822/4993 [5:25:18<11:08,  3.91s/it] 97%|██████████████████████▏| 4823/4993 [5:25:22<11:15,  3.97s/it] 97%|██████████████████████▏| 4824/4993 [5:25:26<11:13,  3.98s/it] 97%|██████████████████████▏| 4825/4993 [5:25:30<11:09,  3.98s/it] 97%|██████████████████████▏| 4826/4993 [5:25:34<10:55,  3.93s/it] 97%|██████████████████████▏| 4827/4993 [5:25:38<10:36,  3.84s/it] 97%|██████████████████████▏| 4828/4993 [5:25:42<10:48,  3.93s/it] 97%|██████████████████████▏| 4829/4993 [5:25:45<10:26,  3.82s/it] 97%|██████████████████████▏| 4830/4993 [5:25:49<10:30,  3.87s/it]                                                                  {'loss': 0.5782, 'grad_norm': 1.8125, 'learning_rate': 1.3846681820204045e-08, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1823.12, 'epoch': 9.66}
+ 97%|██████████████████████▏| 4830/4993 [5:25:49<10:30,  3.87s/it] 97%|██████████████████████▎| 4831/4993 [5:25:53<10:31,  3.90s/it] 97%|██████████████████████▎| 4832/4993 [5:25:57<10:44,  4.00s/it] 97%|██████████████████████▎| 4833/4993 [5:26:01<10:23,  3.90s/it] 97%|██████████████████████▎| 4834/4993 [5:26:05<10:38,  4.02s/it] 97%|██████████████████████▎| 4835/4993 [5:26:09<10:34,  4.02s/it] 97%|██████████████████████▎| 4836/4993 [5:26:13<10:13,  3.91s/it] 97%|██████████████████████▎| 4837/4993 [5:26:17<10:02,  3.86s/it] 97%|██████████████████████▎| 4838/4993 [5:26:21<10:01,  3.88s/it] 97%|██████████████████████▎| 4839/4993 [5:26:25<10:16,  4.00s/it] 97%|██████████████████████▎| 4840/4993 [5:26:29<09:54,  3.89s/it]                                                                  {'loss': 0.5554, 'grad_norm': 2.5, 'learning_rate': 1.2210878511929869e-08, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1980.72, 'epoch': 9.68}
+ 97%|██████████████████████▎| 4840/4993 [5:26:29<09:54,  3.89s/it] 97%|██████████████████████▎| 4841/4993 [5:26:32<09:46,  3.86s/it] 97%|██████████████████████▎| 4842/4993 [5:26:37<09:54,  3.94s/it] 97%|██████████████████████▎| 4843/4993 [5:26:41<10:05,  4.04s/it] 97%|██████████████████████▎| 4844/4993 [5:26:45<09:44,  3.92s/it] 97%|██████████████████████▎| 4845/4993 [5:26:48<09:32,  3.87s/it] 97%|██████████████████████▎| 4846/4993 [5:26:52<09:27,  3.86s/it] 97%|██████████████████████▎| 4847/4993 [5:26:56<09:09,  3.76s/it] 97%|██████████████████████▎| 4848/4993 [5:26:59<09:00,  3.73s/it] 97%|██████████████████████▎| 4849/4993 [5:27:03<09:05,  3.79s/it] 97%|██████████████████████▎| 4850/4993 [5:27:07<09:07,  3.83s/it]                                                                  {'loss': 0.5931, 'grad_norm': 2.015625, 'learning_rate': 1.0677631277488943e-08, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1788.05, 'epoch': 9.7}
+ 97%|██████████████████████▎| 4850/4993 [5:27:07<09:07,  3.83s/it] 97%|██████████████████████▎| 4851/4993 [5:27:11<09:14,  3.90s/it] 97%|██████████████████████▎| 4852/4993 [5:27:15<08:59,  3.83s/it] 97%|██████████████████████▎| 4853/4993 [5:27:19<09:02,  3.88s/it] 97%|██████████████████████▎| 4854/4993 [5:27:23<09:19,  4.03s/it] 97%|██████████████████████▎| 4855/4993 [5:27:27<08:56,  3.89s/it] 97%|██████████████████████▎| 4856/4993 [5:27:31<08:54,  3.90s/it] 97%|██████████████████████▎| 4857/4993 [5:27:35<08:57,  3.95s/it] 97%|██████████████████████▍| 4858/4993 [5:27:39<08:42,  3.87s/it] 97%|██████████████████████▍| 4859/4993 [5:27:42<08:37,  3.87s/it] 97%|██████████████████████▍| 4860/4993 [5:27:46<08:29,  3.83s/it]                                                                  {'loss': 0.5568, 'grad_norm': 2.15625, 'learning_rate': 9.247003323129832e-09, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1921.72, 'epoch': 9.72}
+ 97%|██████████████████████▍| 4860/4993 [5:27:46<08:29,  3.83s/it] 97%|██████████████████████▍| 4861/4993 [5:27:50<08:35,  3.91s/it] 97%|██████████████████████▍| 4862/4993 [5:27:54<08:22,  3.83s/it] 97%|██████████████████████▍| 4863/4993 [5:27:58<08:25,  3.89s/it] 97%|██████████████████████▍| 4864/4993 [5:28:02<08:18,  3.87s/it] 97%|██████████████████████▍| 4865/4993 [5:28:06<08:16,  3.88s/it] 97%|██████████████████████▍| 4866/4993 [5:28:10<08:21,  3.95s/it] 97%|██████████████████████▍| 4867/4993 [5:28:14<08:18,  3.95s/it] 97%|██████████████████████▍| 4868/4993 [5:28:18<08:15,  3.97s/it] 98%|██████████████████████▍| 4869/4993 [5:28:22<08:10,  3.95s/it] 98%|██████████████████████▍| 4870/4993 [5:28:26<08:08,  3.97s/it]                                                                  {'loss': 0.5641, 'grad_norm': 2.125, 'learning_rate': 7.919053624745876e-09, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1903.48, 'epoch': 9.74}
+ 98%|██████████████████████▍| 4870/4993 [5:28:26<08:08,  3.97s/it] 98%|██████████████████████▍| 4871/4993 [5:28:29<08:00,  3.94s/it] 98%|██████████████████████▍| 4872/4993 [5:28:33<07:56,  3.94s/it] 98%|██████████████████████▍| 4873/4993 [5:28:38<08:15,  4.13s/it] 98%|██████████████████████▍| 4874/4993 [5:28:42<08:06,  4.09s/it] 98%|██████████████████████▍| 4875/4993 [5:28:47<08:26,  4.29s/it] 98%|██████████████████████▍| 4876/4993 [5:28:51<08:25,  4.32s/it] 98%|██████████████████████▍| 4877/4993 [5:28:55<08:04,  4.18s/it] 98%|██████████████████████▍| 4878/4993 [5:28:59<07:51,  4.10s/it] 98%|██████████████████████▍| 4879/4993 [5:29:03<07:58,  4.19s/it] 98%|██████████████████████▍| 4880/4993 [5:29:07<07:45,  4.12s/it]                                                                  {'loss': 0.5955, 'grad_norm': 2.015625, 'learning_rate': 6.693836925444619e-09, 'memory/max_active (GiB)': 40.32, 'memory/max_allocated (GiB)': 40.32, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 2084.7, 'epoch': 9.76}
+ 98%|██████████████████████▍| 4880/4993 [5:29:07<07:45,  4.12s/it] 98%|██████████████████████▍| 4881/4993 [5:29:11<07:26,  3.99s/it] 98%|██████████████████████▍| 4882/4993 [5:29:15<07:11,  3.89s/it] 98%|██████████████████████▍| 4883/4993 [5:29:19<07:16,  3.97s/it] 98%|██████████████████████▍| 4884/4993 [5:29:23<07:07,  3.92s/it] 98%|██████████████████████▌| 4885/4993 [5:29:26<07:01,  3.90s/it] 98%|██████████████████████▌| 4886/4993 [5:29:30<07:01,  3.94s/it] 98%|██████████████████████▌| 4887/4993 [5:29:34<06:52,  3.89s/it] 98%|██████████████████████▌| 4888/4993 [5:29:38<06:54,  3.95s/it] 98%|██████████████████████▌| 4889/4993 [5:29:42<06:44,  3.89s/it] 98%|██████████████████████▌| 4890/4993 [5:29:46<06:41,  3.90s/it]                                                                  {'loss': 0.5771, 'grad_norm': 2.015625, 'learning_rate': 5.571403733290737e-09, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1800.33, 'epoch': 9.78}
+ 98%|██████████████████████▌| 4890/4993 [5:29:46<06:41,  3.90s/it] 98%|██████████████████████▌| 4891/4993 [5:29:50<06:35,  3.88s/it] 98%|██████████████████████▌| 4892/4993 [5:29:54<06:35,  3.91s/it] 98%|██████████████████████▌| 4893/4993 [5:29:58<06:25,  3.86s/it] 98%|██████████████████████▌| 4894/4993 [5:30:02<06:36,  4.01s/it] 98%|██████████████████████▌| 4895/4993 [5:30:06<06:37,  4.06s/it] 98%|██████████████████████▌| 4896/4993 [5:30:10<06:20,  3.92s/it] 98%|██████████████████████▌| 4897/4993 [5:30:13<06:13,  3.89s/it] 98%|██████████████████████▌| 4898/4993 [5:30:19<06:44,  4.26s/it] 98%|██████████████████████▌| 4899/4993 [5:30:22<06:22,  4.07s/it] 98%|██████████████████████▌| 4900/4993 [5:30:26<06:16,  4.05s/it]                                                                  {'loss': 0.5723, 'grad_norm': 2.0625, 'learning_rate': 4.551800319224087e-09, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1882.49, 'epoch': 9.8}
+ 98%|██████████████████████▌| 4900/4993 [5:30:26<06:16,  4.05s/it] 98%|██████████████████████▌| 4901/4993 [5:30:31<06:31,  4.25s/it] 98%|██████████████████████▌| 4902/4993 [5:30:35<06:11,  4.09s/it] 98%|██████████████████████▌| 4903/4993 [5:30:39<06:02,  4.02s/it] 98%|██████████████████████▌| 4904/4993 [5:30:43<05:58,  4.02s/it] 98%|██████████████████████▌| 4905/4993 [5:30:47<05:57,  4.07s/it] 98%|██████████████████████▌| 4906/4993 [5:30:51<05:54,  4.08s/it] 98%|██████████████████████▌| 4907/4993 [5:30:55<05:48,  4.05s/it] 98%|██████████████████████▌| 4908/4993 [5:30:59<05:53,  4.16s/it] 98%|██████████████████████▌| 4909/4993 [5:31:03<05:40,  4.05s/it] 98%|██████████████████████▌| 4910/4993 [5:31:07<05:22,  3.89s/it]                                                                  {'loss': 0.5454, 'grad_norm': 2.359375, 'learning_rate': 3.6350687151531782e-09, 'memory/max_active (GiB)': 40.32, 'memory/max_allocated (GiB)': 40.32, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 2262.02, 'epoch': 9.82}
+ 98%|██████████████████████▌| 4910/4993 [5:31:07<05:22,  3.89s/it] 98%|██████████████████████▌| 4911/4993 [5:31:10<05:13,  3.83s/it] 98%|██████████████████████▋| 4912/4993 [5:31:14<05:05,  3.78s/it] 98%|██████████████████████▋| 4913/4993 [5:31:18<05:04,  3.80s/it] 98%|██████████████████████▋| 4914/4993 [5:31:22<05:15,  3.99s/it] 98%|██████████████████████▋| 4915/4993 [5:31:26<05:10,  3.97s/it] 98%|██████████████████████▋| 4916/4993 [5:31:30<05:07,  3.99s/it] 98%|██████████████████████▋| 4917/4993 [5:31:34<05:05,  4.02s/it] 98%|██████████████████████▋| 4918/4993 [5:31:39<05:11,  4.15s/it] 99%|██████████████████████▋| 4919/4993 [5:31:42<04:58,  4.03s/it] 99%|██████████████████████▋| 4920/4993 [5:31:46<04:43,  3.89s/it]                                                                  {'loss': 0.5948, 'grad_norm': 2.484375, 'learning_rate': 2.821246712220449e-09, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 2136.43, 'epoch': 9.84}
+ 99%|██████████████████████▋| 4920/4993 [5:31:46<04:43,  3.89s/it] 99%|██████████████████████▋| 4921/4993 [5:31:50<04:37,  3.85s/it] 99%|██████████████████████▋| 4922/4993 [5:31:54<04:38,  3.92s/it] 99%|██████████████████████▋| 4923/4993 [5:31:58<04:35,  3.94s/it] 99%|██████████████████████▋| 4924/4993 [5:32:02<04:30,  3.92s/it] 99%|██████████████████████▋| 4925/4993 [5:32:06<04:40,  4.13s/it] 99%|██████████████████████▋| 4926/4993 [5:32:11<04:38,  4.15s/it] 99%|██████████████████████▋| 4927/4993 [5:32:14<04:30,  4.09s/it] 99%|██████████████████████▋| 4928/4993 [5:32:19<04:30,  4.16s/it] 99%|██████████████████████▋| 4929/4993 [5:32:23<04:19,  4.05s/it] 99%|██████████████████████▋| 4930/4993 [5:32:26<04:09,  3.96s/it]                                                                  {'loss': 0.5567, 'grad_norm': 2.140625, 'learning_rate': 2.110367859245732e-09, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 2082.63, 'epoch': 9.86}
+ 99%|██████████████████████▋| 4930/4993 [5:32:26<04:09,  3.96s/it] 99%|██████████████████████▋| 4931/4993 [5:32:30<04:06,  3.98s/it] 99%|██████████████████████▋| 4932/4993 [5:32:34<04:03,  3.98s/it] 99%|██████████████████████▋| 4933/4993 [5:32:38<03:59,  3.99s/it] 99%|██████████████████████▋| 4934/4993 [5:32:43<04:02,  4.11s/it] 99%|██████████████████████▋| 4935/4993 [5:32:47<03:58,  4.12s/it] 99%|██████████████████████▋| 4936/4993 [5:32:51<03:56,  4.15s/it] 99%|██████████████████████▋| 4937/4993 [5:32:55<03:39,  3.92s/it] 99%|██████████████████████▋| 4938/4993 [5:32:58<03:32,  3.87s/it] 99%|██████████████████████▊| 4939/4993 [5:33:02<03:32,  3.93s/it] 99%|██████████████████████▊| 4940/4993 [5:33:06<03:28,  3.92s/it]                                                                  {'loss': 0.5606, 'grad_norm': 2.09375, 'learning_rate': 1.502461461343474e-09, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1868.26, 'epoch': 9.88}
+ 99%|██���███████████████████▊| 4940/4993 [5:33:06<03:28,  3.92s/it] 99%|██████████████████████▊| 4941/4993 [5:33:11<03:30,  4.06s/it] 99%|██████████████████████▊| 4942/4993 [5:33:15<03:26,  4.05s/it] 99%|██████████████████████▊| 4943/4993 [5:33:19<03:22,  4.06s/it] 99%|██████████████████████▊| 4944/4993 [5:33:23<03:18,  4.05s/it] 99%|██████████████████████▊| 4945/4993 [5:33:27<03:18,  4.13s/it] 99%|██████████████████████▊| 4946/4993 [5:33:31<03:09,  4.03s/it] 99%|██████████████████████▊| 4947/4993 [5:33:35<03:01,  3.94s/it] 99%|██████████████████████▊| 4948/4993 [5:33:38<02:56,  3.92s/it] 99%|██████████████████████▊| 4949/4993 [5:33:42<02:50,  3.87s/it] 99%|██████████████████████▊| 4950/4993 [5:33:46<02:48,  3.93s/it]                                                                  {'loss': 0.5505, 'grad_norm': 2.28125, 'learning_rate': 9.97552578713701e-10, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1922.74, 'epoch': 9.9}
+ 99%|██████████████████████▊| 4950/4993 [5:33:46<02:48,  3.93s/it] 99%|██████████████████████▊| 4951/4993 [5:33:50<02:44,  3.93s/it] 99%|██████████████████████▊| 4952/4993 [5:33:54<02:38,  3.88s/it] 99%|██████████████████████▊| 4953/4993 [5:33:58<02:38,  3.97s/it] 99%|██████████████████████▊| 4954/4993 [5:34:02<02:34,  3.96s/it] 99%|██████████████████████▊| 4955/4993 [5:34:06<02:31,  3.99s/it] 99%|██████████████████████▊| 4956/4993 [5:34:10<02:23,  3.89s/it] 99%|██████████████████████▊| 4957/4993 [5:34:14<02:22,  3.96s/it] 99%|██████████████████████▊| 4958/4993 [5:34:18<02:21,  4.05s/it] 99%|██████████████████████▊| 4959/4993 [5:34:22<02:15,  3.97s/it] 99%|██████████████████████▊| 4960/4993 [5:34:26<02:10,  3.96s/it]                                                                  {'loss': 0.5756, 'grad_norm': 3.546875, 'learning_rate': 5.956620256095114e-10, 'memory/max_active (GiB)': 40.36, 'memory/max_allocated (GiB)': 40.36, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1831.57, 'epoch': 9.92}
+ 99%|██████████████████████▊| 4960/4993 [5:34:26<02:10,  3.96s/it] 99%|██████████████████████▊| 4961/4993 [5:34:30<02:09,  4.04s/it] 99%|██████████████████████▊| 4962/4993 [5:34:34<02:04,  4.02s/it] 99%|██████████████████████▊| 4963/4993 [5:34:39<02:04,  4.13s/it] 99%|██████████████████████▊| 4964/4993 [5:34:43<01:59,  4.11s/it] 99%|██████████████████████▊| 4965/4993 [5:34:47<01:53,  4.06s/it] 99%|██████████████████████▉| 4966/4993 [5:34:50<01:48,  4.00s/it] 99%|██████████████████████▉| 4967/4993 [5:34:54<01:43,  3.97s/it] 99%|██████████████████████▉| 4968/4993 [5:34:58<01:40,  4.02s/it]100%|██████████████████████▉| 4969/4993 [5:35:03<01:37,  4.06s/it]100%|██████████████████████▉| 4970/4993 [5:35:06<01:31,  3.96s/it]                                                                  {'loss': 0.5836, 'grad_norm': 2.40625, 'learning_rate': 2.9680636947942985e-10, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 2099.41, 'epoch': 9.94}
+100%|██████████████████████▉| 4970/4993 [5:35:06<01:31,  3.96s/it]100%|██████████████████████▉| 4971/4993 [5:35:10<01:26,  3.95s/it]100%|██████████████████████▉| 4972/4993 [5:35:14<01:22,  3.93s/it]100%|██████████████████████▉| 4973/4993 [5:35:18<01:16,  3.81s/it]100%|████���█████████████████▉| 4974/4993 [5:35:22<01:13,  3.88s/it]100%|██████████████████████▉| 4975/4993 [5:35:25<01:09,  3.86s/it]100%|██████████████████████▉| 4976/4993 [5:35:29<01:05,  3.86s/it]100%|██████████████████████▉| 4977/4993 [5:35:33<01:02,  3.91s/it]100%|██████████████████████▉| 4978/4993 [5:35:38<01:00,  4.01s/it]100%|██████████████████████▉| 4979/4993 [5:35:41<00:54,  3.88s/it]100%|██████████████████████▉| 4980/4993 [5:35:45<00:50,  3.89s/it]                                                                  {'loss': 0.5669, 'grad_norm': 1.984375, 'learning_rate': 1.0099793028295334e-10, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1810.84, 'epoch': 9.96}
+100%|██████████████████████▉| 4980/4993 [5:35:45<00:50,  3.89s/it]100%|██████████████████████▉| 4981/4993 [5:35:49<00:47,  3.97s/it]100%|██████████████████████▉| 4982/4993 [5:35:53<00:44,  4.03s/it]100%|██████████████████████▉| 4983/4993 [5:35:57<00:39,  3.99s/it]100%|██████████████████████▉| 4984/4993 [5:36:01<00:35,  3.91s/it]100%|██████████████████████▉| 4985/4993 [5:36:05<00:30,  3.79s/it]100%|██████████████████████▉| 4986/4993 [5:36:08<00:26,  3.77s/it]100%|██████████████████████▉| 4987/4993 [5:36:12<00:23,  3.89s/it]100%|██████████████████████▉| 4988/4993 [5:36:16<00:19,  3.84s/it]100%|██████████████████████▉| 4989/4993 [5:36:20<00:15,  3.93s/it]100%|██████████████████████▉| 4990/4993 [5:36:24<00:11,  3.93s/it]                                                                  {'loss': 0.5588, 'grad_norm': 2.03125, 'learning_rate': 8.244779984845076e-12, 'memory/max_active (GiB)': 39.12, 'memory/max_allocated (GiB)': 39.12, 'memory/device_reserved (GiB)': 48.57, 'tokens_per_second_per_gpu': 1907.5, 'epoch': 9.98}
+100%|██████████████████████▉| 4990/4993 [5:36:24<00:11,  3.93s/it]100%|██████████████████████▉| 4991/4993 [5:36:28<00:07,  3.87s/it]100%|██████████████████████▉| 4992/4993 [5:36:32<00:03,  3.86s/it]100%|███████████████████████| 4993/4993 [5:36:36<00:00,  3.94s/it][2025-12-23 20:02:57,550] [INFO] [axolotl.core.trainers.base._save:671] [PID:5529] Saving model checkpoint to ./outputs/qwen3-4b-instruct-ded-full-train/checkpoint-4993
+                                                                  {'train_runtime': 20229.532, 'train_samples_per_second': 7.898, 'train_steps_per_second': 0.247, 'train_loss': 0.5859825672235227, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 48.57, 'epoch': 9.99}
+100%|███████████████████████| 4993/4993 [5:37:09<00:00,  3.94s/it]100%|███████████████████████| 4993/4993 [5:37:09<00:00,  4.05s/it]
+[2025-12-23 20:03:30,851] [INFO] [axolotl.train.save_trained_model:218] [PID:5529] Training completed! Saving trained model to ./outputs/qwen3-4b-instruct-ded-full-train.
+[2025-12-23 20:03:44,737] [INFO] [axolotl.train.save_trained_model:336] [PID:5529] Model successfully saved to ./outputs/qwen3-4b-instruct-ded-full-train