config.json:   0%|                                                                                                   | 0.00/727 [00:00<?, ?B/s]config.json: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 727/727 [00:00<00:00, 3.89MB/s]
[2025-12-23 14:23:14,631] [DEBUG] [axolotl.utils.config.log_gpu_memory_usage:127] [PID:5064] baseline 0.000GB ()
[2025-12-23 14:23:14,631] [INFO] [axolotl.cli.config.load_cfg:248] [PID:5064] config:
{
  "activation_offloading": false,
  "auto_resume_from_checkpoints": true,
  "axolotl_config_path": "config.yaml",
  "base_model": "Qwen/Qwen3-4B-Instruct-2507",
  "base_model_config": "Qwen/Qwen3-4B-Instruct-2507",
  "batch_size": 32,
  "bf16": true,
  "capabilities": {
    "bf16": true,
    "compute_capability": "sm_90",
    "fp8": false,
    "n_gpu": 1,
    "n_node": 1
  },
  "chat_template": "qwen3",
  "context_parallel_size": 1,
  "dataloader_num_workers": 1,
  "dataloader_pin_memory": true,
  "dataloader_prefetch_factor": 256,
  "dataset_processes": 18,
  "datasets": [
    {
      "chat_template": "tokenizer_default",
      "field_messages": "conversations",
      "message_property_mappings": {
        "content": "value",
        "role": "from"
      },
      "path": "./dataset/abd_full_train.jsonl",
      "roles": {
        "assistant": [
          "gpt"
        ],
        "system": [
          "system"
        ],
        "user": [
          "human"
        ]
      },
      "trust_remote_code": false,
      "type": "chat_template"
    }
  ],
  "ddp": false,
  "device": "cuda:0",
  "dion_rank_fraction": 1.0,
  "dion_rank_multiple_of": 1,
  "env_capabilities": {
    "torch_version": "2.7.1"
  },
  "eval_batch_size": 2,
  "eval_causal_lm_metrics": [
    "sacrebleu",
    "comet",
    "ter",
    "chrf"
  ],
  "eval_max_new_tokens": 128,
  "eval_table_size": 0,
  "experimental_skip_move_to_device": true,
  "flash_attention": true,
  "fp16": false,
  "gradient_accumulation_steps": 16,
  "gradient_checkpointing": true,
  "gradient_checkpointing_kwargs": {
    "use_reentrant": true
  },
  "include_tkps": true,
  "is_falcon_derived_model": false,
  "is_llama_derived_model": false,
  "is_mistral_derived_model": false,
  "learning_rate": 5e-06,
  "lisa_layers_attribute": "model.layers",
  "load_best_model_at_end": false,
  "load_in_4bit": false,
  "load_in_8bit": false,
  "local_rank": 0,
  "lora_dropout": 0.0,
  "loraplus_lr_embedding": 1e-06,
  "lr_scheduler": "cosine",
  "mean_resizing_embeddings": false,
  "micro_batch_size": 2,
  "model_config_type": "qwen3",
  "num_epochs": 10.0,
  "optimizer": "adamw_torch_fused",
  "output_dir": "./outputs/qwen3-4b-instruct-abd-full-train",
  "pretrain_multipack_attn": true,
  "profiler_steps_start": 0,
  "qlora_sharded_model_loading": false,
  "ray_num_workers": 1,
  "resources_per_worker": {
    "GPU": 1
  },
  "sample_packing": false,
  "sample_packing_bin_size": 200,
  "sample_packing_group_size": 100000,
  "save_only_model": false,
  "save_safetensors": true,
  "sequence_len": 4096,
  "shuffle_before_merging_datasets": false,
  "shuffle_merged_datasets": true,
  "skip_prepare_dataset": false,
  "streaming_multipack_buffer_size": 10000,
  "strict": false,
  "tensor_parallel_size": 1,
  "tf32": true,
  "tiled_mlp_use_original_mlp": true,
  "tokenizer_config": "Qwen/Qwen3-4B-Instruct-2507",
  "tokenizer_save_jinja_files": true,
  "tokenizer_type": "AutoTokenizer",
  "torch_dtype": "torch.bfloat16",
  "train_on_inputs": false,
  "trl": {
    "log_completions": false,
    "mask_truncated_completions": false,
    "ref_model_mixup_alpha": 0.9,
    "ref_model_sync_steps": 64,
    "scale_rewards": true,
    "sync_ref_model": false,
    "use_vllm": false,
    "vllm_server_host": "0.0.0.0",
    "vllm_server_port": 8000
  },
  "type_of_model": "AutoModelForCausalLM",
  "use_ray": false,
  "val_set_size": 0.0,
  "vllm": {
    "device": "auto",
    "dtype": "auto",
    "gpu_memory_utilization": 0.9,
    "host": "0.0.0.0",
    "port": 8000
  },
  "warmup_steps": 100,
  "weight_decay": 0.01,
  "world_size": 1
}
tokenizer_config.json: 0.00B [00:00, ?B/s]tokenizer_config.json: 9.38kB [00:00, 27.5MB/s]
vocab.json: 0.00B [00:00, ?B/s]vocab.json: 2.78MB [00:00, 73.5MB/s]
merges.txt: 0.00B [00:00, ?B/s]merges.txt: 1.67MB [00:00, 82.2MB/s]
tokenizer.json:   0%|                                                                                              | 0.00/11.4M [00:00<?, ?B/s]tokenizer.json: 100%|█████████████████████████████████████████████████████████████████████████████████████| 11.4M/11.4M [00:00<00:00, 25.7MB/s]tokenizer.json: 100%|█████████████████████████████████████████████████████████████████████████████████████| 11.4M/11.4M [00:00<00:00, 25.7MB/s]
[2025-12-23 14:23:16,345] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:278] [PID:5064] EOS: 151645 / <|im_end|>
[2025-12-23 14:23:16,346] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:279] [PID:5064] BOS: None / None
[2025-12-23 14:23:16,346] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:5064] PAD: 151643 / <|endoftext|>
[2025-12-23 14:23:16,346] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:5064] UNK: None / None
[2025-12-23 14:23:16,347] [INFO] [axolotl.utils.data.shared.load_preprocessed_dataset:476] [PID:5064] Unable to find prepared dataset in last_run_prepared/b1fab737da515ce3143dcd64b15cef47
[2025-12-23 14:23:16,348] [INFO] [axolotl.utils.data.sft._load_raw_datasets:320] [PID:5064] Loading raw datasets...
[2025-12-23 14:23:16,348] [WARNING] [axolotl.utils.data.sft._load_raw_datasets:322] [PID:5064] Processing datasets during training can lead to VRAM instability. Please pre-process your dataset using `axolotl preprocess path/to/config.yml`.
Generating train split: 0 examples [00:00, ? examples/s]Generating train split: 19344 examples [00:00, 136525.22 examples/s]Generating train split: 22912 examples [00:00, 104106.07 examples/s]
[2025-12-23 14:23:16,731] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:5064] Loading dataset: ./dataset/abd_full_train.jsonl with base_type: chat_template and prompt_style: None
[2025-12-23 14:23:16,746] [INFO] [axolotl.prompt_strategies.chat_template.__call__:969] [PID:5064] Using chat template:
---
{%- if tools %}
    {{- '<|im_start|>system\n' }}
    {%- if messages[0].role == 'system' %}
        {{- messages[0].content + '\n\n' }}
    {%- endif %}
    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
    {%- for tool in tools %}
        {{- "\n" }}
        {{- tool | tojson }}
    {%- endfor %}
    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
{%- else %}
    {%- if messages[0].role == 'system' %}
        {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
    {%- endif %}
{%- endif %}
{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
{%- for message in messages[::-1] %}
    {%- set index = (messages|length - 1) - loop.index0 %}
    {%- if ns.multi_step_tool and message.role == "user" and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}
        {%- set ns.multi_step_tool = false %}
        {%- set ns.last_query_index = index %}
    {%- endif %}
{%- endfor %}
{%- for message in messages %}
    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
    {%- elif message.role == "assistant" %}
        {%- set content = message.content %}
        {%- set reasoning_content = '' %}
        {%- if message.reasoning_content is defined and message.reasoning_content is not none %}
            {%- set reasoning_content = message.reasoning_content %}
        {%- else %}
            {%- if '</think>' in message.content %}
                {%- set content = message.content.split('</think>')[-1].lstrip('\n') %}
                {%- set reasoning_content = message.content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
            {%- endif %}
        {%- endif %}
        {%- if loop.index0 > ns.last_query_index %}
            {%- if loop.last or (not loop.last and reasoning_content) %}
                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
            {%- else %}
                {{- '<|im_start|>' + message.role + '\n' + content }}
            {%- endif %}
        {%- else %}
            {{- '<|im_start|>' + message.role + '\n' + content }}
        {%- endif %}
        {%- if message.tool_calls %}
            {%- for tool_call in message.tool_calls %}
                {%- if (loop.first and content) or (not loop.first) %}
                    {{- '\n' }}
                {%- endif %}
                {%- if tool_call.function %}
                    {%- set tool_call = tool_call.function %}
                {%- endif %}
                {{- '<tool_call>\n{"name": "' }}
                {{- tool_call.name }}
                {{- '", "arguments": ' }}
                {%- if tool_call.arguments is string %}
                    {{- tool_call.arguments }}
                {%- else %}
                    {{- tool_call.arguments | tojson }}
                {%- endif %}
                {{- '}\n</tool_call>' }}
            {%- endfor %}
        {%- endif %}
        {{- '<|im_end|>\n' }}
    {%- elif message.role == "tool" %}
        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
            {{- '<|im_start|>user' }}
        {%- endif %}
        {{- '\n<tool_response>\n' }}
        {{- message.content }}
        {{- '\n</tool_response>' }}
        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
            {{- '<|im_end|>\n' }}
        {%- endif %}
    {%- endif %}
{%- endfor %}
{%- if add_generation_prompt %}
    {{- '<|im_start|>assistant\n' }}
    {%- if enable_thinking is defined and enable_thinking is false %}
        {{- '<think>\n\n</think>\n\n' }}
    {%- else %}
        {{- '<think>\n\n' }}
    {%- endif %}
{%- endif %}

---
Tokenizing Prompts (num_proc=18):   0%|                                                                       | 0/22912 [00:00<?, ? examples/s]Tokenizing Prompts (num_proc=18):   4%|██▌                                                        | 1000/22912 [00:02<01:04, 341.69 examples/s]Tokenizing Prompts (num_proc=18):   9%|█████▏                                                     | 2000/22912 [00:03<00:28, 744.91 examples/s]Tokenizing Prompts (num_proc=18):  26%|███████████████▏                                          | 6000/22912 [00:03<00:06, 2790.56 examples/s]Tokenizing Prompts (num_proc=18):  35%|████████████████████▎                                     | 8000/22912 [00:03<00:03, 3913.20 examples/s]Tokenizing Prompts (num_proc=18):  43%|████████████████████████▊                                 | 9819/22912 [00:03<00:03, 4052.52 examples/s]Tokenizing Prompts (num_proc=18):  47%|██████████████████████████▉                              | 10819/22912 [00:04<00:02, 4582.71 examples/s]Tokenizing Prompts (num_proc=18):  53%|██████████████████████████████                           | 12092/22912 [00:04<00:01, 5494.48 examples/s]Tokenizing Prompts (num_proc=18):  64%|████████████████████████████████████▍                    | 14638/22912 [00:04<00:01, 6286.27 examples/s]Tokenizing Prompts (num_proc=18):  71%|████████████████████████████████████████▎                | 16184/22912 [00:04<00:00, 6810.51 examples/s]Tokenizing Prompts (num_proc=18):  77%|████████████████████████████████████████████             | 17730/22912 [00:04<00:00, 6967.84 examples/s]Tokenizing Prompts (num_proc=18):  83%|███████████████████████████████████████████████▎         | 19003/22912 [00:05<00:00, 5653.04 examples/s]Tokenizing Prompts (num_proc=18):  87%|█████████████████████████████████████████████████▊       | 20003/22912 [00:05<00:00, 6205.68 examples/s]Tokenizing Prompts (num_proc=18):  91%|███████████████████████████████████████████████████▊     | 20821/22912 [00:05<00:00, 5474.91 examples/s]Tokenizing Prompts (num_proc=18):  95%|██████████████████████████████████████████████████████▎  | 21821/22912 [00:05<00:00, 5020.30 examples/s]Tokenizing Prompts (num_proc=18):  99%|████████████████████████████████████████████████████████▎| 22640/22912 [00:06<00:00, 3836.07 examples/s]Tokenizing Prompts (num_proc=18): 100%|█████████████████████████████████████████████████████████| 22912/22912 [00:06<00:00, 3495.39 examples/s]
[2025-12-23 14:23:23,525] [INFO] [axolotl.utils.data.utils.handle_long_seq_in_dataset:218] [PID:5064] min_input_len: 129
[2025-12-23 14:23:23,526] [INFO] [axolotl.utils.data.utils.handle_long_seq_in_dataset:220] [PID:5064] max_input_len: 888742
Dropping Long Sequences (>4096) (num_proc=18):   0%|                                                          | 0/22912 [00:00<?, ? examples/s]Dropping Long Sequences (>4096) (num_proc=18):   4%|█▉                                           | 1000/22912 [00:00<00:10, 2118.66 examples/s]Dropping Long Sequences (>4096) (num_proc=18):  81%|██████████████████████████████████▊        | 18548/22912 [00:00<00:00, 41203.48 examples/s]Dropping Long Sequences (>4096) (num_proc=18): 100%|███████████████████████████████████████████| 22912/22912 [00:00<00:00, 26903.42 examples/s]
[2025-12-23 14:23:24,416] [WARNING] [axolotl.utils.data.utils.handle_long_seq_in_dataset:260] [PID:5064] Dropped 82 samples from dataset
Saving the dataset (0/18 shards):   0%|                                                                       | 0/22830 [00:00<?, ? examples/s]Saving the dataset (0/18 shards):   6%|███▏                                                      | 1269/22830 [00:00<00:06, 3464.43 examples/s]Saving the dataset (1/18 shards):   6%|███▏                                                      | 1269/22830 [00:00<00:06, 3464.43 examples/s]Saving the dataset (2/18 shards):  11%|██████▍                                                   | 2538/22830 [00:00<00:05, 3464.43 examples/s]Saving the dataset (3/18 shards):  17%|█████████▋                                                | 3807/22830 [00:00<00:05, 3464.43 examples/s]Saving the dataset (4/18 shards):  32%|██████████████████▋                                       | 7344/22830 [00:00<00:04, 3464.43 examples/s]Saving the dataset (5/18 shards):  32%|██████████████████▋                                       | 7344/22830 [00:00<00:04, 3464.43 examples/s]Saving the dataset (6/18 shards):  38%|█████████████████████▉                                    | 8612/22830 [00:00<00:04, 3464.43 examples/s]Saving the dataset (7/18 shards):  39%|██████████████████████▌                                   | 8881/22830 [00:00<00:04, 3464.43 examples/s]Saving the dataset (8/18 shards):  50%|████████████████████████████▌                            | 11417/22830 [00:00<00:03, 3464.43 examples/s]Saving the dataset (9/18 shards):  50%|████████████████████████████▌                            | 11417/22830 [00:00<00:03, 3464.43 examples/s]Saving the dataset (10/18 shards):  56%|███████████████████████████████                         | 12686/22830 [00:00<00:02, 3464.43 examples/s]Saving the dataset (11/18 shards):  61%|██████████████████████████████████▏                     | 13954/22830 [00:00<00:02, 3464.43 examples/s]Saving the dataset (12/18 shards):  72%|████████████████████████████████████████▍               | 16490/22830 [00:00<00:01, 3464.43 examples/s]Saving the dataset (13/18 shards):  72%|████████████████████████████████████████▍               | 16490/22830 [00:00<00:01, 3464.43 examples/s]Saving the dataset (14/18 shards):  78%|███████████████████████████████████████████▌            | 17758/22830 [00:00<00:01, 3464.43 examples/s]Saving the dataset (15/18 shards):  89%|█████████████████████████████████████████████████▊      | 20294/22830 [00:00<00:00, 3464.43 examples/s]Saving the dataset (16/18 shards):  89%|█████████████████████████████████████████████████▊      | 20294/22830 [00:00<00:00, 3464.43 examples/s]Saving the dataset (17/18 shards):  94%|████████████████████████████████████████████████████▉   | 21562/22830 [00:00<00:00, 3464.43 examples/s]Saving the dataset (18/18 shards): 100%|████████████████████████████████████████████████████████| 22830/22830 [00:00<00:00, 3464.43 examples/s]Saving the dataset (18/18 shards): 100%|███████████████████████████████████████████████████████| 22830/22830 [00:00<00:00, 46554.64 examples/s]
[2025-12-23 14:23:25,220] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:404] [PID:5064] total_num_tokens: 8_917_917
[2025-12-23 14:23:25,331] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:422] [PID:5064] `total_supervised_tokens: 5_768_085`
[2025-12-23 14:23:25,332] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:520] [PID:5064] total_num_steps: 7135
[2025-12-23 14:23:25,332] [INFO] [axolotl.utils.data.sft._prepare_standard_dataset:121] [PID:5064] Maximum number of steps set at 7135
[2025-12-23 14:23:25,357] [DEBUG] [axolotl.train.setup_model_and_tokenizer:65] [PID:5064] Loading tokenizer... Qwen/Qwen3-4B-Instruct-2507
[2025-12-23 14:23:25,788] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:278] [PID:5064] EOS: 151645 / <|im_end|>
[2025-12-23 14:23:25,789] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:279] [PID:5064] BOS: None / None
[2025-12-23 14:23:25,789] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:5064] PAD: 151643 / <|endoftext|>
[2025-12-23 14:23:25,790] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:5064] UNK: None / None
[2025-12-23 14:23:25,790] [DEBUG] [axolotl.train.setup_model_and_tokenizer:74] [PID:5064] Loading model
[2025-12-23 14:23:25,846] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_evaluation_loop:87] [PID:5064] Patched Trainer.evaluation_loop with nanmean loss calculation
[2025-12-23 14:23:25,847] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_maybe_log_save_evaluate:138] [PID:5064] Patched Trainer._maybe_log_save_evaluate with nanmean loss calculation
model.safetensors.index.json: 0.00B [00:00, ?B/s]model.safetensors.index.json: 32.8kB [00:00, 102MB/s]
model-00001-of-00003.safetensors:   0%|                                                                            | 0.00/3.96G [00:00<?, ?B/s]model-00001-of-00003.safetensors:   0%|                                                                   | 630k/3.96G [00:00<1:39:50, 661kB/s]model-00001-of-00003.safetensors:   0%|                                                                   | 2.15M/3.96G [00:01<37:26, 1.76MB/s]model-00001-of-00003.safetensors:   3%|██▍                                                                  | 136M/3.96G [00:01<00:30, 124MB/s]model-00001-of-00003.safetensors:   7%|████▋                                                                | 270M/3.96G [00:01<00:15, 238MB/s]model-00001-of-00003.safetensors:   9%|█████▉                                                               | 338M/3.96G [00:02<00:13, 261MB/s]model-00001-of-00003.safetensors:  10%|███████                                                              | 405M/3.96G [00:02<00:13, 260MB/s]model-00001-of-00003.safetensors:  12%|████████▏                                                            | 471M/3.96G [00:02<00:16, 214MB/s]model-00001-of-00003.safetensors:  14%|█████████▍                                                           | 538M/3.96G [00:03<00:15, 223MB/s]model-00001-of-00003.safetensors:  15%|██████████▌                                                          | 605M/3.96G [00:03<00:13, 248MB/s]model-00001-of-00003.safetensors:  17%|███████████▋                                                         | 672M/3.96G [00:03<00:12, 253MB/s]model-00001-of-00003.safetensors:  19%|████████████▉                                                        | 739M/3.96G [00:03<00:12, 258MB/s]model-00001-of-00003.safetensors:  20%|██████████████                                                       | 806M/3.96G [00:04<00:12, 257MB/s]model-00001-of-00003.safetensors:  22%|███████████████▏                                                     | 873M/3.96G [00:04<00:10, 283MB/s]model-00001-of-00003.safetensors:  24%|████████████████▍                                                    | 940M/3.96G [00:04<00:09, 307MB/s]model-00001-of-00003.safetensors:  25%|█████████████████▎                                                  | 1.01G/3.96G [00:04<00:10, 288MB/s]model-00001-of-00003.safetensors:  27%|██████████████████▍                                                 | 1.07G/3.96G [00:04<00:08, 324MB/s]model-00001-of-00003.safetensors:  29%|███████████████████▌                                                | 1.14G/3.96G [00:04<00:08, 337MB/s]model-00001-of-00003.safetensors:  31%|████████████████████▊                                               | 1.21G/3.96G [00:05<00:07, 357MB/s]model-00001-of-00003.safetensors:  32%|█████████████████████▉                                              | 1.28G/3.96G [00:05<00:07, 356MB/s]model-00001-of-00003.safetensors:  34%|███████████████████████                                             | 1.34G/3.96G [00:05<00:07, 352MB/s]model-00001-of-00003.safetensors:  36%|████████████████████████▏                                           | 1.41G/3.96G [00:05<00:07, 354MB/s]model-00001-of-00003.safetensors:  37%|█████████████████████████▍                                          | 1.48G/3.96G [00:05<00:06, 357MB/s]model-00001-of-00003.safetensors:  39%|██████████████████████████▌                                         | 1.54G/3.96G [00:06<00:06, 355MB/s]model-00001-of-00003.safetensors:  41%|███████████████████████████▋                                        | 1.61G/3.96G [00:06<00:06, 362MB/s]model-00001-of-00003.safetensors:  42%|████████████████████████████▊                                       | 1.68G/3.96G [00:06<00:06, 336MB/s]model-00001-of-00003.safetensors:  44%|█████████████████████████████▉                                      | 1.75G/3.96G [00:06<00:07, 316MB/s]model-00001-of-00003.safetensors:  46%|███████████████████████████████▏                                    | 1.81G/3.96G [00:06<00:06, 328MB/s]model-00001-of-00003.safetensors:  47%|████████████████████████████████▎                                   | 1.88G/3.96G [00:07<00:05, 349MB/s]model-00001-of-00003.safetensors:  49%|█████████████████████████████████▍                                  | 1.95G/3.96G [00:07<00:06, 313MB/s]model-00001-of-00003.safetensors:  51%|██████████████████████████████████▌                                 | 2.01G/3.96G [00:07<00:05, 335MB/s]model-00001-of-00003.safetensors:  53%|███████████████████████████████████▋                                | 2.08G/3.96G [00:07<00:05, 362MB/s]model-00001-of-00003.safetensors:  54%|████████████████████████████████████▉                               | 2.15G/3.96G [00:07<00:05, 345MB/s]model-00001-of-00003.safetensors:  56%|██████████████████████████████████████                              | 2.22G/3.96G [00:08<00:07, 247MB/s]model-00001-of-00003.safetensors:  58%|███████████████████████████████████████▏                            | 2.28G/3.96G [00:08<00:06, 271MB/s]model-00001-of-00003.safetensors:  59%|████████████████████████████████████████▎                           | 2.35G/3.96G [00:08<00:05, 274MB/s]model-00001-of-00003.safetensors:  61%|█████████████████████████████████████████▌                          | 2.42G/3.96G [00:09<00:05, 285MB/s]model-00001-of-00003.safetensors:  63%|██████████████████████████████████████████▋                         | 2.48G/3.96G [00:09<00:05, 282MB/s]model-00001-of-00003.safetensors:  64%|███████████████████████████████████████████▊                        | 2.55G/3.96G [00:09<00:04, 297MB/s]model-00001-of-00003.safetensors:  66%|████████████████████████████████████████████▉                       | 2.62G/3.96G [00:09<00:04, 294MB/s]model-00001-of-00003.safetensors:  68%|██████████████████████████████████████████████                      | 2.68G/3.96G [00:09<00:04, 287MB/s]model-00001-of-00003.safetensors:  70%|███████████████████████████████████████████████▎                    | 2.75G/3.96G [00:10<00:04, 285MB/s]model-00001-of-00003.safetensors:  71%|████████████████████████████████████████████████▍                   | 2.82G/3.96G [00:10<00:03, 305MB/s]model-00001-of-00003.safetensors:  73%|█████████████████████████████████████████████████▌                  | 2.88G/3.96G [00:10<00:03, 326MB/s]model-00001-of-00003.safetensors:  75%|██████████████████████████████████████████████████▋                 | 2.95G/3.96G [00:10<00:03, 331MB/s]model-00001-of-00003.safetensors:  76%|███████████████████████████████████████████████████▊                | 3.02G/3.96G [00:10<00:02, 356MB/s]model-00001-of-00003.safetensors:  78%|█████████████████████████████████████████████████████               | 3.09G/3.96G [00:11<00:02, 327MB/s]model-00001-of-00003.safetensors:  80%|██████████████████████████████████████████████████████▏             | 3.15G/3.96G [00:11<00:02, 309MB/s]model-00001-of-00003.safetensors:  81%|███████████████████████████████████████████████████████▎            | 3.22G/3.96G [00:11<00:02, 331MB/s]model-00001-of-00003.safetensors:  83%|████████████████████████████████████████████████████████▍           | 3.29G/3.96G [00:11<00:01, 356MB/s]model-00001-of-00003.safetensors:  85%|█████████████████████████████████████████████████████████▋          | 3.35G/3.96G [00:11<00:01, 326MB/s]model-00001-of-00003.safetensors:  86%|██████████████████████████████████████████████████████████▊         | 3.42G/3.96G [00:12<00:01, 326MB/s]model-00001-of-00003.safetensors:  88%|███████████████████████████████████████████████████████████▉        | 3.49G/3.96G [00:12<00:01, 314MB/s]model-00001-of-00003.safetensors:  90%|█████████████████████████████████████████████████████████████       | 3.56G/3.96G [00:12<00:01, 319MB/s]model-00001-of-00003.safetensors:  92%|██████████████████████████████████████████████████████████████▏     | 3.62G/3.96G [00:12<00:01, 273MB/s]model-00001-of-00003.safetensors:  93%|███████████████████████████████████████████████████████████████▍    | 3.69G/3.96G [00:13<00:00, 290MB/s]model-00001-of-00003.safetensors:  95%|████████████████████████████████████████████████████████████████▌   | 3.76G/3.96G [00:13<00:00, 304MB/s]model-00001-of-00003.safetensors:  97%|█████████████████████████████████████████████████████████████████▋  | 3.82G/3.96G [00:13<00:00, 316MB/s]model-00001-of-00003.safetensors:  98%|██████████████████████████████████████████████████████████████████▊ | 3.89G/3.96G [00:13<00:00, 356MB/s]model-00001-of-00003.safetensors: 100%|████████████████████████████████████████████████████████████████████| 3.96G/3.96G [00:13<00:00, 378MB/s]model-00001-of-00003.safetensors: 100%|████████████████████████████████████████████████████████████████████| 3.96G/3.96G [00:13<00:00, 288MB/s]
model-00002-of-00003.safetensors:   0%|                                                                            | 0.00/3.99G [00:00<?, ?B/s]model-00002-of-00003.safetensors:   0%|                                                                   | 880k/3.99G [00:01<1:21:31, 815kB/s]model-00002-of-00003.safetensors:   2%|█▏                                                                 | 67.9M/3.99G [00:01<01:20, 48.5MB/s]model-00002-of-00003.safetensors:   3%|██▎                                                                 | 137M/3.99G [00:02<00:42, 90.2MB/s]model-00002-of-00003.safetensors:   5%|███▌                                                                 | 204M/3.99G [00:02<00:32, 118MB/s]model-00002-of-00003.safetensors:   7%|████▋                                                                | 271M/3.99G [00:02<00:22, 165MB/s]model-00002-of-00003.safetensors:   8%|█████▊                                                               | 338M/3.99G [00:02<00:19, 188MB/s]model-00002-of-00003.safetensors:  10%|███████                                                              | 405M/3.99G [00:03<00:16, 217MB/s]model-00002-of-00003.safetensors:  12%|████████▏                                                            | 472M/3.99G [00:03<00:14, 246MB/s]model-00002-of-00003.safetensors:  14%|█████████▎                                                           | 539M/3.99G [00:03<00:13, 252MB/s]model-00002-of-00003.safetensors:  15%|██████████▍                                                          | 606M/3.99G [00:03<00:12, 266MB/s]model-00002-of-00003.safetensors:  17%|███████████▋                                                         | 673M/3.99G [00:03<00:11, 293MB/s]model-00002-of-00003.safetensors:  19%|████████████▊                                                        | 740M/3.99G [00:04<00:09, 327MB/s]model-00002-of-00003.safetensors:  20%|█████████████▉                                                       | 807M/3.99G [00:04<00:09, 340MB/s]model-00002-of-00003.safetensors:  22%|███████████████▏                                                     | 874M/3.99G [00:04<00:10, 289MB/s]model-00002-of-00003.safetensors:  24%|████████████████▎                                                    | 941M/3.99G [00:04<00:12, 249MB/s]model-00002-of-00003.safetensors:  25%|█████████████████▏                                                  | 1.01G/3.99G [00:05<00:13, 213MB/s]model-00002-of-00003.safetensors:  27%|██████████████████▎                                                 | 1.07G/3.99G [00:05<00:14, 205MB/s]model-00002-of-00003.safetensors:  29%|███████████████████▍                                                | 1.14G/3.99G [00:05<00:11, 245MB/s]model-00002-of-00003.safetensors:  30%|████████████████████▌                                               | 1.21G/3.99G [00:05<00:10, 272MB/s]model-00002-of-00003.safetensors:  32%|█████████████████████▊                                              | 1.28G/3.99G [00:06<00:10, 266MB/s]model-00002-of-00003.safetensors:  34%|██████████████████████▉                                             | 1.34G/3.99G [00:06<00:09, 266MB/s]model-00002-of-00003.safetensors:  35%|████████████████████████                                            | 1.41G/3.99G [00:06<00:10, 247MB/s]model-00002-of-00003.safetensors:  37%|█████████████████████████▏                                          | 1.48G/3.99G [00:07<00:11, 224MB/s]model-00002-of-00003.safetensors:  39%|██████████████████████████▍                                         | 1.55G/3.99G [00:07<00:11, 216MB/s]model-00002-of-00003.safetensors:  40%|███████████████████████████▌                                        | 1.61G/3.99G [00:07<00:11, 210MB/s]model-00002-of-00003.safetensors:  42%|████████████████████████████▋                                       | 1.68G/3.99G [00:08<00:09, 234MB/s]model-00002-of-00003.safetensors:  44%|█████████████████████████████▊                                      | 1.75G/3.99G [00:08<00:08, 265MB/s]model-00002-of-00003.safetensors:  46%|██████████████████████████████▉                                     | 1.81G/3.99G [00:08<00:07, 304MB/s]model-00002-of-00003.safetensors:  47%|████████████████████████████████                                    | 1.88G/3.99G [00:08<00:06, 301MB/s]model-00002-of-00003.safetensors:  49%|█████████████████████████████████▏                                  | 1.95G/3.99G [00:08<00:06, 317MB/s]model-00002-of-00003.safetensors:  51%|██████████████████████████████████▍                                 | 2.02G/3.99G [00:08<00:05, 345MB/s]model-00002-of-00003.safetensors:  52%|███████████████████████████████████▌                                | 2.08G/3.99G [00:09<00:05, 355MB/s]model-00002-of-00003.safetensors:  54%|████████████████████████████████████▋                               | 2.15G/3.99G [00:09<00:05, 348MB/s]model-00002-of-00003.safetensors:  56%|█████████████████████████████████████▊                              | 2.22G/3.99G [00:09<00:05, 312MB/s]model-00002-of-00003.safetensors:  57%|██████████████████████████████████████▉                             | 2.28G/3.99G [00:09<00:05, 303MB/s]model-00002-of-00003.safetensors:  59%|████████████████████████████████████████                            | 2.35G/3.99G [00:10<00:05, 322MB/s]model-00002-of-00003.safetensors:  61%|█████████████████████████████████████████▏                          | 2.42G/3.99G [00:10<00:04, 321MB/s]model-00002-of-00003.safetensors:  62%|██████████████████████████████████████████▎                         | 2.48G/3.99G [00:10<00:04, 334MB/s]model-00002-of-00003.safetensors:  64%|███████████████████████████████████████████▍                        | 2.55G/3.99G [00:10<00:04, 303MB/s]model-00002-of-00003.safetensors:  66%|████████████████████████████████████████████▋                       | 2.62G/3.99G [00:10<00:04, 302MB/s]model-00002-of-00003.safetensors:  67%|█████████████████████████████████████████████▊                      | 2.68G/3.99G [00:11<00:04, 296MB/s]model-00002-of-00003.safetensors:  69%|██████████████████████████████████████████████▉                     | 2.75G/3.99G [00:11<00:04, 298MB/s]model-00002-of-00003.safetensors:  71%|████████████████████████████████████████████████                    | 2.82G/3.99G [00:11<00:04, 282MB/s]model-00002-of-00003.safetensors:  72%|█████████████████████████████████████████████████▏                  | 2.89G/3.99G [00:11<00:03, 311MB/s]model-00002-of-00003.safetensors:  74%|██████████████████████████████████████████████████▎                 | 2.95G/3.99G [00:11<00:03, 316MB/s]model-00002-of-00003.safetensors:  76%|███████████████████████████████████████████████████▌                | 3.02G/3.99G [00:12<00:02, 326MB/s]model-00002-of-00003.safetensors:  77%|████████████████████████████████████████████████████▋               | 3.09G/3.99G [00:12<00:02, 335MB/s]model-00002-of-00003.safetensors:  79%|█████████████████████████████████████████████████████▊              | 3.15G/3.99G [00:12<00:02, 355MB/s]model-00002-of-00003.safetensors:  81%|██████████████████████████████████████████████████████▉             | 3.22G/3.99G [00:12<00:02, 354MB/s]model-00002-of-00003.safetensors:  82%|████████████████████████████████████████████████████████            | 3.29G/3.99G [00:12<00:01, 378MB/s]model-00002-of-00003.safetensors:  85%|█████████████████████████████████████████████████████████▋          | 3.38G/3.99G [00:13<00:01, 353MB/s]model-00002-of-00003.safetensors:  87%|██████████████████████████████████████████████████████████▊         | 3.45G/3.99G [00:13<00:01, 334MB/s]model-00002-of-00003.safetensors:  88%|███████████████████████████████████████████████████████████▉        | 3.52G/3.99G [00:13<00:01, 314MB/s]model-00002-of-00003.safetensors:  90%|█████████████████████████████████████████████████████████████▏      | 3.59G/3.99G [00:13<00:01, 301MB/s]model-00002-of-00003.safetensors:  92%|██████████████████████████████████████████████████████████████▎     | 3.65G/3.99G [00:14<00:01, 289MB/s]model-00002-of-00003.safetensors:  93%|███████████████████████████████████████████████████████████████▍    | 3.72G/3.99G [00:14<00:00, 305MB/s]model-00002-of-00003.safetensors:  95%|████████████████████████████████████████████████████████████████▌   | 3.79G/3.99G [00:14<00:00, 308MB/s]model-00002-of-00003.safetensors:  97%|█████████████████████████████████████████████████████████████████▋  | 3.85G/3.99G [00:14<00:00, 339MB/s]model-00002-of-00003.safetensors:  98%|██████████████████████████████████████████████████████████████████▊ | 3.92G/3.99G [00:14<00:00, 325MB/s]model-00002-of-00003.safetensors: 100%|████████████████████████████████████████████████████████████████████| 3.99G/3.99G [00:15<00:00, 353MB/s]model-00002-of-00003.safetensors: 100%|████████████████████████████████████████████████████████████████████| 3.99G/3.99G [00:15<00:00, 264MB/s]
model-00003-of-00003.safetensors:   0%|                                                                            | 0.00/99.6M [00:00<?, ?B/s]model-00003-of-00003.safetensors:  33%|█████████████████████▉                                             | 32.6M/99.6M [00:01<00:02, 26.1MB/s]model-00003-of-00003.safetensors: 100%|███████████████████████████████████████████████████████████████████| 99.6M/99.6M [00:01<00:00, 63.2MB/s]model-00003-of-00003.safetensors: 100%|███████████████████████████████████████████████████████████████████| 99.6M/99.6M [00:01<00:00, 55.3MB/s]
Loading checkpoint shards:   0%|                                                                                         | 0/3 [00:00<?, ?it/s]Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 58.11it/s]
generation_config.json:   0%|                                                                                        | 0.00/238 [00:00<?, ?B/s]generation_config.json: 100%|█████████████████████████████████████████████████████████████████████████████████| 238/238 [00:00<00:00, 3.44MB/s]
[2025-12-23 14:23:58,122] [INFO] [axolotl.loaders.model._configure_embedding_dtypes:345] [PID:5064] Converting modules to torch.bfloat16
[2025-12-23 14:23:58,644] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:5064] Memory usage after model load 0.000GB ()
[2025-12-23 14:24:05,044] [INFO] [axolotl.train.save_initial_configs:402] [PID:5064] Pre-saving tokenizer to ./outputs/qwen3-4b-instruct-abd-full-train...
[2025-12-23 14:24:05,280] [INFO] [axolotl.train.save_initial_configs:407] [PID:5064] Pre-saving model config to ./outputs/qwen3-4b-instruct-abd-full-train...
[2025-12-23 14:24:05,288] [INFO] [axolotl.train.execute_training:196] [PID:5064] Starting trainer...
  0%|                                                                                                                 | 0/7135 [00:00<?, ?it/s]  0%|                                                                                                       | 1/7135 [00:04<9:15:47,  4.67s/it]  0%|                                                                                                       | 2/7135 [00:07<7:16:03,  3.67s/it]  0%|                                                                                                       | 3/7135 [00:10<6:35:51,  3.33s/it]  0%|                                                                                                       | 4/7135 [00:13<6:17:10,  3.17s/it]  0%|                                                                                                       | 5/7135 [00:17<6:43:18,  3.39s/it]  0%|                                                                                                       | 6/7135 [00:20<6:30:30,  3.29s/it]  0%|                                                                                                       | 7/7135 [00:24<6:44:06,  3.40s/it]  0%|                                                                                                       | 8/7135 [00:27<6:35:14,  3.33s/it]  0%|▏                                                                                                      | 9/7135 [00:30<6:21:14,  3.21s/it]  0%|▏                                                                                                     | 10/7135 [00:33<6:26:17,  3.25s/it]                                                                                                                                               {'loss': 1.6315, 'grad_norm': 58.0, 'learning_rate': 4.5000000000000003e-07, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 38.56, 'tokens_per_second_per_gpu': 385.89, 'epoch': 0.01}
  0%|▏                                                                                                     | 10/7135 [00:33<6:26:17,  3.25s/it]  0%|▏                                                                                                     | 11/7135 [00:36<6:35:28,  3.33s/it]  0%|▏                                                                                                     | 12/7135 [00:40<6:26:50,  3.26s/it]  0%|▏                                                                                                     | 13/7135 [00:43<6:32:36,  3.31s/it]  0%|▏                                                                                                     | 14/7135 [00:46<6:08:39,  3.11s/it]  0%|▏                                                                                                     | 15/7135 [00:49<6:02:24,  3.05s/it]  0%|▏                                                                                                     | 16/7135 [00:52<6:18:03,  3.19s/it]  0%|▏                                                                                                     | 17/7135 [00:55<6:22:47,  3.23s/it]  0%|▎                                                                                                     | 18/7135 [00:58<6:08:57,  3.11s/it]  0%|▎                                                                                                     | 19/7135 [01:01<5:55:05,  2.99s/it]  0%|▎                                                                                                     | 20/7135 [01:04<6:03:45,  3.07s/it]                                                                                                                                               {'loss': 1.5819, 'grad_norm': 66.5, 'learning_rate': 9.500000000000001e-07, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 38.58, 'tokens_per_second_per_gpu': 423.85, 'epoch': 0.03}
  0%|▎                                                                                                     | 20/7135 [01:04<6:03:45,  3.07s/it]  0%|▎                                                                                                     | 21/7135 [01:08<6:14:12,  3.16s/it]  0%|▎                                                                                                     | 22/7135 [01:10<6:05:45,  3.09s/it]  0%|▎                                                                                                     | 23/7135 [01:13<6:00:46,  3.04s/it]  0%|▎                                                                                                     | 24/7135 [01:17<6:05:50,  3.09s/it]  0%|▎                                                                                                     | 25/7135 [01:19<5:55:23,  3.00s/it]  0%|▎                                                                                                     | 26/7135 [01:23<6:15:45,  3.17s/it]  0%|▍                                                                                                     | 27/7135 [01:26<6:07:57,  3.11s/it]  0%|▍                                                                                                     | 28/7135 [01:29<5:55:25,  3.00s/it]  0%|▍                                                                                                     | 29/7135 [01:32<5:50:37,  2.96s/it]  0%|▍                                                                                                     | 30/7135 [01:35<5:57:49,  3.02s/it]                                                                                                                                               {'loss': 1.4061, 'grad_norm': 33.0, 'learning_rate': 1.45e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 38.58, 'tokens_per_second_per_gpu': 403.97, 'epoch': 0.04}
  0%|▍                                                                                                     | 30/7135 [01:35<5:57:49,  3.02s/it]  0%|▍                                                                                                     | 31/7135 [01:38<5:54:00,  2.99s/it]  0%|▍                                                                                                     | 32/7135 [01:41<6:08:37,  3.11s/it]  0%|▍                                                                                                     | 33/7135 [01:44<5:52:38,  2.98s/it]  0%|▍                                                                                                     | 34/7135 [01:48<6:25:19,  3.26s/it]  0%|▌                                                                                                     | 35/7135 [01:52<6:51:35,  3.48s/it]  1%|▌                                                                                                     | 36/7135 [01:55<6:46:35,  3.44s/it]  1%|▌                                                                                                     | 37/7135 [01:58<6:32:58,  3.32s/it]  1%|▌                                                                                                     | 38/7135 [02:01<6:25:56,  3.26s/it]  1%|▌                                                                                                     | 39/7135 [02:04<6:29:05,  3.29s/it]  1%|▌                                                                                                     | 40/7135 [02:07<6:18:10,  3.20s/it]                                                                                                                                               {'loss': 1.2537, 'grad_norm': 29.5, 'learning_rate': 1.9500000000000004e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 435.63, 'epoch': 0.06}
  1%|▌                                                                                                     | 40/7135 [02:07<6:18:10,  3.20s/it]  1%|▌                                                                                                     | 41/7135 [02:11<6:26:35,  3.27s/it]  1%|▌                                                                                                     | 42/7135 [02:14<6:27:35,  3.28s/it]  1%|▌                                                                                                     | 43/7135 [02:17<6:15:10,  3.17s/it]  1%|▋                                                                                                     | 44/7135 [02:20<6:14:30,  3.17s/it]  1%|▋                                                                                                     | 45/7135 [02:24<6:29:54,  3.30s/it]  1%|▋                                                                                                     | 46/7135 [02:27<6:30:42,  3.31s/it]  1%|▋                                                                                                     | 47/7135 [02:30<6:17:26,  3.20s/it]  1%|▋                                                                                                     | 48/7135 [02:33<6:21:54,  3.23s/it]  1%|▋                                                                                                     | 49/7135 [02:36<5:56:52,  3.02s/it]  1%|▋                                                                                                     | 50/7135 [02:39<5:56:18,  3.02s/it]                                                                                                                                               {'loss': 0.9004, 'grad_norm': 10.375, 'learning_rate': 2.4500000000000003e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 443.28, 'epoch': 0.07}
  1%|▋                                                                                                     | 50/7135 [02:39<5:56:18,  3.02s/it]  1%|▋                                                                                                     | 51/7135 [02:42<6:02:24,  3.07s/it]  1%|▋                                                                                                     | 52/7135 [02:46<6:13:38,  3.17s/it]  1%|▊                                                                                                     | 53/7135 [02:49<6:34:34,  3.34s/it]  1%|▊                                                                                                     | 54/7135 [02:53<6:44:41,  3.43s/it]  1%|▊                                                                                                     | 55/7135 [02:57<6:50:59,  3.48s/it]  1%|▊                                                                                                     | 56/7135 [03:00<6:36:27,  3.36s/it]  1%|▊                                                                                                     | 57/7135 [03:03<6:20:24,  3.22s/it]  1%|▊                                                                                                     | 58/7135 [03:06<6:37:19,  3.37s/it]  1%|▊                                                                                                     | 59/7135 [03:09<6:30:43,  3.31s/it]  1%|▊                                                                                                     | 60/7135 [03:12<6:20:15,  3.22s/it]                                                                                                                                               {'loss': 0.897, 'grad_norm': 11.875, 'learning_rate': 2.95e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 398.22, 'epoch': 0.08}
  1%|▊                                                                                                     | 60/7135 [03:12<6:20:15,  3.22s/it]  1%|▊                                                                                                     | 61/7135 [03:16<6:28:54,  3.30s/it]  1%|▉                                                                                                     | 62/7135 [03:19<6:17:21,  3.20s/it]  1%|▉                                                                                                     | 63/7135 [03:22<6:02:45,  3.08s/it]  1%|▉                                                                                                     | 64/7135 [03:25<6:03:52,  3.09s/it]  1%|▉                                                                                                     | 65/7135 [03:28<6:17:01,  3.20s/it]  1%|▉                                                                                                     | 66/7135 [03:31<6:13:35,  3.17s/it]  1%|▉                                                                                                     | 67/7135 [03:35<6:13:17,  3.17s/it]  1%|▉                                                                                                     | 68/7135 [03:38<6:21:22,  3.24s/it]  1%|▉                                                                                                     | 69/7135 [03:41<6:22:53,  3.25s/it]  1%|█                                                                                                     | 70/7135 [03:44<6:09:49,  3.14s/it]                                                                                                                                               {'loss': 0.8869, 'grad_norm': 8.25, 'learning_rate': 3.45e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 414.68, 'epoch': 0.1}
  1%|█                                                                                                     | 70/7135 [03:44<6:09:49,  3.14s/it]  1%|█                                                                                                     | 71/7135 [03:47<6:00:02,  3.06s/it]  1%|█                                                                                                     | 72/7135 [03:50<6:07:39,  3.12s/it]  1%|█                                                                                                     | 73/7135 [03:53<5:57:06,  3.03s/it]  1%|█                                                                                                     | 74/7135 [03:57<6:16:19,  3.20s/it]  1%|█                                                                                                     | 75/7135 [04:00<6:15:17,  3.19s/it]  1%|█                                                                                                     | 76/7135 [04:03<6:01:42,  3.07s/it]  1%|█                                                                                                     | 77/7135 [04:06<6:17:49,  3.21s/it]  1%|█                                                                                                     | 78/7135 [04:09<6:00:42,  3.07s/it]  1%|█▏                                                                                                    | 79/7135 [04:11<5:43:38,  2.92s/it]  1%|█▏                                                                                                    | 80/7135 [04:15<5:56:36,  3.03s/it]                                                                                                                                               {'loss': 0.8004, 'grad_norm': 5.75, 'learning_rate': 3.95e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 351.2, 'epoch': 0.11}
  1%|█▏                                                                                                    | 80/7135 [04:15<5:56:36,  3.03s/it]  1%|█▏                                                                                                    | 81/7135 [04:18<5:55:39,  3.03s/it]  1%|█▏                                                                                                    | 82/7135 [04:21<5:49:39,  2.97s/it]  1%|█▏                                                                                                    | 83/7135 [04:24<5:59:57,  3.06s/it]  1%|█▏                                                                                                    | 84/7135 [04:27<6:08:04,  3.13s/it]  1%|█▏                                                                                                    | 85/7135 [04:30<5:58:18,  3.05s/it]  1%|█▏                                                                                                    | 86/7135 [04:33<6:06:38,  3.12s/it]  1%|█▏                                                                                                    | 87/7135 [04:37<6:37:41,  3.39s/it]  1%|█▎                                                                                                    | 88/7135 [04:40<6:27:18,  3.30s/it]  1%|█▎                                                                                                    | 89/7135 [04:44<6:20:58,  3.24s/it]  1%|█▎                                                                                                    | 90/7135 [04:47<6:20:01,  3.24s/it]                                                                                                                                               {'loss': 1.0291, 'grad_norm': 6.90625, 'learning_rate': 4.450000000000001e-06, 'memory/max_active (GiB)': 37.46, 'memory/max_allocated (GiB)': 37.46, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 402.57, 'epoch': 0.13}
  1%|█▎                                                                                                    | 90/7135 [04:47<6:20:01,  3.24s/it]  1%|█▎                                                                                                    | 91/7135 [04:50<6:16:35,  3.21s/it]  1%|█▎                                                                                                    | 92/7135 [04:53<6:17:15,  3.21s/it]  1%|█▎                                                                                                    | 93/7135 [04:56<6:13:26,  3.18s/it]  1%|█▎                                                                                                    | 94/7135 [04:59<6:15:35,  3.20s/it]  1%|█▎                                                                                                    | 95/7135 [05:02<5:59:21,  3.06s/it]  1%|█▎                                                                                                    | 96/7135 [05:05<5:49:49,  2.98s/it]  1%|█▍                                                                                                    | 97/7135 [05:08<5:55:42,  3.03s/it]  1%|█▍                                                                                                    | 98/7135 [05:12<6:21:28,  3.25s/it]  1%|█▍                                                                                                    | 99/7135 [05:15<6:21:01,  3.25s/it]  1%|█▍                                                                                                   | 100/7135 [05:18<6:16:29,  3.21s/it]                                                                                                                                               {'loss': 0.7634, 'grad_norm': 4.4375, 'learning_rate': 4.95e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 347.06, 'epoch': 0.14}
  1%|█▍                                                                                                   | 100/7135 [05:18<6:16:29,  3.21s/it]  1%|█▍                                                                                                   | 101/7135 [05:22<6:19:50,  3.24s/it]  1%|█▍                                                                                                   | 102/7135 [05:25<6:23:14,  3.27s/it]  1%|█▍                                                                                                   | 103/7135 [05:28<6:10:49,  3.16s/it]  1%|█▍                                                                                                   | 104/7135 [05:31<6:17:46,  3.22s/it]  1%|█▍                                                                                                   | 105/7135 [05:34<6:14:50,  3.20s/it]  1%|█▌                                                                                                   | 106/7135 [05:37<6:08:08,  3.14s/it]  1%|█▌                                                                                                   | 107/7135 [05:40<5:58:56,  3.06s/it]  2%|█▌                                                                                                   | 108/7135 [05:44<6:08:36,  3.15s/it]  2%|█▌                                                                                                   | 109/7135 [05:47<6:16:11,  3.21s/it]  2%|█▌                                                                                                   | 110/7135 [05:50<6:21:08,  3.26s/it]                                                                                                                                               {'loss': 0.8265, 'grad_norm': 8.0625, 'learning_rate': 4.99997980862061e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 345.76, 'epoch': 0.15}
  2%|█▌                                                                                                   | 110/7135 [05:50<6:21:08,  3.26s/it]  2%|█▌                                                                                                   | 111/7135 [05:53<6:09:40,  3.16s/it]  2%|█▌                                                                                                   | 112/7135 [05:56<6:04:20,  3.11s/it]  2%|█▌                                                                                                   | 113/7135 [05:59<6:08:52,  3.15s/it]  2%|█▌                                                                                                   | 114/7135 [06:03<6:08:04,  3.15s/it]  2%|█▋                                                                                                   | 115/7135 [06:06<6:25:45,  3.30s/it]  2%|█▋                                                                                                   | 116/7135 [06:09<6:13:51,  3.20s/it]  2%|█▋                                                                                                   | 117/7135 [06:12<6:11:51,  3.18s/it]  2%|█▋                                                                                                   | 118/7135 [06:16<6:19:03,  3.24s/it]  2%|█▋                                                                                                   | 119/7135 [06:19<6:12:33,  3.19s/it]  2%|█▋                                                                                                   | 120/7135 [06:22<6:06:32,  3.14s/it]                                                                                                                                               {'loss': 0.7705, 'grad_norm': 4.1875, 'learning_rate': 4.999910011678486e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 413.99, 'epoch': 0.17}
  2%|█▋                                                                                                   | 120/7135 [06:22<6:06:32,  3.14s/it]  2%|█▋                                                                                                   | 121/7135 [06:25<6:17:52,  3.23s/it]  2%|█▋                                                                                                   | 122/7135 [06:28<6:11:18,  3.18s/it]  2%|█▋                                                                                                   | 123/7135 [06:32<6:22:30,  3.27s/it]  2%|█▊                                                                                                   | 124/7135 [06:35<6:09:24,  3.16s/it]  2%|█▊                                                                                                   | 125/7135 [06:38<5:57:20,  3.06s/it]  2%|█▊                                                                                                   | 126/7135 [06:41<6:05:59,  3.13s/it]  2%|█▊                                                                                                   | 127/7135 [06:44<6:00:36,  3.09s/it]  2%|█▊                                                                                                   | 128/7135 [06:47<5:50:31,  3.00s/it]  2%|█▊                                                                                                   | 129/7135 [06:50<5:48:25,  2.98s/it]  2%|█▊                                                                                                   | 130/7135 [06:53<6:08:06,  3.15s/it]                                                                                                                                               {'loss': 0.7998, 'grad_norm': 6.15625, 'learning_rate': 4.999790361288907e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 300.49, 'epoch': 0.18}
  2%|█▊                                                                                                   | 130/7135 [06:53<6:08:06,  3.15s/it]  2%|█▊                                                                                                   | 131/7135 [06:56<6:00:41,  3.09s/it]  2%|█▊                                                                                                   | 132/7135 [07:00<6:24:44,  3.30s/it]  2%|█▉                                                                                                   | 133/7135 [07:03<6:23:14,  3.28s/it]  2%|█▉                                                                                                   | 134/7135 [07:06<6:19:20,  3.25s/it]  2%|█▉                                                                                                   | 135/7135 [07:09<6:09:58,  3.17s/it]  2%|█▉                                                                                                   | 136/7135 [07:13<6:21:44,  3.27s/it]  2%|█▉                                                                                                   | 137/7135 [07:16<6:21:37,  3.27s/it]  2%|█▉                                                                                                   | 138/7135 [07:19<6:18:18,  3.24s/it]  2%|█▉                                                                                                   | 139/7135 [07:23<6:21:12,  3.27s/it]  2%|█▉                                                                                                   | 140/7135 [07:26<6:19:38,  3.26s/it]                                                                                                                                               {'loss': 0.7607, 'grad_norm': 6.53125, 'learning_rate': 4.999620859837952e-06, 'memory/max_active (GiB)': 37.88, 'memory/max_allocated (GiB)': 37.88, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 366.68, 'epoch': 0.2}
  2%|█▉                                                                                                   | 140/7135 [07:26<6:19:38,  3.26s/it]  2%|█▉                                                                                                   | 141/7135 [07:29<6:12:33,  3.20s/it]  2%|██                                                                                                   | 142/7135 [07:32<5:56:38,  3.06s/it]  2%|██                                                                                                   | 143/7135 [07:34<5:47:40,  2.98s/it]  2%|██                                                                                                   | 144/7135 [07:38<5:59:14,  3.08s/it]  2%|██                                                                                                   | 145/7135 [07:41<6:13:23,  3.21s/it]  2%|██                                                                                                   | 146/7135 [07:45<6:22:34,  3.28s/it]  2%|██                                                                                                   | 147/7135 [07:48<6:19:37,  3.26s/it]  2%|██                                                                                                   | 148/7135 [07:51<6:08:57,  3.17s/it]  2%|██                                                                                                   | 149/7135 [07:54<6:01:22,  3.10s/it]  2%|██                                                                                                   | 150/7135 [07:57<6:05:24,  3.14s/it]                                                                                                                                               {'loss': 0.9012, 'grad_norm': 4.5625, 'learning_rate': 4.999401510705834e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 382.48, 'epoch': 0.21}
  2%|██                                                                                                   | 150/7135 [07:57<6:05:24,  3.14s/it]  2%|██▏                                                                                                  | 151/7135 [08:00<6:06:14,  3.15s/it]  2%|██▏                                                                                                  | 152/7135 [08:03<5:58:25,  3.08s/it]  2%|██▏                                                                                                  | 153/7135 [08:06<6:05:11,  3.14s/it]  2%|██▏                                                                                                  | 154/7135 [08:10<6:16:16,  3.23s/it]  2%|██▏                                                                                                  | 155/7135 [08:13<6:08:54,  3.17s/it]  2%|██▏                                                                                                  | 156/7135 [08:16<5:57:33,  3.07s/it]  2%|██▏                                                                                                  | 157/7135 [08:19<6:07:54,  3.16s/it]  2%|██▏                                                                                                  | 158/7135 [08:22<5:50:48,  3.02s/it]  2%|██▎                                                                                                  | 159/7135 [08:25<6:13:29,  3.21s/it]  2%|██▎                                                                                                  | 160/7135 [08:29<6:18:59,  3.26s/it]                                                                                                                                               {'loss': 0.8278, 'grad_norm': 5.6875, 'learning_rate': 4.999132318266835e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 360.71, 'epoch': 0.22}
  2%|██▎                                                                                                  | 160/7135 [08:29<6:18:59,  3.26s/it]  2%|██▎                                                                                                  | 161/7135 [08:32<6:04:25,  3.14s/it]  2%|██▎                                                                                                  | 162/7135 [08:35<6:16:29,  3.24s/it]  2%|██▎                                                                                                  | 163/7135 [08:39<6:36:00,  3.41s/it]  2%|██▎                                                                                                  | 164/7135 [08:42<6:26:54,  3.33s/it]  2%|██▎                                                                                                  | 165/7135 [08:45<6:23:35,  3.30s/it]  2%|██▎                                                                                                  | 166/7135 [08:48<6:04:04,  3.13s/it]  2%|██▎                                                                                                  | 167/7135 [08:51<5:54:42,  3.05s/it]  2%|██▍                                                                                                  | 168/7135 [08:54<5:55:36,  3.06s/it]  2%|██▍                                                                                                  | 169/7135 [08:57<5:58:47,  3.09s/it]  2%|██▍                                                                                                  | 170/7135 [09:00<5:51:45,  3.03s/it]                                                                                                                                               {'loss': 0.819, 'grad_norm': 5.96875, 'learning_rate': 4.998813287889218e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 362.19, 'epoch': 0.24}
  2%|██▍                                                                                                  | 170/7135 [09:00<5:51:45,  3.03s/it]  2%|██▍                                                                                                  | 171/7135 [09:03<5:52:07,  3.03s/it]  2%|██▍                                                                                                  | 172/7135 [09:07<6:14:28,  3.23s/it]  2%|██▍                                                                                                  | 173/7135 [09:10<6:27:15,  3.34s/it]  2%|██▍                                                                                                  | 174/7135 [09:14<6:34:00,  3.40s/it]  2%|██▍                                                                                                  | 175/7135 [09:17<6:25:47,  3.33s/it]  2%|██▍                                                                                                  | 176/7135 [09:20<6:04:35,  3.14s/it]  2%|██▌                                                                                                  | 177/7135 [09:23<6:12:42,  3.21s/it]  2%|██▌                                                                                                  | 178/7135 [09:26<6:03:26,  3.13s/it]  3%|██▌                                                                                                  | 179/7135 [09:29<6:09:56,  3.19s/it]  3%|██▌                                                                                                  | 180/7135 [09:34<6:48:23,  3.52s/it]                                                                                                                                               {'loss': 0.9741, 'grad_norm': 3.359375, 'learning_rate': 4.998444425935116e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 394.37, 'epoch': 0.25}
  3%|██▌                                                                                                  | 180/7135 [09:34<6:48:23,  3.52s/it]  3%|██▌                                                                                                  | 181/7135 [09:37<6:32:33,  3.39s/it]  3%|██▌                                                                                                  | 182/7135 [09:40<6:35:30,  3.41s/it]  3%|██▌                                                                                                  | 183/7135 [09:43<6:21:31,  3.29s/it]  3%|██▌                                                                                                  | 184/7135 [09:47<6:32:06,  3.38s/it]  3%|██▌                                                                                                  | 185/7135 [09:51<6:45:35,  3.50s/it]  3%|██▋                                                                                                  | 186/7135 [09:54<6:36:53,  3.43s/it]  3%|██▋                                                                                                  | 187/7135 [09:57<6:34:12,  3.40s/it]  3%|██▋                                                                                                  | 188/7135 [10:00<6:19:45,  3.28s/it]  3%|██▋                                                                                                  | 189/7135 [10:03<6:04:47,  3.15s/it]  3%|██▋                                                                                                  | 190/7135 [10:06<6:04:21,  3.15s/it]                                                                                                                                               {'loss': 0.8125, 'grad_norm': 5.03125, 'learning_rate': 4.998025739760412e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 372.8, 'epoch': 0.27}
  3%|██▋                                                                                                  | 190/7135 [10:06<6:04:21,  3.15s/it]  3%|██▋                                                                                                  | 191/7135 [10:09<5:57:12,  3.09s/it]  3%|██▋                                                                                                  | 192/7135 [10:12<5:52:18,  3.04s/it]  3%|██▋                                                                                                  | 193/7135 [10:15<5:58:09,  3.10s/it]  3%|██▋                                                                                                  | 194/7135 [10:19<6:17:59,  3.27s/it]  3%|██▊                                                                                                  | 195/7135 [10:22<6:14:05,  3.23s/it]  3%|██▊                                                                                                  | 196/7135 [10:25<6:06:29,  3.17s/it]  3%|██▊                                                                                                  | 197/7135 [10:29<6:35:30,  3.42s/it]  3%|██▊                                                                                                  | 198/7135 [10:32<6:18:29,  3.27s/it]  3%|██▊                                                                                                  | 199/7135 [10:35<6:04:07,  3.15s/it]  3%|██▊                                                                                                  | 200/7135 [10:38<5:53:48,  3.06s/it]                                                                                                                                               {'loss': 0.9025, 'grad_norm': 5.375, 'learning_rate': 4.997557237714584e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 436.89, 'epoch': 0.28}
  3%|██▊                                                                                                  | 200/7135 [10:38<5:53:48,  3.06s/it]  3%|██▊                                                                                                  | 201/7135 [10:41<5:55:37,  3.08s/it]  3%|██▊                                                                                                  | 202/7135 [10:44<5:50:19,  3.03s/it]  3%|██▊                                                                                                  | 203/7135 [10:47<5:45:34,  2.99s/it]  3%|██▉                                                                                                  | 204/7135 [10:50<5:48:08,  3.01s/it]  3%|██▉                                                                                                  | 205/7135 [10:53<5:50:47,  3.04s/it]  3%|██▉                                                                                                  | 206/7135 [10:56<5:45:43,  2.99s/it]  3%|██▉                                                                                                  | 207/7135 [10:59<5:55:52,  3.08s/it]  3%|██▉                                                                                                  | 208/7135 [11:02<5:47:35,  3.01s/it]  3%|██▉                                                                                                  | 209/7135 [11:05<5:53:31,  3.06s/it]  3%|██▉                                                                                                  | 210/7135 [11:08<5:43:50,  2.98s/it]                                                                                                                                               {'loss': 0.8003, 'grad_norm': 4.96875, 'learning_rate': 4.997038929140546e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 46.08, 'tokens_per_second_per_gpu': 408.06, 'epoch': 0.29}
  3%|██▉                                                                                                  | 210/7135 [11:08<5:43:50,  2.98s/it]  3%|██▉                                                                                                  | 211/7135 [11:11<5:46:25,  3.00s/it]  3%|███                                                                                                  | 212/7135 [11:14<5:56:19,  3.09s/it]  3%|███                                                                                                  | 213/7135 [11:17<5:47:42,  3.01s/it]  3%|███                                                                                                  | 214/7135 [11:20<5:43:29,  2.98s/it]  3%|███                                                                                                  | 215/7135 [11:24<6:29:42,  3.38s/it]  3%|███                                                                                                  | 216/7135 [11:28<6:47:36,  3.53s/it]  3%|███                                                                                                  | 217/7135 [11:31<6:33:27,  3.41s/it]  3%|███                                                                                                  | 218/7135 [11:35<6:33:20,  3.41s/it]  3%|███                                                                                                  | 219/7135 [11:38<6:22:29,  3.32s/it]  3%|███                                                                                                  | 220/7135 [11:41<6:09:27,  3.21s/it]                                                                                                                                               {'loss': 0.9031, 'grad_norm': 3.9375, 'learning_rate': 4.996470824374458e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 48.02, 'tokens_per_second_per_gpu': 467.08, 'epoch': 0.31}
  3%|███                                                                                                  | 220/7135 [11:41<6:09:27,  3.21s/it]  3%|███▏                                                                                                 | 221/7135 [11:44<5:56:39,  3.10s/it]  3%|███▏                                                                                                 | 222/7135 [11:47<5:51:07,  3.05s/it]  3%|███▏                                                                                                 | 223/7135 [11:50<5:57:22,  3.10s/it]  3%|███▏                                                                                                 | 224/7135 [11:53<6:02:11,  3.14s/it]  3%|███▏                                                                                                 | 225/7135 [11:56<5:58:25,  3.11s/it]  3%|███▏                                                                                                 | 226/7135 [11:59<6:04:04,  3.16s/it]  3%|███▏                                                                                                 | 227/7135 [12:03<6:04:21,  3.16s/it]  3%|███▏                                                                                                 | 228/7135 [12:05<5:57:43,  3.11s/it]  3%|███▏                                                                                                 | 229/7135 [12:09<6:09:00,  3.21s/it]  3%|███▎                                                                                                 | 230/7135 [12:12<6:07:20,  3.19s/it]                                                                                                                                               {'loss': 0.9026, 'grad_norm': 5.6875, 'learning_rate': 4.995852934745522e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 48.02, 'tokens_per_second_per_gpu': 405.26, 'epoch': 0.32}
  3%|███▎                                                                                                 | 230/7135 [12:12<6:07:20,  3.19s/it]  3%|███▎                                                                                                 | 231/7135 [12:15<6:04:20,  3.17s/it]  3%|███▎                                                                                                 | 232/7135 [12:19<6:18:25,  3.29s/it]  3%|███▎                                                                                                 | 233/7135 [12:22<6:33:42,  3.42s/it]  3%|███▎                                                                                                 | 234/7135 [12:26<6:37:36,  3.46s/it]  3%|███▎                                                                                                 | 235/7135 [12:30<6:48:06,  3.55s/it]  3%|███▎                                                                                                 | 236/7135 [12:33<6:49:34,  3.56s/it]  3%|███▎                                                                                                 | 237/7135 [12:36<6:31:51,  3.41s/it]  3%|███▎                                                                                                 | 238/7135 [12:40<6:21:28,  3.32s/it]  3%|███▍                                                                                                 | 239/7135 [12:43<6:26:32,  3.36s/it]  3%|███▍                                                                                                 | 240/7135 [12:46<6:05:01,  3.18s/it]                                                                                                                                               {'loss': 0.7622, 'grad_norm': 3.515625, 'learning_rate': 4.995185272575749e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 48.02, 'tokens_per_second_per_gpu': 502.29, 'epoch': 0.34}
  3%|███▍                                                                                                 | 240/7135 [12:46<6:05:01,  3.18s/it]  3%|███▍                                                                                                 | 241/7135 [12:49<6:01:58,  3.15s/it]  3%|███▍                                                                                                 | 242/7135 [12:52<6:12:20,  3.24s/it]  3%|███▍                                                                                                 | 243/7135 [12:56<6:17:36,  3.29s/it]  3%|███▍                                                                                                 | 244/7135 [12:59<6:09:41,  3.22s/it]  3%|███▍                                                                                                 | 245/7135 [13:02<6:00:45,  3.14s/it]  3%|███▍                                                                                                 | 246/7135 [13:04<5:44:11,  3.00s/it]  3%|███▍                                                                                                 | 247/7135 [13:08<5:51:28,  3.06s/it]  3%|███▌                                                                                                 | 248/7135 [13:11<6:19:03,  3.30s/it]  3%|███▌                                                                                                 | 249/7135 [13:14<6:07:49,  3.20s/it]  4%|███▌                                                                                                 | 250/7135 [13:18<6:12:43,  3.25s/it]                                                                                                                                               {'loss': 0.7486, 'grad_norm': 7.40625, 'learning_rate': 4.994467851179725e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 48.02, 'tokens_per_second_per_gpu': 347.89, 'epoch': 0.35}
  4%|███▌                                                                                                 | 250/7135 [13:18<6:12:43,  3.25s/it]  4%|███▌                                                                                                 | 251/7135 [13:21<6:16:53,  3.28s/it]  4%|███▌                                                                                                 | 252/7135 [13:25<6:43:49,  3.52s/it]  4%|███▌                                                                                                 | 253/7135 [13:28<6:35:49,  3.45s/it]  4%|███▌                                                                                                 | 254/7135 [13:32<6:32:29,  3.42s/it]  4%|███▌                                                                                                 | 255/7135 [13:35<6:09:43,  3.22s/it]  4%|███▌                                                                                                 | 256/7135 [13:38<6:03:26,  3.17s/it]  4%|███▋                                                                                                 | 257/7135 [13:41<5:52:21,  3.07s/it]  4%|███▋                                                                                                 | 258/7135 [13:44<6:07:21,  3.21s/it]  4%|███▋                                                                                                 | 259/7135 [13:47<5:55:05,  3.10s/it]  4%|███▋                                                                                                 | 260/7135 [13:50<5:47:32,  3.03s/it]                                                                                                                                               {'loss': 0.838, 'grad_norm': 5.53125, 'learning_rate': 4.993700684864336e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 48.02, 'tokens_per_second_per_gpu': 456.67, 'epoch': 0.36}
  4%|███▋                                                                                                 | 260/7135 [13:50<5:47:32,  3.03s/it]  4%|███▋                                                                                                 | 261/7135 [13:53<5:53:16,  3.08s/it]  4%|███▋                                                                                                 | 262/7135 [13:56<6:00:32,  3.15s/it]  4%|███▋                                                                                                 | 263/7135 [13:59<5:59:06,  3.14s/it]  4%|███▋                                                                                                 | 264/7135 [14:03<6:04:19,  3.18s/it]  4%|███▊                                                                                                 | 265/7135 [14:07<6:34:38,  3.45s/it]  4%|███▊                                                                                                 | 266/7135 [14:10<6:18:27,  3.31s/it]  4%|███▊                                                                                                 | 267/7135 [14:12<6:01:00,  3.15s/it]  4%|███▊                                                                                                 | 268/7135 [14:15<5:54:00,  3.09s/it]  4%|███▊                                                                                                 | 269/7135 [14:19<6:07:34,  3.21s/it]  4%|███▊                                                                                                 | 270/7135 [14:22<6:00:24,  3.15s/it]                                                                                                                                               {'loss': 0.9177, 'grad_norm': 3.796875, 'learning_rate': 4.992883788928487e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 48.02, 'tokens_per_second_per_gpu': 382.47, 'epoch': 0.38}
  4%|███▊                                                                                                 | 270/7135 [14:22<6:00:24,  3.15s/it]  4%|███▊                                                                                                 | 271/7135 [14:25<5:50:02,  3.06s/it]  4%|███▊                                                                                                 | 272/7135 [14:28<5:47:57,  3.04s/it]  4%|███▊                                                                                                 | 273/7135 [14:31<5:44:43,  3.01s/it]  4%|███▉                                                                                                 | 274/7135 [14:34<6:00:43,  3.15s/it]  4%|███▉                                                                                                 | 275/7135 [14:38<6:13:13,  3.26s/it]  4%|███▉                                                                                                 | 276/7135 [14:41<6:04:35,  3.19s/it]  4%|███▉                                                                                                 | 277/7135 [14:43<5:48:02,  3.04s/it]  4%|███▉                                                                                                 | 278/7135 [14:46<5:45:39,  3.02s/it]  4%|███▉                                                                                                 | 279/7135 [14:50<5:53:39,  3.09s/it]  4%|███▉                                                                                                 | 280/7135 [14:53<6:12:39,  3.26s/it]                                                                                                                                               {'loss': 0.8917, 'grad_norm': 3.125, 'learning_rate': 4.992017179662797e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 48.02, 'tokens_per_second_per_gpu': 352.84, 'epoch': 0.39}
  4%|███▉                                                                                                 | 280/7135 [14:53<6:12:39,  3.26s/it]  4%|███▉                                                                                                 | 281/7135 [14:56<6:03:08,  3.18s/it]  4%|███▉                                                                                                 | 282/7135 [14:59<6:00:47,  3.16s/it]  4%|████                                                                                                 | 283/7135 [15:03<6:00:47,  3.16s/it]  4%|████                                                                                                 | 284/7135 [15:06<6:05:06,  3.20s/it]  4%|████                                                                                                 | 285/7135 [15:09<5:51:55,  3.08s/it]  4%|████                                                                                                 | 286/7135 [15:12<5:48:11,  3.05s/it]  4%|████                                                                                                 | 287/7135 [15:16<6:23:01,  3.36s/it]  4%|████                                                                                                 | 288/7135 [15:19<6:36:02,  3.47s/it]  4%|████                                                                                                 | 289/7135 [15:23<6:25:54,  3.38s/it]  4%|████                                                                                                 | 290/7135 [15:26<6:11:36,  3.26s/it]                                                                                                                                               {'loss': 0.9461, 'grad_norm': 5.3125, 'learning_rate': 4.9911008743492714e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 544.76, 'epoch': 0.41}
  4%|████                                                                                                 | 290/7135 [15:26<6:11:36,  3.26s/it]  4%|████                                                                                                 | 291/7135 [15:29<5:58:35,  3.14s/it]  4%|████▏                                                                                                | 292/7135 [15:32<6:01:23,  3.17s/it]  4%|████▏                                                                                                | 293/7135 [15:35<6:09:50,  3.24s/it]  4%|████▏                                                                                                | 294/7135 [15:38<6:09:56,  3.24s/it]  4%|████▏                                                                                                | 295/7135 [15:41<6:01:29,  3.17s/it]  4%|████▏                                                                                                | 296/7135 [15:45<6:04:59,  3.20s/it]  4%|████▏                                                                                                | 297/7135 [15:48<6:13:28,  3.28s/it]  4%|████▏                                                                                                | 298/7135 [15:52<6:19:52,  3.33s/it]  4%|████▏                                                                                                | 299/7135 [15:55<6:05:47,  3.21s/it]  4%|████▏                                                                                                | 300/7135 [15:58<6:17:23,  3.31s/it]                                                                                                                                               {'loss': 0.8306, 'grad_norm': 5.03125, 'learning_rate': 4.9901348912609585e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 345.23, 'epoch': 0.42}
  4%|████▏                                                                                                | 300/7135 [15:58<6:17:23,  3.31s/it]  4%|████▎                                                                                                | 301/7135 [16:01<6:12:29,  3.27s/it]  4%|████▎                                                                                                | 302/7135 [16:05<6:13:33,  3.28s/it]  4%|████▎                                                                                                | 303/7135 [16:08<6:08:13,  3.23s/it]  4%|████▎                                                                                                | 304/7135 [16:11<6:06:16,  3.22s/it]  4%|████▎                                                                                                | 305/7135 [16:15<6:39:42,  3.51s/it]  4%|████▎                                                                                                | 306/7135 [16:18<6:25:58,  3.39s/it]  4%|████▎                                                                                                | 307/7135 [16:21<6:04:19,  3.20s/it]  4%|████▎                                                                                                | 308/7135 [16:24<6:09:19,  3.25s/it]  4%|████▎                                                                                                | 309/7135 [16:28<6:31:38,  3.44s/it]  4%|████▍                                                                                                | 310/7135 [16:31<6:12:51,  3.28s/it]                                                                                                                                               {'loss': 0.8082, 'grad_norm': 4.625, 'learning_rate': 4.989119249661587e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 429.8, 'epoch': 0.43}
  4%|████▍                                                                                                | 310/7135 [16:31<6:12:51,  3.28s/it]  4%|████▍                                                                                                | 311/7135 [16:34<6:09:31,  3.25s/it]  4%|████▍                                                                                                | 312/7135 [16:37<6:07:11,  3.23s/it]  4%|████▍                                                                                                | 313/7135 [16:41<6:07:29,  3.23s/it]  4%|████▍                                                                                                | 314/7135 [16:45<6:50:35,  3.61s/it]  4%|████▍                                                                                                | 315/7135 [16:49<7:13:04,  3.81s/it]  4%|████▍                                                                                                | 316/7135 [16:53<6:51:06,  3.62s/it]  4%|████▍                                                                                                | 317/7135 [16:57<7:07:58,  3.77s/it]  4%|████▌                                                                                                | 318/7135 [17:00<6:54:15,  3.65s/it]  4%|████▌                                                                                                | 319/7135 [17:03<6:32:50,  3.46s/it]  4%|████▌                                                                                                | 320/7135 [17:06<6:23:17,  3.37s/it]                                                                                                                                               {'loss': 0.7094, 'grad_norm': 4.40625, 'learning_rate': 4.988053969805181e-06, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 538.69, 'epoch': 0.45}
  4%|████▌                                                                                                | 320/7135 [17:06<6:23:17,  3.37s/it]  4%|████▌                                                                                                | 321/7135 [17:09<6:07:56,  3.24s/it]  5%|████▌                                                                                                | 322/7135 [17:12<5:50:38,  3.09s/it]  5%|████▌                                                                                                | 323/7135 [17:15<5:55:03,  3.13s/it]  5%|████▌                                                                                                | 324/7135 [17:18<5:57:29,  3.15s/it]  5%|████▌                                                                                                | 325/7135 [17:21<5:56:40,  3.14s/it]  5%|████▌                                                                                                | 326/7135 [17:25<6:08:04,  3.24s/it]  5%|████▋                                                                                                | 327/7135 [17:28<6:15:55,  3.31s/it]  5%|████▋                                                                                                | 328/7135 [17:31<5:52:22,  3.11s/it]  5%|████▋                                                                                                | 329/7135 [17:34<5:34:54,  2.95s/it]  5%|████▋                                                                                                | 330/7135 [17:37<5:56:25,  3.14s/it]                                                                                                                                               {'loss': 0.8658, 'grad_norm': 1.9375, 'learning_rate': 4.986939072935653e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 357.87, 'epoch': 0.46}
  5%|████▋                                                                                                | 330/7135 [17:37<5:56:25,  3.14s/it]  5%|████▋                                                                                                | 331/7135 [17:40<5:50:44,  3.09s/it]  5%|████▋                                                                                                | 332/7135 [17:43<5:42:36,  3.02s/it]  5%|████▋                                                                                                | 333/7135 [17:46<5:48:10,  3.07s/it]  5%|████▋                                                                                                | 334/7135 [17:49<5:40:51,  3.01s/it]  5%|████▋                                                                                                | 335/7135 [17:52<5:44:34,  3.04s/it]  5%|████▊                                                                                                | 336/7135 [17:55<5:49:06,  3.08s/it]  5%|████▊                                                                                                | 337/7135 [17:59<6:06:39,  3.24s/it]  5%|████▊                                                                                                | 338/7135 [18:02<5:58:43,  3.17s/it]  5%|████▊                                                                                                | 339/7135 [18:05<5:57:48,  3.16s/it]  5%|████▊                                                                                                | 340/7135 [18:09<6:26:46,  3.42s/it]                                                                                                                                               {'loss': 1.0454, 'grad_norm': 3.8125, 'learning_rate': 4.985774581286386e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 338.8, 'epoch': 0.48}
  5%|████▊                                                                                                | 340/7135 [18:09<6:26:46,  3.42s/it]  5%|████▊                                                                                                | 341/7135 [18:12<6:18:03,  3.34s/it]  5%|████▊                                                                                                | 342/7135 [18:16<6:22:33,  3.38s/it]  5%|████▊                                                                                                | 343/7135 [18:19<6:33:17,  3.47s/it]  5%|████▊                                                                                                | 344/7135 [18:23<6:21:30,  3.37s/it]  5%|████▉                                                                                                | 345/7135 [18:26<6:08:55,  3.26s/it]  5%|████▉                                                                                                | 346/7135 [18:29<6:16:02,  3.32s/it]  5%|████▉                                                                                                | 347/7135 [18:32<6:04:43,  3.22s/it]  5%|████▉                                                                                                | 348/7135 [18:35<5:59:36,  3.18s/it]  5%|████▉                                                                                                | 349/7135 [18:38<6:02:37,  3.21s/it]  5%|████▉                                                                                                | 350/7135 [18:41<5:44:06,  3.04s/it]                                                                                                                                               {'loss': 0.7805, 'grad_norm': 3.9375, 'learning_rate': 4.984560518079783e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 421.85, 'epoch': 0.49}
  5%|████▉                                                                                                | 350/7135 [18:41<5:44:06,  3.04s/it]  5%|████▉                                                                                                | 351/7135 [18:45<6:03:48,  3.22s/it]  5%|████▉                                                                                                | 352/7135 [18:48<6:11:56,  3.29s/it]  5%|████▉                                                                                                | 353/7135 [18:51<6:07:10,  3.25s/it]  5%|█████                                                                                                | 354/7135 [18:54<6:01:46,  3.20s/it]  5%|█████                                                                                                | 355/7135 [18:58<5:58:40,  3.17s/it]  5%|█████                                                                                                | 356/7135 [19:01<5:59:10,  3.18s/it]  5%|█████                                                                                                | 357/7135 [19:04<5:51:32,  3.11s/it]  5%|█████                                                                                                | 358/7135 [19:07<6:00:23,  3.19s/it]  5%|█████                                                                                                | 359/7135 [19:10<6:08:41,  3.26s/it]  5%|█████                                                                                                | 360/7135 [19:14<6:09:07,  3.27s/it]                                                                                                                                               {'loss': 0.8953, 'grad_norm': 4.0625, 'learning_rate': 4.983296907526811e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 351.21, 'epoch': 0.5}
  5%|█████                                                                                                | 360/7135 [19:14<6:09:07,  3.27s/it]  5%|█████                                                                                                | 361/7135 [19:17<5:54:57,  3.14s/it]  5%|█████                                                                                                | 362/7135 [19:20<5:59:34,  3.19s/it]  5%|█████▏                                                                                               | 363/7135 [19:23<6:01:30,  3.20s/it]  5%|█████▏                                                                                               | 364/7135 [19:26<5:59:49,  3.19s/it]  5%|█████▏                                                                                               | 365/7135 [19:30<6:15:13,  3.33s/it]  5%|█████▏                                                                                               | 366/7135 [19:33<6:15:07,  3.33s/it]  5%|█████▏                                                                                               | 367/7135 [19:36<6:10:23,  3.28s/it]  5%|█████▏                                                                                               | 368/7135 [19:39<6:01:07,  3.20s/it]  5%|█████▏                                                                                               | 369/7135 [19:43<6:09:24,  3.28s/it]  5%|█████▏                                                                                               | 370/7135 [19:46<6:04:24,  3.23s/it]                                                                                                                                               {'loss': 0.8898, 'grad_norm': 4.875, 'learning_rate': 4.981983774826516e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 358.77, 'epoch': 0.52}
  5%|█████▏                                                                                               | 370/7135 [19:46<6:04:24,  3.23s/it]  5%|█████▎                                                                                               | 371/7135 [19:49<5:58:47,  3.18s/it]  5%|█████▎                                                                                               | 372/7135 [19:52<6:00:25,  3.20s/it]  5%|█████▎                                                                                               | 373/7135 [19:55<5:57:11,  3.17s/it]  5%|█████▎                                                                                               | 374/7135 [19:58<5:41:41,  3.03s/it]  5%|█████▎                                                                                               | 375/7135 [20:01<5:28:55,  2.92s/it]  5%|█████▎                                                                                               | 376/7135 [20:04<5:47:42,  3.09s/it]  5%|█████▎                                                                                               | 377/7135 [20:07<5:40:33,  3.02s/it]  5%|█████▎                                                                                               | 378/7135 [20:10<5:38:40,  3.01s/it]  5%|█████▎                                                                                               | 379/7135 [20:13<5:47:05,  3.08s/it]  5%|█████▍                                                                                               | 380/7135 [20:17<5:53:57,  3.14s/it]                                                                                                                                               {'loss': 0.779, 'grad_norm': 4.0625, 'learning_rate': 4.980621146165514e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 375.02, 'epoch': 0.53}
  5%|█████▍                                                                                               | 380/7135 [20:17<5:53:57,  3.14s/it]  5%|█████▍                                                                                               | 381/7135 [20:20<6:01:48,  3.21s/it]  5%|█████▍                                                                                               | 382/7135 [20:23<5:49:34,  3.11s/it]  5%|█████▍                                                                                               | 383/7135 [20:26<5:44:55,  3.07s/it]  5%|█████▍                                                                                               | 384/7135 [20:29<5:48:26,  3.10s/it]  5%|█████▍                                                                                               | 385/7135 [20:32<5:53:49,  3.15s/it]  5%|█████▍                                                                                               | 386/7135 [20:36<5:59:42,  3.20s/it]  5%|█████▍                                                                                               | 387/7135 [20:39<5:49:48,  3.11s/it]  5%|█████▍                                                                                               | 388/7135 [20:42<5:59:55,  3.20s/it]  5%|█████▌                                                                                               | 389/7135 [20:45<5:56:14,  3.17s/it]  5%|█████▌                                                                                               | 390/7135 [20:48<5:47:45,  3.09s/it]                                                                                                                                               {'loss': 0.8148, 'grad_norm': 6.71875, 'learning_rate': 4.97920904871748e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 399.36, 'epoch': 0.55}
  5%|█████▌                                                                                               | 390/7135 [20:48<5:47:45,  3.09s/it]  5%|█████▌                                                                                               | 391/7135 [20:51<5:59:41,  3.20s/it]  5%|█████▌                                                                                               | 392/7135 [20:55<6:22:16,  3.40s/it]  6%|█████▌                                                                                               | 393/7135 [20:58<6:14:03,  3.33s/it]  6%|█████▌                                                                                               | 394/7135 [21:02<6:17:04,  3.36s/it]  6%|█████▌                                                                                               | 395/7135 [21:05<6:14:59,  3.34s/it]  6%|█████▌                                                                                               | 396/7135 [21:09<6:20:22,  3.39s/it]  6%|█████▌                                                                                               | 397/7135 [21:12<6:13:21,  3.32s/it]  6%|█████▋                                                                                               | 398/7135 [21:15<6:11:10,  3.31s/it]  6%|█████▋                                                                                               | 399/7135 [21:18<5:58:24,  3.19s/it]  6%|█████▋                                                                                               | 400/7135 [21:21<5:39:43,  3.03s/it]                                                                                                                                               {'loss': 1.0806, 'grad_norm': 5.59375, 'learning_rate': 4.977747510642597e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 549.15, 'epoch': 0.56}
  6%|█████▋                                                                                               | 400/7135 [21:21<5:39:43,  3.03s/it]  6%|█████▋                                                                                               | 401/7135 [21:24<5:38:05,  3.01s/it]  6%|█████▋                                                                                               | 402/7135 [21:26<5:32:13,  2.96s/it]  6%|█████▋                                                                                               | 403/7135 [21:30<5:48:34,  3.11s/it]  6%|█████▋                                                                                               | 404/7135 [21:33<5:43:51,  3.07s/it]  6%|█████▋                                                                                               | 405/7135 [21:37<6:03:29,  3.24s/it]  6%|█████▋                                                                                               | 406/7135 [21:39<5:45:48,  3.08s/it]  6%|█████▊                                                                                               | 407/7135 [21:43<5:50:36,  3.13s/it]  6%|█████▊                                                                                               | 408/7135 [21:46<5:59:55,  3.21s/it]  6%|█████▊                                                                                               | 409/7135 [21:49<5:56:03,  3.18s/it]  6%|█████▊                                                                                               | 410/7135 [21:52<5:56:53,  3.18s/it]                                                                                                                                               {'loss': 0.764, 'grad_norm': 5.0625, 'learning_rate': 4.976236561086999e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 360.15, 'epoch': 0.57}
  6%|█████▊                                                                                               | 410/7135 [21:52<5:56:53,  3.18s/it]  6%|█████▊                                                                                               | 411/7135 [21:56<6:16:10,  3.36s/it]  6%|█████▊                                                                                               | 412/7135 [21:59<6:02:14,  3.23s/it]  6%|█████▊                                                                                               | 413/7135 [22:02<6:09:50,  3.30s/it]  6%|█████▊                                                                                               | 414/7135 [22:06<6:11:25,  3.32s/it]  6%|█████▊                                                                                               | 415/7135 [22:09<6:07:13,  3.28s/it]  6%|█████▉                                                                                               | 416/7135 [22:12<5:49:38,  3.12s/it]  6%|█████▉                                                                                               | 417/7135 [22:15<6:10:31,  3.31s/it]  6%|█████▉                                                                                               | 418/7135 [22:18<5:53:43,  3.16s/it]  6%|█████▉                                                                                               | 419/7135 [22:21<5:45:12,  3.08s/it]  6%|█████▉                                                                                               | 420/7135 [22:24<5:45:25,  3.09s/it]                                                                                                                                               {'loss': 0.8275, 'grad_norm': 4.03125, 'learning_rate': 4.974676230182188e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 386.27, 'epoch': 0.59}
  6%|█████▉                                                                                               | 420/7135 [22:24<5:45:25,  3.09s/it]  6%|█████▉                                                                                               | 421/7135 [22:28<5:55:06,  3.17s/it]  6%|█████▉                                                                                               | 422/7135 [22:30<5:38:39,  3.03s/it]  6%|█████▉                                                                                               | 423/7135 [22:34<6:04:26,  3.26s/it]  6%|██████                                                                                               | 424/7135 [22:37<5:51:11,  3.14s/it]  6%|██████                                                                                               | 425/7135 [22:40<5:45:05,  3.09s/it]  6%|██████                                                                                               | 426/7135 [22:43<5:31:43,  2.97s/it]  6%|██████                                                                                               | 427/7135 [22:46<5:29:45,  2.95s/it]  6%|██████                                                                                               | 428/7135 [22:49<5:52:55,  3.16s/it]  6%|██████                                                                                               | 429/7135 [22:52<5:50:54,  3.14s/it]  6%|██████                                                                                               | 430/7135 [22:55<5:44:49,  3.09s/it]                                                                                                                                               {'loss': 0.8131, 'grad_norm': 4.96875, 'learning_rate': 4.973066549044434e-06, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 508.14, 'epoch': 0.6}
  6%|██████                                                                                               | 430/7135 [22:55<5:44:49,  3.09s/it]  6%|██████                                                                                               | 431/7135 [22:58<5:49:36,  3.13s/it]  6%|██████                                                                                               | 432/7135 [23:01<5:40:10,  3.05s/it]  6%|██████▏                                                                                              | 433/7135 [23:04<5:39:04,  3.04s/it]  6%|██████▏                                                                                              | 434/7135 [23:08<5:48:19,  3.12s/it]  6%|██████▏                                                                                              | 435/7135 [23:10<5:33:20,  2.99s/it]  6%|██████▏                                                                                              | 436/7135 [23:15<6:23:07,  3.43s/it]  6%|██████▏                                                                                              | 437/7135 [23:19<6:35:12,  3.54s/it]  6%|██████▏                                                                                              | 438/7135 [23:22<6:17:22,  3.38s/it]  6%|██████▏                                                                                              | 439/7135 [23:25<6:08:25,  3.30s/it]  6%|██████▏                                                                                              | 440/7135 [23:28<6:06:56,  3.29s/it]                                                                                                                                               {'loss': 0.8526, 'grad_norm': 4.9375, 'learning_rate': 4.971407549774156e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 470.62, 'epoch': 0.62}
  6%|██████▏                                                                                              | 440/7135 [23:28<6:06:56,  3.29s/it]  6%|██████▏                                                                                              | 441/7135 [23:32<6:19:14,  3.40s/it]  6%|██████▎                                                                                              | 442/7135 [23:35<6:27:48,  3.48s/it]  6%|██████▎                                                                                              | 443/7135 [23:38<6:17:06,  3.38s/it]  6%|██████▎                                                                                              | 444/7135 [23:43<6:46:42,  3.65s/it]  6%|██████▎                                                                                              | 445/7135 [23:46<6:23:35,  3.44s/it]  6%|██████▎                                                                                              | 446/7135 [23:49<6:09:22,  3.31s/it]  6%|██████▎                                                                                              | 447/7135 [23:52<5:55:35,  3.19s/it]  6%|██████▎                                                                                              | 448/7135 [23:54<5:42:31,  3.07s/it]  6%|██████▎                                                                                              | 449/7135 [23:58<5:58:09,  3.21s/it]  6%|██████▎                                                                                              | 450/7135 [24:01<5:46:14,  3.11s/it]                                                                                                                                               {'loss': 0.9225, 'grad_norm': 6.15625, 'learning_rate': 4.9696992654552745e-06, 'memory/max_active (GiB)': 42.47, 'memory/max_allocated (GiB)': 42.47, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 403.8, 'epoch': 0.63}
  6%|██████▎                                                                                              | 450/7135 [24:01<5:46:14,  3.11s/it]  6%|██████▍                                                                                              | 451/7135 [24:05<6:22:07,  3.43s/it]  6%|██████▍                                                                                              | 452/7135 [24:08<6:05:15,  3.28s/it]  6%|██████▍                                                                                              | 453/7135 [24:12<6:31:28,  3.52s/it]  6%|██████▍                                                                                              | 454/7135 [24:15<6:09:52,  3.32s/it]  6%|██████▍                                                                                              | 455/7135 [24:18<6:04:20,  3.27s/it]  6%|██████▍                                                                                              | 456/7135 [24:21<5:54:39,  3.19s/it]  6%|██████▍                                                                                              | 457/7135 [24:24<5:50:08,  3.15s/it]  6%|██████▍                                                                                              | 458/7135 [24:27<5:39:03,  3.05s/it]  6%|██████▍                                                                                              | 459/7135 [24:30<5:28:26,  2.95s/it]  6%|██████▌                                                                                              | 460/7135 [24:33<5:30:40,  2.97s/it]                                                                                                                                               {'loss': 0.7912, 'grad_norm': 4.21875, 'learning_rate': 4.967941730154564e-06, 'memory/max_active (GiB)': 37.88, 'memory/max_allocated (GiB)': 37.88, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 469.99, 'epoch': 0.64}
  6%|██████▌                                                                                              | 460/7135 [24:33<5:30:40,  2.97s/it]  6%|██████▌                                                                                              | 461/7135 [24:36<5:35:25,  3.02s/it]  6%|██████▌                                                                                              | 462/7135 [24:38<5:26:00,  2.93s/it]  6%|██████▌                                                                                              | 463/7135 [24:42<5:49:05,  3.14s/it]  7%|██████▌                                                                                              | 464/7135 [24:46<6:02:33,  3.26s/it]  7%|██████▌                                                                                              | 465/7135 [24:49<6:03:15,  3.27s/it]  7%|██████▌                                                                                              | 466/7135 [24:52<6:03:16,  3.27s/it]  7%|██████▌                                                                                              | 467/7135 [24:55<6:00:25,  3.24s/it]  7%|██████▌                                                                                              | 468/7135 [24:59<6:11:40,  3.34s/it]  7%|██████▋                                                                                              | 469/7135 [25:02<6:03:25,  3.27s/it]  7%|██████▋                                                                                              | 470/7135 [25:05<6:06:14,  3.30s/it]                                                                                                                                               {'loss': 0.9767, 'grad_norm': 7.65625, 'learning_rate': 4.966134978920961e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 364.7, 'epoch': 0.66}
  7%|██████▋                                                                                              | 470/7135 [25:05<6:06:14,  3.30s/it]  7%|██████▋                                                                                              | 471/7135 [25:09<6:07:24,  3.31s/it]  7%|██████▋                                                                                              | 472/7135 [25:12<6:01:57,  3.26s/it]  7%|██████▋                                                                                              | 473/7135 [25:15<5:54:40,  3.19s/it]  7%|██████▋                                                                                              | 474/7135 [25:18<6:01:07,  3.25s/it]  7%|██████▋                                                                                              | 475/7135 [25:22<6:10:08,  3.33s/it]  7%|██████▋                                                                                              | 476/7135 [25:25<6:11:47,  3.35s/it]  7%|██████▊                                                                                              | 477/7135 [25:28<5:55:19,  3.20s/it]  7%|██████▊                                                                                              | 478/7135 [25:31<5:51:43,  3.17s/it]  7%|██████▊                                                                                              | 479/7135 [25:34<5:39:26,  3.06s/it]  7%|██████▊                                                                                              | 480/7135 [25:37<5:41:36,  3.08s/it]                                                                                                                                               {'loss': 0.7741, 'grad_norm': 15.375, 'learning_rate': 4.964279047784876e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 399.13, 'epoch': 0.67}
  7%|██████▊                                                                                              | 480/7135 [25:37<5:41:36,  3.08s/it]  7%|██████▊                                                                                              | 481/7135 [25:40<5:45:48,  3.12s/it]  7%|██████▊                                                                                              | 482/7135 [25:43<5:44:47,  3.11s/it]  7%|██████▊                                                                                              | 483/7135 [25:47<5:50:30,  3.16s/it]  7%|██████▊                                                                                              | 484/7135 [25:50<5:46:03,  3.12s/it]  7%|██████▊                                                                                              | 485/7135 [25:53<5:55:20,  3.21s/it]  7%|██████▉                                                                                              | 486/7135 [25:56<5:49:29,  3.15s/it]  7%|██████▉                                                                                              | 487/7135 [25:59<5:55:49,  3.21s/it]  7%|██████▉                                                                                              | 488/7135 [26:02<5:41:48,  3.09s/it]  7%|██████▉                                                                                              | 489/7135 [26:05<5:45:55,  3.12s/it]  7%|██████▉                                                                                              | 490/7135 [26:09<5:59:55,  3.25s/it]                                                                                                                                               {'loss': 0.782, 'grad_norm': 4.40625, 'learning_rate': 4.9623739737574665e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 354.05, 'epoch': 0.69}
  7%|██████▉                                                                                              | 490/7135 [26:09<5:59:55,  3.25s/it]  7%|██████▉                                                                                              | 491/7135 [26:12<5:52:18,  3.18s/it]  7%|██████▉                                                                                              | 492/7135 [26:15<5:58:06,  3.23s/it]  7%|██████▉                                                                                              | 493/7135 [26:18<5:49:00,  3.15s/it]  7%|██████▉                                                                                              | 494/7135 [26:21<5:47:25,  3.14s/it]  7%|███████                                                                                              | 495/7135 [26:25<5:52:35,  3.19s/it]  7%|███████                                                                                              | 496/7135 [26:28<5:40:53,  3.08s/it]  7%|███████                                                                                              | 497/7135 [26:31<5:44:14,  3.11s/it]  7%|███████                                                                                              | 498/7135 [26:34<6:00:40,  3.26s/it]  7%|███████                                                                                              | 499/7135 [26:38<5:59:21,  3.25s/it]  7%|███████                                                                                              | 500/7135 [26:41<5:54:19,  3.20s/it]                                                                                                                                               {'loss': 0.793, 'grad_norm': 3.796875, 'learning_rate': 4.960419794829901e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 455.32, 'epoch': 0.7}
  7%|███████                                                                                              | 500/7135 [26:41<5:54:19,  3.20s/it]  7%|███████                                                                                              | 501/7135 [26:44<5:41:51,  3.09s/it]  7%|███████                                                                                              | 502/7135 [26:47<5:43:05,  3.10s/it]  7%|███████                                                                                              | 503/7135 [26:50<5:40:46,  3.08s/it]  7%|███████▏                                                                                             | 504/7135 [26:53<5:46:40,  3.14s/it]  7%|███████▏                                                                                             | 505/7135 [26:56<5:45:20,  3.13s/it]  7%|███████▏                                                                                             | 506/7135 [26:59<5:45:40,  3.13s/it]  7%|███████▏                                                                                             | 507/7135 [27:02<5:49:49,  3.17s/it]  7%|███████▏                                                                                             | 508/7135 [27:05<5:34:37,  3.03s/it]  7%|███████▏                                                                                             | 509/7135 [27:08<5:35:34,  3.04s/it]  7%|███████▏                                                                                             | 510/7135 [27:11<5:37:58,  3.06s/it]                                                                                                                                               {'loss': 0.9134, 'grad_norm': 5.5, 'learning_rate': 4.958416549972609e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 416.19, 'epoch': 0.71}
  7%|███████▏                                                                                             | 510/7135 [27:11<5:37:58,  3.06s/it]  7%|███████▏                                                                                             | 511/7135 [27:14<5:35:19,  3.04s/it]  7%|███████▏                                                                                             | 512/7135 [27:18<5:47:48,  3.15s/it]  7%|███████▎                                                                                             | 513/7135 [27:21<5:56:44,  3.23s/it]  7%|███████▎                                                                                             | 514/7135 [27:24<5:47:54,  3.15s/it]  7%|███████▎                                                                                             | 515/7135 [27:27<5:34:49,  3.03s/it]  7%|███████▎                                                                                             | 516/7135 [27:30<5:23:21,  2.93s/it]  7%|███████▎                                                                                             | 517/7135 [27:33<5:31:33,  3.01s/it]  7%|███████▎                                                                                             | 518/7135 [27:36<5:27:23,  2.97s/it]  7%|███████▎                                                                                             | 519/7135 [27:39<5:25:07,  2.95s/it]  7%|███████▎                                                                                             | 520/7135 [27:41<5:22:31,  2.93s/it]                                                                                                                                               {'loss': 0.8, 'grad_norm': 4.15625, 'learning_rate': 4.9563642791344896e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 460.23, 'epoch': 0.73}
  7%|███████▎                                                                                             | 520/7135 [27:41<5:22:31,  2.93s/it]  7%|███████▍                                                                                             | 521/7135 [27:44<5:17:56,  2.88s/it]  7%|███████▍                                                                                             | 522/7135 [27:47<5:25:29,  2.95s/it]  7%|███████▍                                                                                             | 523/7135 [27:51<5:40:44,  3.09s/it]  7%|███████▍                                                                                             | 524/7135 [27:54<5:51:10,  3.19s/it]  7%|███████▍                                                                                             | 525/7135 [27:57<5:50:15,  3.18s/it]  7%|███████▍                                                                                             | 526/7135 [28:00<5:45:08,  3.13s/it]  7%|███████▍                                                                                             | 527/7135 [28:03<5:41:32,  3.10s/it]  7%|███████▍                                                                                             | 528/7135 [28:06<5:28:56,  2.99s/it]  7%|███████▍                                                                                             | 529/7135 [28:09<5:34:51,  3.04s/it]  7%|███████▌                                                                                             | 530/7135 [28:12<5:23:53,  2.94s/it]                                                                                                                                               {'loss': 0.81, 'grad_norm': 4.65625, 'learning_rate': 4.954263023242128e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 482.08, 'epoch': 0.74}
  7%|███████▌                                                                                             | 530/7135 [28:12<5:23:53,  2.94s/it]  7%|███████▌                                                                                             | 531/7135 [28:15<5:26:27,  2.97s/it]  7%|███████▌                                                                                             | 532/7135 [28:18<5:25:56,  2.96s/it]  7%|███████▌                                                                                             | 533/7135 [28:21<5:29:09,  2.99s/it]  7%|███████▌                                                                                             | 534/7135 [28:25<5:54:09,  3.22s/it]  7%|███████▌                                                                                             | 535/7135 [28:28<5:43:51,  3.13s/it]  8%|███████▌                                                                                             | 536/7135 [28:31<5:41:41,  3.11s/it]  8%|███████▌                                                                                             | 537/7135 [28:33<5:26:24,  2.97s/it]  8%|███████▌                                                                                             | 538/7135 [28:36<5:26:30,  2.97s/it]  8%|███████▋                                                                                             | 539/7135 [28:39<5:32:14,  3.02s/it]  8%|███████▋                                                                                             | 540/7135 [28:43<5:39:54,  3.09s/it]                                                                                                                                               {'loss': 0.8547, 'grad_norm': 3.703125, 'learning_rate': 4.952112824198973e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 355.5, 'epoch': 0.76}
  8%|███████▋                                                                                             | 540/7135 [28:43<5:39:54,  3.09s/it]  8%|███████▋                                                                                             | 541/7135 [28:46<5:48:18,  3.17s/it]  8%|███████▋                                                                                             | 542/7135 [28:49<5:32:24,  3.03s/it]  8%|███████▋                                                                                             | 543/7135 [28:52<5:30:43,  3.01s/it]  8%|███████▋                                                                                             | 544/7135 [28:54<5:21:21,  2.93s/it]  8%|███████▋                                                                                             | 545/7135 [28:57<5:24:54,  2.96s/it]  8%|███████▋                                                                                             | 546/7135 [29:01<5:37:06,  3.07s/it]  8%|███████▋                                                                                             | 547/7135 [29:04<5:29:03,  3.00s/it]  8%|███████▊                                                                                             | 548/7135 [29:07<5:25:13,  2.96s/it]  8%|███████▊                                                                                             | 549/7135 [29:10<5:32:13,  3.03s/it]  8%|███████▊                                                                                             | 550/7135 [29:13<5:39:28,  3.09s/it]                                                                                                                                               {'loss': 0.6707, 'grad_norm': 4.625, 'learning_rate': 4.9499137248845015e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 313.02, 'epoch': 0.77}
  8%|███████▊                                                                                             | 550/7135 [29:13<5:39:28,  3.09s/it]  8%|███████▊                                                                                             | 551/7135 [29:16<5:38:47,  3.09s/it]  8%|███████▊                                                                                             | 552/7135 [29:19<5:26:16,  2.97s/it]  8%|███████▊                                                                                             | 553/7135 [29:22<5:44:42,  3.14s/it]  8%|███████▊                                                                                             | 554/7135 [29:25<5:45:22,  3.15s/it]  8%|███████▊                                                                                             | 555/7135 [29:29<6:05:39,  3.33s/it]  8%|███████▊                                                                                             | 556/7135 [29:32<5:59:55,  3.28s/it]  8%|███████▉                                                                                             | 557/7135 [29:36<6:00:50,  3.29s/it]  8%|███████▉                                                                                             | 558/7135 [29:39<5:57:35,  3.26s/it]  8%|███████▉                                                                                             | 559/7135 [29:42<5:49:48,  3.19s/it]  8%|███████▉                                                                                             | 560/7135 [29:45<5:52:30,  3.22s/it]                                                                                                                                               {'loss': 0.7558, 'grad_norm': 4.625, 'learning_rate': 4.9476657691533645e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 420.88, 'epoch': 0.78}
  8%|███████▉                                                                                             | 560/7135 [29:45<5:52:30,  3.22s/it]  8%|███████▉                                                                                             | 561/7135 [29:48<5:41:11,  3.11s/it]  8%|███████▉                                                                                             | 562/7135 [29:53<6:33:50,  3.60s/it]  8%|███████▉                                                                                             | 563/7135 [29:56<6:24:52,  3.51s/it]  8%|███████▉                                                                                             | 564/7135 [30:00<6:25:19,  3.52s/it]  8%|███████▉                                                                                             | 565/7135 [30:03<6:14:00,  3.42s/it]  8%|████████                                                                                             | 566/7135 [30:06<6:02:16,  3.31s/it]  8%|████████                                                                                             | 567/7135 [30:09<5:55:07,  3.24s/it]  8%|████████                                                                                             | 568/7135 [30:12<5:59:29,  3.28s/it]  8%|████████                                                                                             | 569/7135 [30:16<6:03:58,  3.33s/it]  8%|████████                                                                                             | 570/7135 [30:19<5:50:06,  3.20s/it]                                                                                                                                               {'loss': 0.7852, 'grad_norm': 3.671875, 'learning_rate': 4.9453690018345144e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 449.77, 'epoch': 0.8}
  8%|████████                                                                                             | 570/7135 [30:19<5:50:06,  3.20s/it]  8%|████████                                                                                             | 571/7135 [30:22<5:55:33,  3.25s/it]  8%|████████                                                                                             | 572/7135 [30:25<5:43:54,  3.14s/it]  8%|████████                                                                                             | 573/7135 [30:29<6:06:36,  3.35s/it]  8%|████████▏                                                                                            | 574/7135 [30:32<5:54:47,  3.24s/it]  8%|████████▏                                                                                            | 575/7135 [30:36<6:11:28,  3.40s/it]  8%|████████▏                                                                                            | 576/7135 [30:39<6:15:39,  3.44s/it]  8%|████████▏                                                                                            | 577/7135 [30:42<6:16:02,  3.44s/it]  8%|████████▏                                                                                            | 578/7135 [30:46<6:04:07,  3.33s/it]  8%|████████▏                                                                                            | 579/7135 [30:49<6:03:25,  3.33s/it]  8%|████████▏                                                                                            | 580/7135 [30:52<6:11:11,  3.40s/it]                                                                                                                                               {'loss': 0.8482, 'grad_norm': 3.125, 'learning_rate': 4.943023468730306e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 350.21, 'epoch': 0.81}
  8%|████████▏                                                                                            | 580/7135 [30:52<6:11:11,  3.40s/it]  8%|████████▏                                                                                            | 581/7135 [30:56<6:09:02,  3.38s/it]  8%|████████▏                                                                                            | 582/7135 [30:59<6:05:25,  3.35s/it]  8%|████████▎                                                                                            | 583/7135 [31:03<6:16:02,  3.44s/it]  8%|████████▎                                                                                            | 584/7135 [31:06<6:20:32,  3.49s/it]  8%|████████▎                                                                                            | 585/7135 [31:09<5:56:53,  3.27s/it]  8%|████████▎                                                                                            | 586/7135 [31:12<5:52:45,  3.23s/it]  8%|████████▎                                                                                            | 587/7135 [31:15<5:48:21,  3.19s/it]  8%|████████▎                                                                                            | 588/7135 [31:18<5:45:04,  3.16s/it]  8%|████████▎                                                                                            | 589/7135 [31:22<5:47:06,  3.18s/it]  8%|████████▎                                                                                            | 590/7135 [31:25<5:39:20,  3.11s/it]                                                                                                                                               {'loss': 0.7459, 'grad_norm': 3.828125, 'learning_rate': 4.940629216615588e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 439.99, 'epoch': 0.83}
  8%|████████▎                                                                                            | 590/7135 [31:25<5:39:20,  3.11s/it]  8%|████████▎                                                                                            | 591/7135 [31:28<5:44:22,  3.16s/it]  8%|████████▍                                                                                            | 592/7135 [31:32<6:09:44,  3.39s/it]  8%|████████▍                                                                                            | 593/7135 [31:35<5:56:02,  3.27s/it]  8%|████████▍                                                                                            | 594/7135 [31:38<6:01:47,  3.32s/it]  8%|████████▍                                                                                            | 595/7135 [31:41<5:56:46,  3.27s/it]  8%|████████▍                                                                                            | 596/7135 [31:44<5:50:56,  3.22s/it]  8%|████████▍                                                                                            | 597/7135 [31:48<6:02:23,  3.33s/it]  8%|████████▍                                                                                            | 598/7135 [31:52<6:26:58,  3.55s/it]  8%|████████▍                                                                                            | 599/7135 [31:55<6:21:11,  3.50s/it]  8%|████████▍                                                                                            | 600/7135 [31:58<5:55:22,  3.26s/it]                                                                                                                                               {'loss': 0.8336, 'grad_norm': 5.25, 'learning_rate': 4.9381862932367675e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.02, 'tokens_per_second_per_gpu': 498.58, 'epoch': 0.84}
  8%|████████▍                                                                                            | 600/7135 [31:58<5:55:22,  3.26s/it]  8%|████████▌                                                                                            | 601/7135 [32:03<6:37:54,  3.65s/it]  8%|████████▌                                                                                            | 602/7135 [32:06<6:19:29,  3.49s/it]  8%|████████▌                                                                                            | 603/7135 [32:09<6:12:24,  3.42s/it]  8%|████████▌                                                                                            | 604/7135 [32:12<5:58:45,  3.30s/it]  8%|████████▌                                                                                            | 605/7135 [32:15<5:50:29,  3.22s/it]  8%|████████▌                                                                                            | 606/7135 [32:18<5:42:03,  3.14s/it]  9%|████████▌                                                                                            | 607/7135 [32:21<5:34:20,  3.07s/it]  9%|████████▌                                                                                            | 608/7135 [32:24<5:18:40,  2.93s/it]  9%|████████▌                                                                                            | 609/7135 [32:27<5:40:15,  3.13s/it]  9%|████████▋                                                                                            | 610/7135 [32:30<5:35:25,  3.08s/it]                                                                                                                                               {'loss': 0.8186, 'grad_norm': 4.5625, 'learning_rate': 4.93569474731086e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.17, 'tokens_per_second_per_gpu': 419.56, 'epoch': 0.86}
  9%|████████▋                                                                                            | 610/7135 [32:30<5:35:25,  3.08s/it]  9%|████████▋                                                                                            | 611/7135 [32:34<5:59:08,  3.30s/it]  9%|████████▋                                                                                            | 612/7135 [32:37<5:55:39,  3.27s/it]  9%|████████▋                                                                                            | 613/7135 [32:41<5:57:23,  3.29s/it]  9%|████████▋                                                                                            | 614/7135 [32:44<6:02:07,  3.33s/it]  9%|████████▋                                                                                            | 615/7135 [32:47<5:44:41,  3.17s/it]  9%|████████▋                                                                                            | 616/7135 [32:50<5:41:40,  3.14s/it]  9%|████████▋                                                                                            | 617/7135 [32:53<5:48:12,  3.21s/it]  9%|████████▋                                                                                            | 618/7135 [32:56<5:41:24,  3.14s/it]  9%|████████▊                                                                                            | 619/7135 [33:00<5:47:42,  3.20s/it]  9%|████████▊                                                                                            | 620/7135 [33:04<6:20:41,  3.51s/it]                                                                                                                                               {'loss': 1.2614, 'grad_norm': 5.5, 'learning_rate': 4.933154628524514e-06, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 49.17, 'tokens_per_second_per_gpu': 430.36, 'epoch': 0.87}
  9%|████████▊                                                                                            | 620/7135 [33:04<6:20:41,  3.51s/it]  9%|████████▊                                                                                            | 621/7135 [33:07<6:08:19,  3.39s/it]  9%|████████▊                                                                                            | 622/7135 [33:10<5:51:57,  3.24s/it]  9%|████████▊                                                                                            | 623/7135 [33:13<5:43:57,  3.17s/it]  9%|████████▊                                                                                            | 624/7135 [33:15<5:26:30,  3.01s/it]  9%|████████▊                                                                                            | 625/7135 [33:18<5:25:02,  3.00s/it]  9%|████████▊                                                                                            | 626/7135 [33:22<5:34:40,  3.08s/it]  9%|████████▉                                                                                            | 627/7135 [33:25<5:27:42,  3.02s/it]  9%|████████▉                                                                                            | 628/7135 [33:28<5:37:24,  3.11s/it]  9%|████████▉                                                                                            | 629/7135 [33:31<5:38:16,  3.12s/it]  9%|████████▉                                                                                            | 630/7135 [33:34<5:34:48,  3.09s/it]                                                                                                                                               {'loss': 0.83, 'grad_norm': 5.125, 'learning_rate': 4.9305659875330245e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.17, 'tokens_per_second_per_gpu': 419.74, 'epoch': 0.88}
  9%|████████▉                                                                                            | 630/7135 [33:34<5:34:48,  3.09s/it]  9%|████████▉                                                                                            | 631/7135 [33:37<5:28:53,  3.03s/it]  9%|████████▉                                                                                            | 632/7135 [33:40<5:31:26,  3.06s/it]  9%|████████▉                                                                                            | 633/7135 [33:44<5:49:32,  3.23s/it]  9%|████████▉                                                                                            | 634/7135 [33:47<5:54:17,  3.27s/it]  9%|████████▉                                                                                            | 635/7135 [33:50<5:59:49,  3.32s/it]  9%|█████████                                                                                            | 636/7135 [33:53<5:44:58,  3.18s/it]  9%|█████████                                                                                            | 637/7135 [33:56<5:30:27,  3.05s/it]  9%|█████████                                                                                            | 638/7135 [33:59<5:37:19,  3.12s/it]  9%|█████████                                                                                            | 639/7135 [34:03<6:05:54,  3.38s/it]  9%|█████████                                                                                            | 640/7135 [34:07<6:05:11,  3.37s/it]                                                                                                                                               {'loss': 0.7643, 'grad_norm': 4.1875, 'learning_rate': 4.927928875959322e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.17, 'tokens_per_second_per_gpu': 414.14, 'epoch': 0.9}
  9%|█████████                                                                                            | 640/7135 [34:07<6:05:11,  3.37s/it]  9%|█████████                                                                                            | 641/7135 [34:10<5:48:33,  3.22s/it]  9%|█████████                                                                                            | 642/7135 [34:13<5:46:40,  3.20s/it]  9%|█████████                                                                                            | 643/7135 [34:16<5:37:59,  3.12s/it]  9%|█████████                                                                                            | 644/7135 [34:19<5:35:29,  3.10s/it]  9%|█████████▏                                                                                           | 645/7135 [34:22<5:32:23,  3.07s/it]  9%|█████████▏                                                                                           | 646/7135 [34:25<5:34:50,  3.10s/it]  9%|█████████▏                                                                                           | 647/7135 [34:29<6:01:22,  3.34s/it]  9%|█████████▏                                                                                           | 648/7135 [34:32<5:45:51,  3.20s/it]  9%|█████████▏                                                                                           | 649/7135 [34:35<5:38:23,  3.13s/it]  9%|█████████▏                                                                                           | 650/7135 [34:38<5:40:49,  3.15s/it]                                                                                                                                               {'loss': 0.722, 'grad_norm': 3.703125, 'learning_rate': 4.9252433463929405e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.17, 'tokens_per_second_per_gpu': 389.9, 'epoch': 0.91}
  9%|█████████▏                                                                                           | 650/7135 [34:38<5:40:49,  3.15s/it]  9%|█████████▏                                                                                           | 651/7135 [34:42<6:25:32,  3.57s/it]  9%|█████████▏                                                                                           | 652/7135 [34:45<5:56:16,  3.30s/it]  9%|█████████▏                                                                                           | 653/7135 [34:48<5:42:50,  3.17s/it]  9%|█████████▎                                                                                           | 654/7135 [34:51<5:30:51,  3.06s/it]  9%|█████████▎                                                                                           | 655/7135 [34:54<5:35:09,  3.10s/it]  9%|█████████▎                                                                                           | 656/7135 [34:57<5:36:06,  3.11s/it]  9%|█████████▎                                                                                           | 657/7135 [35:00<5:38:21,  3.13s/it]  9%|█████████▎                                                                                           | 658/7135 [35:03<5:38:47,  3.14s/it]  9%|█████████▎                                                                                           | 659/7135 [35:06<5:30:48,  3.06s/it]  9%|█████████▎                                                                                           | 660/7135 [35:09<5:34:20,  3.10s/it]                                                                                                                                               {'loss': 0.7834, 'grad_norm': 3.96875, 'learning_rate': 4.922509452388969e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 324.98, 'epoch': 0.93}
  9%|█████████▎                                                                                           | 660/7135 [35:09<5:34:20,  3.10s/it]  9%|█████████▎                                                                                           | 661/7135 [35:13<5:34:26,  3.10s/it]  9%|█████████▎                                                                                           | 662/7135 [35:16<5:47:27,  3.22s/it]  9%|█████████▍                                                                                           | 663/7135 [35:20<5:59:44,  3.34s/it]  9%|█████████▍                                                                                           | 664/7135 [35:24<6:16:36,  3.49s/it]  9%|█████████▍                                                                                           | 665/7135 [35:26<5:54:01,  3.28s/it]  9%|█████████▍                                                                                           | 666/7135 [35:30<5:56:16,  3.30s/it]  9%|█████████▍                                                                                           | 667/7135 [35:33<5:56:22,  3.31s/it]  9%|█████████▍                                                                                           | 668/7135 [35:37<6:05:00,  3.39s/it]  9%|█████████▍                                                                                           | 669/7135 [35:40<6:06:18,  3.40s/it]  9%|█████████▍                                                                                           | 670/7135 [35:43<5:51:24,  3.26s/it]                                                                                                                                               {'loss': 0.9713, 'grad_norm': 5.0, 'learning_rate': 4.919727248466989e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 423.05, 'epoch': 0.94}
  9%|█████████▍                                                                                           | 670/7135 [35:43<5:51:24,  3.26s/it]  9%|█████████▍                                                                                           | 671/7135 [35:46<5:56:59,  3.31s/it]  9%|█████████▌                                                                                           | 672/7135 [35:50<6:16:30,  3.50s/it]  9%|█████████▌                                                                                           | 673/7135 [35:53<5:59:37,  3.34s/it]  9%|█████████▌                                                                                           | 674/7135 [35:56<5:54:42,  3.29s/it]  9%|█████████▌                                                                                           | 675/7135 [35:59<5:40:08,  3.16s/it]  9%|█████████▌                                                                                           | 676/7135 [36:02<5:28:42,  3.05s/it]  9%|█████████▌                                                                                           | 677/7135 [36:05<5:33:19,  3.10s/it] 10%|█████████▌                                                                                           | 678/7135 [36:09<5:37:46,  3.14s/it] 10%|█████████▌                                                                                           | 679/7135 [36:12<5:48:08,  3.24s/it] 10%|█████████▋                                                                                           | 680/7135 [36:15<5:43:44,  3.20s/it]                                                                                                                                               {'loss': 0.9567, 'grad_norm': 4.1875, 'learning_rate': 4.916896790109979e-06, 'memory/max_active (GiB)': 44.58, 'memory/max_allocated (GiB)': 44.58, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 504.54, 'epoch': 0.95}
 10%|█████████▋                                                                                           | 680/7135 [36:15<5:43:44,  3.20s/it] 10%|█████████▋                                                                                           | 681/7135 [36:18<5:34:59,  3.11s/it] 10%|█████████▋                                                                                           | 682/7135 [36:21<5:28:48,  3.06s/it] 10%|█████████▋                                                                                           | 683/7135 [36:24<5:33:06,  3.10s/it] 10%|█████████▋                                                                                           | 684/7135 [36:28<5:43:59,  3.20s/it] 10%|█████████▋                                                                                           | 685/7135 [36:30<5:32:24,  3.09s/it] 10%|█████████▋                                                                                           | 686/7135 [36:34<5:55:38,  3.31s/it] 10%|█████████▋                                                                                           | 687/7135 [36:37<5:52:01,  3.28s/it] 10%|█████████▋                                                                                           | 688/7135 [36:41<6:08:08,  3.43s/it] 10%|█████████▊                                                                                           | 689/7135 [36:45<6:18:51,  3.53s/it] 10%|█████████▊                                                                                           | 690/7135 [36:48<5:51:46,  3.27s/it]                                                                                                                                               {'loss': 0.7532, 'grad_norm': 4.65625, 'learning_rate': 4.914018133763212e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 486.96, 'epoch': 0.97}
 10%|█████████▊                                                                                           | 690/7135 [36:48<5:51:46,  3.27s/it] 10%|█████████▊                                                                                           | 691/7135 [36:51<5:45:58,  3.22s/it] 10%|█████████▊                                                                                           | 692/7135 [36:54<5:36:08,  3.13s/it] 10%|█████████▊                                                                                           | 693/7135 [36:57<5:35:46,  3.13s/it] 10%|█████████▊                                                                                           | 694/7135 [37:00<5:52:03,  3.28s/it] 10%|█████████▊                                                                                           | 695/7135 [37:04<5:50:28,  3.27s/it] 10%|█████████▊                                                                                           | 696/7135 [37:07<5:45:12,  3.22s/it] 10%|█████████▊                                                                                           | 697/7135 [37:10<5:45:30,  3.22s/it] 10%|█████████▉                                                                                           | 698/7135 [37:14<6:01:36,  3.37s/it] 10%|█████████▉                                                                                           | 699/7135 [37:17<5:56:12,  3.32s/it] 10%|█████████▉                                                                                           | 700/7135 [37:20<5:45:35,  3.22s/it]                                                                                                                                               {'loss': 0.8138, 'grad_norm': 4.4375, 'learning_rate': 4.911091336833133e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 387.2, 'epoch': 0.98}
 10%|█████████▉                                                                                           | 700/7135 [37:20<5:45:35,  3.22s/it] 10%|█████████▉                                                                                           | 701/7135 [37:23<5:47:58,  3.24s/it] 10%|█████████▉                                                                                           | 702/7135 [37:26<5:33:12,  3.11s/it] 10%|█████████▉                                                                                           | 703/7135 [37:30<5:48:27,  3.25s/it] 10%|█████████▉                                                                                           | 704/7135 [37:33<6:06:40,  3.42s/it] 10%|█████████▉                                                                                           | 705/7135 [37:36<5:52:16,  3.29s/it] 10%|█████████▉                                                                                           | 706/7135 [37:39<5:41:25,  3.19s/it] 10%|██████████                                                                                           | 707/7135 [37:42<5:40:48,  3.18s/it] 10%|██████████                                                                                           | 708/7135 [37:45<5:32:39,  3.11s/it] 10%|██████████                                                                                           | 709/7135 [37:48<5:22:21,  3.01s/it] 10%|██████████                                                                                           | 710/7135 [37:52<5:35:44,  3.14s/it]                                                                                                                                               {'loss': 0.7921, 'grad_norm': 6.1875, 'learning_rate': 4.908116457686211e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 380.85, 'epoch': 1.0}
 10%|██████████                                                                                           | 710/7135 [37:52<5:35:44,  3.14s/it] 10%|██████████                                                                                           | 711/7135 [37:55<5:35:01,  3.13s/it] 10%|██████████                                                                                           | 712/7135 [37:58<5:48:21,  3.25s/it] 10%|██████████                                                                                           | 713/7135 [38:01<5:32:41,  3.11s/it] 10%|██████████                                                                                           | 714/7135 [38:03<4:45:55,  2.67s/it][2025-12-23 15:02:08,859] [INFO] [axolotl.core.trainers.base._save:671] [PID:5064] Saving model checkpoint to ./outputs/qwen3-4b-instruct-abd-full-train/checkpoint-714
 10%|██████████                                                                                          | 715/7135 [39:10<39:35:02, 22.20s/it] 10%|██████████                                                                                          | 716/7135 [39:13<29:07:15, 16.33s/it] 10%|██████████                                                                                          | 717/7135 [39:17<22:13:42, 12.47s/it] 10%|██████████                                                                                          | 718/7135 [39:19<16:58:53,  9.53s/it] 10%|██████████                                                                                          | 719/7135 [39:22<13:29:09,  7.57s/it] 10%|██████████                                                                                          | 720/7135 [39:25<11:08:03,  6.25s/it]                                                                                                                                               {'loss': 0.8482, 'grad_norm': 4.84375, 'learning_rate': 4.905093555647773e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 348.01, 'epoch': 1.01}
 10%|██████████                                                                                          | 720/7135 [39:25<11:08:03,  6.25s/it] 10%|██████████▏                                                                                          | 721/7135 [39:28<9:16:56,  5.21s/it] 10%|██████████▏                                                                                          | 722/7135 [39:31<8:13:19,  4.62s/it] 10%|██████████▏                                                                                          | 723/7135 [39:35<7:26:21,  4.18s/it] 10%|██████████▏                                                                                          | 724/7135 [39:38<7:02:47,  3.96s/it] 10%|██████████▎                                                                                          | 725/7135 [39:41<6:40:56,  3.75s/it] 10%|██████████▎                                                                                          | 726/7135 [39:45<6:27:04,  3.62s/it] 10%|██████████▎                                                                                          | 727/7135 [39:49<6:39:01,  3.74s/it] 10%|██████████▎                                                                                          | 728/7135 [39:52<6:21:57,  3.58s/it] 10%|██████████▎                                                                                          | 729/7135 [39:55<6:12:12,  3.49s/it] 10%|██████████▎                                                                                          | 730/7135 [39:58<5:59:05,  3.36s/it]                                                                                                                                               {'loss': 0.7303, 'grad_norm': 4.0625, 'learning_rate': 4.9020226910008225e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 357.93, 'epoch': 1.02}
 10%|██████████▎                                                                                          | 730/7135 [39:58<5:59:05,  3.36s/it] 10%|██████████▎                                                                                          | 731/7135 [40:01<5:51:47,  3.30s/it] 10%|██████████▎                                                                                          | 732/7135 [40:05<5:50:57,  3.29s/it] 10%|██████████▍                                                                                          | 733/7135 [40:08<5:44:37,  3.23s/it] 10%|██████████▍                                                                                          | 734/7135 [40:11<5:49:53,  3.28s/it] 10%|██████████▍                                                                                          | 735/7135 [40:14<5:48:06,  3.26s/it] 10%|██████████▍                                                                                          | 736/7135 [40:17<5:43:56,  3.22s/it] 10%|██████████▍                                                                                          | 737/7135 [40:20<5:34:17,  3.13s/it] 10%|██████████▍                                                                                          | 738/7135 [40:23<5:34:15,  3.14s/it] 10%|██████████▍                                                                                          | 739/7135 [40:27<5:39:19,  3.18s/it] 10%|██████████▍                                                                                          | 740/7135 [40:30<5:35:10,  3.14s/it]                                                                                                                                               {'loss': 0.7801, 'grad_norm': 5.28125, 'learning_rate': 4.898903924984842e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 420.3, 'epoch': 1.04}
 10%|██████████▍                                                                                          | 740/7135 [40:30<5:35:10,  3.14s/it] 10%|██████████▍                                                                                          | 741/7135 [40:33<5:27:40,  3.07s/it] 10%|██████████▌                                                                                          | 742/7135 [40:36<5:27:39,  3.08s/it] 10%|██████████▌                                                                                          | 743/7135 [40:40<6:03:24,  3.41s/it] 10%|██████████▌                                                                                          | 744/7135 [40:43<5:58:48,  3.37s/it] 10%|██████████▌                                                                                          | 745/7135 [40:47<6:17:33,  3.55s/it] 10%|██████████▌                                                                                          | 746/7135 [40:50<5:55:50,  3.34s/it] 10%|██████████▌                                                                                          | 747/7135 [40:54<6:13:50,  3.51s/it] 10%|██████████▌                                                                                          | 748/7135 [40:57<6:06:16,  3.44s/it] 10%|██████████▌                                                                                          | 749/7135 [41:00<5:56:04,  3.35s/it] 11%|██████████▌                                                                                          | 750/7135 [41:04<6:01:10,  3.39s/it]                                                                                                                                               {'loss': 0.9555, 'grad_norm': 5.0, 'learning_rate': 4.8957373197945634e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 479.42, 'epoch': 1.05}
 11%|██████████▌                                                                                          | 750/7135 [41:04<6:01:10,  3.39s/it] 11%|██████████▋                                                                                          | 751/7135 [41:07<5:59:22,  3.38s/it] 11%|██████████▋                                                                                          | 752/7135 [41:11<6:09:52,  3.48s/it] 11%|██████████▋                                                                                          | 753/7135 [41:14<6:01:14,  3.40s/it] 11%|██████████▋                                                                                          | 754/7135 [41:18<6:16:25,  3.54s/it] 11%|██████████▋                                                                                          | 755/7135 [41:21<6:01:48,  3.40s/it] 11%|██████████▋                                                                                          | 756/7135 [41:24<5:50:25,  3.30s/it] 11%|██████████▋                                                                                          | 757/7135 [41:28<6:01:55,  3.40s/it] 11%|██████████▋                                                                                          | 758/7135 [41:31<5:43:55,  3.24s/it] 11%|██████████▋                                                                                          | 759/7135 [41:34<5:52:53,  3.32s/it] 11%|██████████▊                                                                                          | 760/7135 [41:37<5:46:44,  3.26s/it]                                                                                                                                               {'loss': 0.7804, 'grad_norm': 4.5625, 'learning_rate': 4.892522938578735e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 394.38, 'epoch': 1.06}
 11%|██████████▊                                                                                          | 760/7135 [41:37<5:46:44,  3.26s/it] 11%|██████████▊                                                                                          | 761/7135 [41:40<5:31:06,  3.12s/it] 11%|██████████▊                                                                                          | 762/7135 [41:44<5:45:54,  3.26s/it] 11%|██████████▊                                                                                          | 763/7135 [41:47<5:39:01,  3.19s/it] 11%|██████████▊                                                                                          | 764/7135 [41:51<6:13:58,  3.52s/it] 11%|██████████▊                                                                                          | 765/7135 [41:54<5:55:23,  3.35s/it] 11%|██████████▊                                                                                          | 766/7135 [41:58<6:03:26,  3.42s/it] 11%|██████████▊                                                                                          | 767/7135 [42:01<5:52:37,  3.32s/it] 11%|██████████▊                                                                                          | 768/7135 [42:05<6:10:21,  3.49s/it] 11%|██████████▉                                                                                          | 769/7135 [42:08<6:25:08,  3.63s/it] 11%|██████████▉                                                                                          | 770/7135 [42:12<6:19:42,  3.58s/it]                                                                                                                                               {'loss': 1.1608, 'grad_norm': 2.984375, 'learning_rate': 4.889260845438858e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 540.78, 'epoch': 1.08}
 11%|██████████▉                                                                                          | 770/7135 [42:12<6:19:42,  3.58s/it] 11%|██████████▉                                                                                          | 771/7135 [42:16<6:19:09,  3.57s/it] 11%|██████████▉                                                                                          | 772/7135 [42:18<6:00:12,  3.40s/it] 11%|██████████▉                                                                                          | 773/7135 [42:22<6:02:39,  3.42s/it] 11%|██████████▉                                                                                          | 774/7135 [42:25<6:05:00,  3.44s/it] 11%|██████████▉                                                                                          | 775/7135 [42:29<6:02:22,  3.42s/it] 11%|██████████▉                                                                                          | 776/7135 [42:32<5:54:30,  3.34s/it] 11%|██████████▉                                                                                          | 777/7135 [42:35<5:44:05,  3.25s/it] 11%|███████████                                                                                          | 778/7135 [42:38<5:50:00,  3.30s/it] 11%|███████████                                                                                          | 779/7135 [42:42<6:05:48,  3.45s/it] 11%|███████████                                                                                          | 780/7135 [42:45<5:53:52,  3.34s/it]                                                                                                                                               {'loss': 0.8318, 'grad_norm': 5.125, 'learning_rate': 4.8859511054279095e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 403.24, 'epoch': 1.09}
 11%|███████████                                                                                          | 780/7135 [42:45<5:53:52,  3.34s/it] 11%|███████████                                                                                          | 781/7135 [42:48<5:45:12,  3.26s/it] 11%|███████████                                                                                          | 782/7135 [42:51<5:32:33,  3.14s/it] 11%|███████████                                                                                          | 783/7135 [42:54<5:21:50,  3.04s/it] 11%|███████████                                                                                          | 784/7135 [42:57<5:26:05,  3.08s/it] 11%|███████████                                                                                          | 785/7135 [43:00<5:28:05,  3.10s/it] 11%|███████████▏                                                                                         | 786/7135 [43:03<5:22:01,  3.04s/it] 11%|███████████▏                                                                                         | 787/7135 [43:06<5:15:41,  2.98s/it] 11%|███████████▏                                                                                         | 788/7135 [43:09<5:17:39,  3.00s/it] 11%|███████████▏                                                                                         | 789/7135 [43:12<5:07:32,  2.91s/it] 11%|███████████▏                                                                                         | 790/7135 [43:15<5:07:30,  2.91s/it]                                                                                                                                               {'loss': 0.761, 'grad_norm': 2.9375, 'learning_rate': 4.882593784549045e-06, 'memory/max_active (GiB)': 35.13, 'memory/max_allocated (GiB)': 35.13, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 379.82, 'epoch': 1.11}
 11%|███████████▏                                                                                         | 790/7135 [43:15<5:07:30,  2.91s/it] 11%|███████████▏                                                                                         | 791/7135 [43:18<5:24:07,  3.07s/it] 11%|███████████▏                                                                                         | 792/7135 [43:22<5:42:55,  3.24s/it] 11%|███████████▏                                                                                         | 793/7135 [43:25<5:48:10,  3.29s/it] 11%|███████████▏                                                                                         | 794/7135 [43:28<5:29:53,  3.12s/it] 11%|███████████▎                                                                                         | 795/7135 [43:31<5:26:48,  3.09s/it] 11%|███████████▎                                                                                         | 796/7135 [43:34<5:35:19,  3.17s/it] 11%|███████████▎                                                                                         | 797/7135 [43:37<5:27:51,  3.10s/it] 11%|███████████▎                                                                                         | 798/7135 [43:41<5:30:46,  3.13s/it] 11%|███████████▎                                                                                         | 799/7135 [43:43<5:21:47,  3.05s/it] 11%|███████████▎                                                                                         | 800/7135 [43:47<5:28:03,  3.11s/it]                                                                                                                                               {'loss': 0.8464, 'grad_norm': 4.3125, 'learning_rate': 4.879188949754283e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 388.07, 'epoch': 1.12}
 11%|███████████▎                                                                                         | 800/7135 [43:47<5:28:03,  3.11s/it] 11%|███████████▎                                                                                         | 801/7135 [43:50<5:35:08,  3.17s/it] 11%|███████████▎                                                                                         | 802/7135 [43:53<5:41:55,  3.24s/it] 11%|███████████▎                                                                                         | 803/7135 [43:56<5:25:49,  3.09s/it] 11%|███████████▍                                                                                         | 804/7135 [43:59<5:12:08,  2.96s/it] 11%|███████████▍                                                                                         | 805/7135 [44:01<4:58:36,  2.83s/it] 11%|███████████▍                                                                                         | 806/7135 [44:04<5:01:36,  2.86s/it] 11%|███████████▍                                                                                         | 807/7135 [44:08<5:20:29,  3.04s/it] 11%|███████████▍                                                                                         | 808/7135 [44:11<5:34:15,  3.17s/it] 11%|███████████▍                                                                                         | 809/7135 [44:14<5:33:30,  3.16s/it] 11%|███████████▍                                                                                         | 810/7135 [44:18<5:46:45,  3.29s/it]                                                                                                                                               {'loss': 0.7232, 'grad_norm': 5.625, 'learning_rate': 4.875736668943167e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 371.72, 'epoch': 1.13}
 11%|███████████▍                                                                                         | 810/7135 [44:18<5:46:45,  3.29s/it] 11%|███████████▍                                                                                         | 811/7135 [44:21<5:46:18,  3.29s/it] 11%|███████████▍                                                                                         | 812/7135 [44:24<5:32:33,  3.16s/it] 11%|███████████▌                                                                                         | 813/7135 [44:27<5:29:31,  3.13s/it] 11%|███████████▌                                                                                         | 814/7135 [44:30<5:28:42,  3.12s/it] 11%|███████████▌                                                                                         | 815/7135 [44:33<5:18:24,  3.02s/it] 11%|███████████▌                                                                                         | 816/7135 [44:36<5:14:59,  2.99s/it] 11%|███████████▌                                                                                         | 817/7135 [44:39<5:24:07,  3.08s/it] 11%|███████████▌                                                                                         | 818/7135 [44:42<5:12:54,  2.97s/it] 11%|███████████▌                                                                                         | 819/7135 [44:45<5:16:14,  3.00s/it] 11%|███████████▌                                                                                         | 820/7135 [44:48<5:18:01,  3.02s/it]                                                                                                                                               {'loss': 0.7745, 'grad_norm': 4.5625, 'learning_rate': 4.872237010961418e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 405.47, 'epoch': 1.15}
 11%|███████████▌                                                                                         | 820/7135 [44:48<5:18:01,  3.02s/it] 12%|███████████▌                                                                                         | 821/7135 [44:51<5:27:13,  3.11s/it] 12%|███████████▋                                                                                         | 822/7135 [44:54<5:09:26,  2.94s/it] 12%|███████████▋                                                                                         | 823/7135 [44:57<5:26:28,  3.10s/it] 12%|███████████▋                                                                                         | 824/7135 [45:00<5:21:12,  3.05s/it] 12%|███████████▋                                                                                         | 825/7135 [45:04<5:43:20,  3.26s/it] 12%|███████████▋                                                                                         | 826/7135 [45:07<5:38:16,  3.22s/it] 12%|███████████▋                                                                                         | 827/7135 [45:10<5:20:52,  3.05s/it] 12%|███████████▋                                                                                         | 828/7135 [45:13<5:22:40,  3.07s/it] 12%|███████████▋                                                                                         | 829/7135 [45:16<5:24:58,  3.09s/it] 12%|███████████▋                                                                                         | 830/7135 [45:19<5:24:48,  3.09s/it]                                                                                                                                               {'loss': 0.7386, 'grad_norm': 4.0625, 'learning_rate': 4.868690045599551e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 383.37, 'epoch': 1.16}
 12%|███████████▋                                                                                         | 830/7135 [45:19<5:24:48,  3.09s/it] 12%|███████████▊                                                                                         | 831/7135 [45:22<5:26:55,  3.11s/it] 12%|███████████▊                                                                                         | 832/7135 [45:25<5:18:51,  3.04s/it] 12%|███████████▊                                                                                         | 833/7135 [45:28<5:25:55,  3.10s/it] 12%|███████████▊                                                                                         | 834/7135 [45:31<5:13:40,  2.99s/it] 12%|███████████▊                                                                                         | 835/7135 [45:34<5:19:49,  3.05s/it] 12%|███████████▊                                                                                         | 836/7135 [45:37<5:13:42,  2.99s/it] 12%|███████████▊                                                                                         | 837/7135 [45:41<5:26:50,  3.11s/it] 12%|███████████▊                                                                                         | 838/7135 [45:44<5:33:12,  3.17s/it] 12%|███████████▉                                                                                         | 839/7135 [45:47<5:32:49,  3.17s/it] 12%|███████████▉                                                                                         | 840/7135 [45:50<5:23:25,  3.08s/it]                                                                                                                                               {'loss': 0.766, 'grad_norm': 4.8125, 'learning_rate': 4.8650958435914955e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 396.34, 'epoch': 1.18}
 12%|███████████▉                                                                                         | 840/7135 [45:50<5:23:25,  3.08s/it] 12%|███████████▉                                                                                         | 841/7135 [45:53<5:36:17,  3.21s/it] 12%|███████████▉                                                                                         | 842/7135 [45:57<5:50:43,  3.34s/it] 12%|███████████▉                                                                                         | 843/7135 [46:00<5:41:12,  3.25s/it] 12%|███████████▉                                                                                         | 844/7135 [46:03<5:38:53,  3.23s/it] 12%|███████████▉                                                                                         | 845/7135 [46:07<5:40:36,  3.25s/it] 12%|███████████▉                                                                                         | 846/7135 [46:10<5:43:58,  3.28s/it] 12%|███████████▉                                                                                         | 847/7135 [46:13<5:43:42,  3.28s/it] 12%|████████████                                                                                         | 848/7135 [46:17<5:55:21,  3.39s/it] 12%|████████████                                                                                         | 849/7135 [46:20<5:49:36,  3.34s/it] 12%|████████████                                                                                         | 850/7135 [46:23<5:42:41,  3.27s/it]                                                                                                                                               {'loss': 0.78, 'grad_norm': 3.1875, 'learning_rate': 4.861454476613174e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 467.15, 'epoch': 1.19}
 12%|████████████                                                                                         | 850/7135 [46:23<5:42:41,  3.27s/it] 12%|████████████                                                                                         | 851/7135 [46:27<6:12:24,  3.56s/it] 12%|████████████                                                                                         | 852/7135 [46:31<6:10:58,  3.54s/it] 12%|████████████                                                                                         | 853/7135 [46:34<5:51:22,  3.36s/it] 12%|████████████                                                                                         | 854/7135 [46:37<5:29:12,  3.14s/it] 12%|████████████                                                                                         | 855/7135 [46:40<5:26:07,  3.12s/it] 12%|████████████                                                                                         | 856/7135 [46:43<5:37:49,  3.23s/it] 12%|████████████▏                                                                                        | 857/7135 [46:46<5:35:19,  3.20s/it] 12%|████████████▏                                                                                        | 858/7135 [46:49<5:27:36,  3.13s/it] 12%|████████████▏                                                                                        | 859/7135 [46:53<5:38:01,  3.23s/it] 12%|████████████▏                                                                                        | 860/7135 [46:56<5:25:44,  3.11s/it]                                                                                                                                               {'loss': 0.6875, 'grad_norm': 3.9375, 'learning_rate': 4.8577660172810804e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 526.24, 'epoch': 1.2}
 12%|████████████▏                                                                                        | 860/7135 [46:56<5:25:44,  3.11s/it] 12%|████████████▏                                                                                        | 861/7135 [46:58<5:20:42,  3.07s/it] 12%|████████████▏                                                                                        | 862/7135 [47:02<5:36:48,  3.22s/it] 12%|████████████▏                                                                                        | 863/7135 [47:05<5:30:45,  3.16s/it] 12%|████████████▏                                                                                        | 864/7135 [47:08<5:20:36,  3.07s/it] 12%|████████████▏                                                                                        | 865/7135 [47:11<5:22:33,  3.09s/it] 12%|████████████▎                                                                                        | 866/7135 [47:14<5:24:31,  3.11s/it] 12%|████████████▎                                                                                        | 867/7135 [47:17<5:14:54,  3.01s/it] 12%|████████████▎                                                                                        | 868/7135 [47:20<5:14:23,  3.01s/it] 12%|████████████▎                                                                                        | 869/7135 [47:23<5:15:12,  3.02s/it] 12%|████████████▎                                                                                        | 870/7135 [47:26<5:16:22,  3.03s/it]                                                                                                                                               {'loss': 0.8772, 'grad_norm': 4.375, 'learning_rate': 4.854030539150827e-06, 'memory/max_active (GiB)': 34.73, 'memory/max_allocated (GiB)': 34.73, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 394.55, 'epoch': 1.22}
 12%|████████████▎                                                                                        | 870/7135 [47:26<5:16:22,  3.03s/it] 12%|████████████▎                                                                                        | 871/7135 [47:29<5:22:43,  3.09s/it] 12%|████████████▎                                                                                        | 872/7135 [47:32<5:24:00,  3.10s/it] 12%|████████████▎                                                                                        | 873/7135 [47:36<5:22:03,  3.09s/it] 12%|████████████▎                                                                                        | 874/7135 [47:38<5:11:05,  2.98s/it] 12%|████████████▍                                                                                        | 875/7135 [47:41<5:07:50,  2.95s/it] 12%|████████████▍                                                                                        | 876/7135 [47:45<5:26:31,  3.13s/it] 12%|████████████▍                                                                                        | 877/7135 [47:48<5:40:14,  3.26s/it] 12%|████████████▍                                                                                        | 878/7135 [47:51<5:26:23,  3.13s/it] 12%|████████████▍                                                                                        | 879/7135 [47:54<5:34:14,  3.21s/it] 12%|████████████▍                                                                                        | 880/7135 [47:58<5:30:06,  3.17s/it]                                                                                                                                               {'loss': 0.7364, 'grad_norm': 4.59375, 'learning_rate': 4.85024811671568e-06, 'memory/max_active (GiB)': 37.46, 'memory/max_allocated (GiB)': 37.46, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 367.58, 'epoch': 1.23}
 12%|████████████▍                                                                                        | 880/7135 [47:58<5:30:06,  3.17s/it] 12%|████████████▍                                                                                        | 881/7135 [48:01<5:30:02,  3.17s/it] 12%|████████████▍                                                                                        | 882/7135 [48:04<5:27:57,  3.15s/it] 12%|████████████▍                                                                                        | 883/7135 [48:07<5:21:25,  3.08s/it] 12%|████████████▌                                                                                        | 884/7135 [48:10<5:24:13,  3.11s/it] 12%|████████████▌                                                                                        | 885/7135 [48:13<5:37:55,  3.24s/it] 12%|████████████▌                                                                                        | 886/7135 [48:17<5:54:28,  3.40s/it] 12%|████████████▌                                                                                        | 887/7135 [48:20<5:49:44,  3.36s/it] 12%|████████████▌                                                                                        | 888/7135 [48:24<5:54:11,  3.40s/it] 12%|████████████▌                                                                                        | 889/7135 [48:27<5:43:42,  3.30s/it] 12%|████████████▌                                                                                        | 890/7135 [48:30<5:30:54,  3.18s/it]                                                                                                                                               {'loss': 0.7291, 'grad_norm': 3.6875, 'learning_rate': 4.846418825405075e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 463.57, 'epoch': 1.25}
 12%|████████████▌                                                                                        | 890/7135 [48:30<5:30:54,  3.18s/it] 12%|████████████▌                                                                                        | 891/7135 [48:33<5:16:08,  3.04s/it] 13%|████████████▋                                                                                        | 892/7135 [48:36<5:35:43,  3.23s/it] 13%|████████████▋                                                                                        | 893/7135 [48:39<5:29:56,  3.17s/it] 13%|████████████▋                                                                                        | 894/7135 [48:43<5:28:39,  3.16s/it] 13%|████████████▋                                                                                        | 895/7135 [48:46<5:50:38,  3.37s/it] 13%|████████████▋                                                                                        | 896/7135 [48:49<5:36:54,  3.24s/it] 13%|████████████▋                                                                                        | 897/7135 [48:53<5:49:02,  3.36s/it] 13%|████████████▋                                                                                        | 898/7135 [48:56<5:48:18,  3.35s/it] 13%|████████████▋                                                                                        | 899/7135 [48:59<5:31:35,  3.19s/it] 13%|████████████▋                                                                                        | 900/7135 [49:02<5:34:39,  3.22s/it]                                                                                                                                               {'loss': 0.9526, 'grad_norm': 3.84375, 'learning_rate': 4.842542741583108e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 371.73, 'epoch': 1.26}
 13%|████████████▋                                                                                        | 900/7135 [49:02<5:34:39,  3.22s/it] 13%|████████████▊                                                                                        | 901/7135 [49:06<5:46:57,  3.34s/it] 13%|████████████▊                                                                                        | 902/7135 [49:09<5:27:18,  3.15s/it] 13%|████████████▊                                                                                        | 903/7135 [49:12<5:39:29,  3.27s/it] 13%|████████████▊                                                                                        | 904/7135 [49:15<5:26:17,  3.14s/it] 13%|████████████▊                                                                                        | 905/7135 [49:18<5:26:52,  3.15s/it] 13%|████████████▊                                                                                        | 906/7135 [49:21<5:26:44,  3.15s/it] 13%|████████████▊                                                                                        | 907/7135 [49:25<5:26:15,  3.14s/it] 13%|████████████▊                                                                                        | 908/7135 [49:28<5:21:17,  3.10s/it] 13%|████████████▊                                                                                        | 909/7135 [49:31<5:25:19,  3.14s/it] 13%|████████████▉                                                                                        | 910/7135 [49:34<5:32:20,  3.20s/it]                                                                                                                                               {'loss': 0.7762, 'grad_norm': 3.984375, 'learning_rate': 4.83861994254702e-06, 'memory/max_active (GiB)': 42.47, 'memory/max_allocated (GiB)': 42.47, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 333.69, 'epoch': 1.27}
 13%|████████████▉                                                                                        | 910/7135 [49:34<5:32:20,  3.20s/it] 13%|████████████▉                                                                                        | 911/7135 [49:38<5:43:50,  3.31s/it] 13%|████████████▉                                                                                        | 912/7135 [49:41<5:42:12,  3.30s/it] 13%|████████████▉                                                                                        | 913/7135 [49:45<5:52:35,  3.40s/it] 13%|████████████▉                                                                                        | 914/7135 [49:47<5:37:11,  3.25s/it] 13%|████████████▉                                                                                        | 915/7135 [49:51<5:31:05,  3.19s/it] 13%|████████████▉                                                                                        | 916/7135 [49:53<5:13:04,  3.02s/it] 13%|████████████▉                                                                                        | 917/7135 [49:56<5:15:33,  3.04s/it] 13%|████████████▉                                                                                        | 918/7135 [50:00<5:31:10,  3.20s/it] 13%|█████████████                                                                                        | 919/7135 [50:04<5:51:48,  3.40s/it] 13%|█████████████                                                                                        | 920/7135 [50:07<5:58:25,  3.46s/it]                                                                                                                                               {'loss': 0.7811, 'grad_norm': 5.375, 'learning_rate': 4.834650506525649e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 393.96, 'epoch': 1.29}
 13%|█████████████                                                                                        | 920/7135 [50:07<5:58:25,  3.46s/it] 13%|█████████████                                                                                        | 921/7135 [50:11<5:52:12,  3.40s/it] 13%|█████████████                                                                                        | 922/7135 [50:14<5:42:03,  3.30s/it] 13%|█████████████                                                                                        | 923/7135 [50:17<5:32:07,  3.21s/it] 13%|█████████████                                                                                        | 924/7135 [50:20<5:27:55,  3.17s/it] 13%|█████████████                                                                                        | 925/7135 [50:23<5:23:21,  3.12s/it] 13%|█████████████                                                                                        | 926/7135 [50:25<5:12:00,  3.02s/it] 13%|█████████████                                                                                        | 927/7135 [50:29<5:20:53,  3.10s/it] 13%|█████████████▏                                                                                       | 928/7135 [50:32<5:20:32,  3.10s/it] 13%|█████████████▏                                                                                       | 929/7135 [50:35<5:21:37,  3.11s/it] 13%|█████████████▏                                                                                       | 930/7135 [50:39<5:38:01,  3.27s/it]                                                                                                                                               {'loss': 0.8047, 'grad_norm': 4.375, 'learning_rate': 4.83063451267787e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 330.69, 'epoch': 1.3}
 13%|█████████████▏                                                                                       | 930/7135 [50:39<5:38:01,  3.27s/it] 13%|█████████████▏                                                                                       | 931/7135 [50:42<5:34:51,  3.24s/it] 13%|█████████████▏                                                                                       | 932/7135 [50:45<5:31:43,  3.21s/it] 13%|█████████████▏                                                                                       | 933/7135 [50:48<5:35:48,  3.25s/it] 13%|█████████████▏                                                                                       | 934/7135 [50:51<5:30:59,  3.20s/it] 13%|█████████████▏                                                                                       | 935/7135 [50:54<5:19:15,  3.09s/it] 13%|█████████████▏                                                                                       | 936/7135 [50:57<5:02:52,  2.93s/it] 13%|█████████████▎                                                                                       | 937/7135 [50:59<4:50:54,  2.82s/it] 13%|█████████████▎                                                                                       | 938/7135 [51:02<5:00:19,  2.91s/it] 13%|█████████████▎                                                                                       | 939/7135 [51:06<5:16:28,  3.06s/it] 13%|█████████████▎                                                                                       | 940/7135 [51:09<5:18:52,  3.09s/it]                                                                                                                                               {'loss': 0.6933, 'grad_norm': 4.25, 'learning_rate': 4.826572041091024e-06, 'memory/max_active (GiB)': 35.13, 'memory/max_allocated (GiB)': 35.13, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 338.26, 'epoch': 1.32}
 13%|█████████████▎                                                                                       | 940/7135 [51:09<5:18:52,  3.09s/it] 13%|█████████████▎                                                                                       | 941/7135 [51:12<5:18:44,  3.09s/it] 13%|█████████████▎                                                                                       | 942/7135 [51:15<5:18:24,  3.08s/it] 13%|█████████████▎                                                                                       | 943/7135 [51:18<5:15:59,  3.06s/it] 13%|█████████████▎                                                                                       | 944/7135 [51:22<5:29:06,  3.19s/it] 13%|█████████████▍                                                                                       | 945/7135 [51:25<5:27:29,  3.17s/it] 13%|█████████████▍                                                                                       | 946/7135 [51:28<5:14:17,  3.05s/it] 13%|█████████████▍                                                                                       | 947/7135 [51:31<5:24:53,  3.15s/it] 13%|█████████████▍                                                                                       | 948/7135 [51:34<5:18:10,  3.09s/it] 13%|█████████████▍                                                                                       | 949/7135 [51:37<5:26:55,  3.17s/it] 13%|█████████████▍                                                                                       | 950/7135 [51:41<5:33:54,  3.24s/it]                                                                                                                                               {'loss': 0.9569, 'grad_norm': 3.328125, 'learning_rate': 4.82246317277931e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 389.1, 'epoch': 1.33}
 13%|█████████████▍                                                                                       | 950/7135 [51:41<5:33:54,  3.24s/it] 13%|█████████████▍                                                                                       | 951/7135 [51:44<5:30:01,  3.20s/it] 13%|█████████████▍                                                                                       | 952/7135 [51:47<5:27:32,  3.18s/it] 13%|█████████████▍                                                                                       | 953/7135 [51:51<5:57:32,  3.47s/it] 13%|█████████████▌                                                                                       | 954/7135 [51:54<5:54:12,  3.44s/it] 13%|█████████████▌                                                                                       | 955/7135 [51:57<5:34:06,  3.24s/it] 13%|█████████████▌                                                                                       | 956/7135 [52:00<5:20:17,  3.11s/it] 13%|█████████████▌                                                                                       | 957/7135 [52:03<5:26:46,  3.17s/it] 13%|█████████████▌                                                                                       | 958/7135 [52:07<5:28:06,  3.19s/it] 13%|█████████████▌                                                                                       | 959/7135 [52:10<5:22:21,  3.13s/it] 13%|█████████████▌                                                                                       | 960/7135 [52:13<5:20:20,  3.11s/it]                                                                                                                                               {'loss': 0.722, 'grad_norm': 4.28125, 'learning_rate': 4.81830798968218e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 416.22, 'epoch': 1.34}
 13%|█████████████▌                                                                                       | 960/7135 [52:13<5:20:20,  3.11s/it] 13%|█████████████▌                                                                                       | 961/7135 [52:16<5:15:15,  3.06s/it] 13%|█████████████▌                                                                                       | 962/7135 [52:19<5:41:00,  3.31s/it] 13%|█████████████▋                                                                                       | 963/7135 [52:23<5:41:59,  3.32s/it] 14%|█████████████▋                                                                                       | 964/7135 [52:27<6:02:06,  3.52s/it] 14%|█████████████▋                                                                                       | 965/7135 [52:30<5:48:14,  3.39s/it] 14%|█████████████▋                                                                                       | 966/7135 [52:34<6:18:41,  3.68s/it] 14%|█████████████▋                                                                                       | 967/7135 [52:38<6:07:33,  3.58s/it] 14%|█████████████▋                                                                                       | 968/7135 [52:41<6:15:45,  3.66s/it] 14%|█████████████▋                                                                                       | 969/7135 [52:45<6:14:26,  3.64s/it] 14%|█████████████▋                                                                                       | 970/7135 [52:49<6:11:59,  3.62s/it]                                                                                                                                               {'loss': 0.8559, 'grad_norm': 3.21875, 'learning_rate': 4.814106574662697e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 434.88, 'epoch': 1.36}
 14%|█████████████▋                                                                                       | 970/7135 [52:49<6:11:59,  3.62s/it] 14%|█████████████▋                                                                                       | 971/7135 [52:52<5:55:54,  3.46s/it] 14%|█████████████▊                                                                                       | 972/7135 [52:54<5:35:13,  3.26s/it] 14%|█████████████▊                                                                                       | 973/7135 [52:58<5:36:21,  3.28s/it] 14%|█████████████▊                                                                                       | 974/7135 [53:01<5:38:50,  3.30s/it] 14%|█████████████▊                                                                                       | 975/7135 [53:04<5:18:09,  3.10s/it] 14%|█████████████▊                                                                                       | 976/7135 [53:07<5:17:31,  3.09s/it] 14%|█████████████▊                                                                                       | 977/7135 [53:10<5:14:57,  3.07s/it] 14%|█████████████▊                                                                                       | 978/7135 [53:13<5:21:18,  3.13s/it] 14%|█████████████▊                                                                                       | 979/7135 [53:16<5:14:37,  3.07s/it] 14%|█████████████▊                                                                                       | 980/7135 [53:19<5:11:04,  3.03s/it]                                                                                                                                               {'loss': 0.7647, 'grad_norm': 4.34375, 'learning_rate': 4.809859011505885e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 377.4, 'epoch': 1.37}
 14%|█████████████▊                                                                                       | 980/7135 [53:19<5:11:04,  3.03s/it] 14%|█████████████▉                                                                                       | 981/7135 [53:22<5:01:57,  2.94s/it] 14%|█████████████▉                                                                                       | 982/7135 [53:25<5:07:06,  2.99s/it] 14%|█████████████▉                                                                                       | 983/7135 [53:29<5:37:03,  3.29s/it] 14%|█████████████▉                                                                                       | 984/7135 [53:32<5:26:58,  3.19s/it] 14%|█████████████▉                                                                                       | 985/7135 [53:35<5:21:57,  3.14s/it] 14%|█████████████▉                                                                                       | 986/7135 [53:38<5:25:28,  3.18s/it] 14%|█████████████▉                                                                                       | 987/7135 [53:42<5:46:21,  3.38s/it] 14%|█████████████▉                                                                                       | 988/7135 [53:45<5:35:15,  3.27s/it] 14%|█████████████▉                                                                                       | 989/7135 [53:49<5:47:33,  3.39s/it] 14%|██████████████                                                                                       | 990/7135 [53:52<5:37:40,  3.30s/it]                                                                                                                                               {'loss': 0.9132, 'grad_norm': 4.0, 'learning_rate': 4.8055653849170605e-06, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 521.41, 'epoch': 1.39}
 14%|██████████████                                                                                       | 990/7135 [53:52<5:37:40,  3.30s/it] 14%|██████████████                                                                                       | 991/7135 [53:55<5:37:23,  3.29s/it] 14%|██████████████                                                                                       | 992/7135 [53:58<5:26:16,  3.19s/it] 14%|██████████████                                                                                       | 993/7135 [54:01<5:15:13,  3.08s/it] 14%|██████████████                                                                                       | 994/7135 [54:04<5:10:16,  3.03s/it] 14%|██████████████                                                                                       | 995/7135 [54:07<5:19:49,  3.13s/it] 14%|██████████████                                                                                       | 996/7135 [54:10<5:13:50,  3.07s/it] 14%|██████████████                                                                                       | 997/7135 [54:13<5:16:35,  3.09s/it] 14%|██████████████▏                                                                                      | 998/7135 [54:17<5:31:16,  3.24s/it] 14%|██████████████▏                                                                                      | 999/7135 [54:20<5:26:34,  3.19s/it] 14%|██████████████                                                                                      | 1000/7135 [54:23<5:26:36,  3.19s/it]                                                                                                                                               {'loss': 0.7335, 'grad_norm': 5.28125, 'learning_rate': 4.80122578052014e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 342.98, 'epoch': 1.4}
 14%|██████████████                                                                                      | 1000/7135 [54:23<5:26:36,  3.19s/it] 14%|██████████████                                                                                      | 1001/7135 [54:26<5:30:25,  3.23s/it] 14%|██████████████                                                                                      | 1002/7135 [54:29<5:27:39,  3.21s/it] 14%|██████████████                                                                                      | 1003/7135 [54:33<5:45:54,  3.38s/it] 14%|██████████████                                                                                      | 1004/7135 [54:37<6:05:25,  3.58s/it] 14%|██████████████                                                                                      | 1005/7135 [54:40<5:44:15,  3.37s/it] 14%|██████████████                                                                                      | 1006/7135 [54:43<5:34:50,  3.28s/it] 14%|██████████████                                                                                      | 1007/7135 [54:47<5:46:49,  3.40s/it] 14%|██████████████▏                                                                                     | 1008/7135 [54:50<5:47:21,  3.40s/it] 14%|██████████████▏                                                                                     | 1009/7135 [54:54<5:47:15,  3.40s/it] 14%|██████████████▏                                                                                     | 1010/7135 [54:57<5:38:33,  3.32s/it]                                                                                                                                               {'loss': 0.7459, 'grad_norm': 4.59375, 'learning_rate': 4.796840284855934e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 423.05, 'epoch': 1.41}
 14%|██████████████▏                                                                                     | 1010/7135 [54:57<5:38:33,  3.32s/it] 14%|██████████████▏                                                                                     | 1011/7135 [55:00<5:25:16,  3.19s/it] 14%|██████████████▏                                                                                     | 1012/7135 [55:03<5:29:59,  3.23s/it] 14%|██████████████▏                                                                                     | 1013/7135 [55:07<5:37:47,  3.31s/it] 14%|██████████████▏                                                                                     | 1014/7135 [55:10<5:27:34,  3.21s/it] 14%|██████████████▏                                                                                     | 1015/7135 [55:13<5:23:15,  3.17s/it] 14%|██████████████▏                                                                                     | 1016/7135 [55:16<5:28:52,  3.22s/it] 14%|██████████████▎                                                                                     | 1017/7135 [55:19<5:28:35,  3.22s/it] 14%|██████████████▎                                                                                     | 1018/7135 [55:23<5:45:44,  3.39s/it] 14%|██████████████▎                                                                                     | 1019/7135 [55:27<5:59:24,  3.53s/it] 14%|██████████████▎                                                                                     | 1020/7135 [55:30<5:52:45,  3.46s/it]                                                                                                                                               {'loss': 0.8484, 'grad_norm': 7.75, 'learning_rate': 4.792408985380424e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 463.38, 'epoch': 1.43}
 14%|██████████████▎                                                                                     | 1020/7135 [55:30<5:52:45,  3.46s/it] 14%|██████████████▎                                                                                     | 1021/7135 [55:33<5:38:27,  3.32s/it] 14%|██████████████▎                                                                                     | 1022/7135 [55:36<5:29:49,  3.24s/it] 14%|██████████████▎                                                                                     | 1023/7135 [55:40<5:37:41,  3.32s/it] 14%|██████████████▎                                                                                     | 1024/7135 [55:43<5:27:12,  3.21s/it] 14%|██████████████▎                                                                                     | 1025/7135 [55:46<5:30:47,  3.25s/it] 14%|██████████████▍                                                                                     | 1026/7135 [55:49<5:22:19,  3.17s/it] 14%|██████████████▍                                                                                     | 1027/7135 [55:52<5:21:28,  3.16s/it] 14%|██████████████▍                                                                                     | 1028/7135 [55:55<5:22:37,  3.17s/it] 14%|██████████████▍                                                                                     | 1029/7135 [55:59<5:29:38,  3.24s/it] 14%|██████████████▍                                                                                     | 1030/7135 [56:02<5:33:39,  3.28s/it]                                                                                                                                               {'loss': 0.8222, 'grad_norm': 5.84375, 'learning_rate': 4.78793197046301e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 411.0, 'epoch': 1.44}
 14%|██████████████▍                                                                                     | 1030/7135 [56:02<5:33:39,  3.28s/it] 14%|██████████████▍                                                                                     | 1031/7135 [56:05<5:30:12,  3.25s/it] 14%|██████████████▍                                                                                     | 1032/7135 [56:08<5:31:53,  3.26s/it] 14%|██████████████▍                                                                                     | 1033/7135 [56:12<5:33:01,  3.27s/it] 14%|██████████████▍                                                                                     | 1034/7135 [56:15<5:26:39,  3.21s/it] 15%|██████████████▌                                                                                     | 1035/7135 [56:18<5:17:39,  3.12s/it] 15%|██████████████▌                                                                                     | 1036/7135 [56:21<5:07:23,  3.02s/it] 15%|██████████████▌                                                                                     | 1037/7135 [56:24<5:23:54,  3.19s/it] 15%|██████████████▌                                                                                     | 1038/7135 [56:27<5:18:05,  3.13s/it] 15%|██████████████▌                                                                                     | 1039/7135 [56:30<5:22:48,  3.18s/it] 15%|██████████████▌                                                                                     | 1040/7135 [56:34<5:27:48,  3.23s/it]                                                                                                                                               {'loss': 0.9784, 'grad_norm': 4.59375, 'learning_rate': 4.783409329384759e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 387.92, 'epoch': 1.46}
 15%|██████████████▌                                                                                     | 1040/7135 [56:34<5:27:48,  3.23s/it] 15%|██████████████▌                                                                                     | 1041/7135 [56:36<5:10:46,  3.06s/it] 15%|██████████████▌                                                                                     | 1042/7135 [56:40<5:24:49,  3.20s/it] 15%|██████████████▌                                                                                     | 1043/7135 [56:43<5:35:19,  3.30s/it] 15%|██████████████▋                                                                                     | 1044/7135 [56:47<5:50:08,  3.45s/it] 15%|██████████████▋                                                                                     | 1045/7135 [56:50<5:32:44,  3.28s/it] 15%|██████████████▋                                                                                     | 1046/7135 [56:53<5:32:02,  3.27s/it] 15%|██████████████▋                                                                                     | 1047/7135 [56:57<5:52:50,  3.48s/it] 15%|██████████████▋                                                                                     | 1048/7135 [57:01<5:47:59,  3.43s/it] 15%|██████████████▋                                                                                     | 1049/7135 [57:04<5:42:54,  3.38s/it] 15%|██████████████▋                                                                                     | 1050/7135 [57:07<5:35:33,  3.31s/it]                                                                                                                                               {'loss': 0.8816, 'grad_norm': 4.6875, 'learning_rate': 4.778841152336616e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 480.46, 'epoch': 1.47}
 15%|██████████████▋                                                                                     | 1050/7135 [57:07<5:35:33,  3.31s/it] 15%|██████████████▋                                                                                     | 1051/7135 [57:10<5:25:05,  3.21s/it] 15%|██████████████▋                                                                                     | 1052/7135 [57:13<5:16:15,  3.12s/it] 15%|██████████████▊                                                                                     | 1053/7135 [57:16<5:05:40,  3.02s/it] 15%|██████████████▊                                                                                     | 1054/7135 [57:19<5:08:28,  3.04s/it] 15%|██████████████▊                                                                                     | 1055/7135 [57:23<5:28:41,  3.24s/it] 15%|██████████████▊                                                                                     | 1056/7135 [57:26<5:19:30,  3.15s/it] 15%|██████████████▊                                                                                     | 1057/7135 [57:29<5:29:07,  3.25s/it] 15%|██████████████▊                                                                                     | 1058/7135 [57:32<5:23:01,  3.19s/it] 15%|██████████████▊                                                                                     | 1059/7135 [57:35<5:08:12,  3.04s/it] 15%|██████████████▊                                                                                     | 1060/7135 [57:38<5:15:29,  3.12s/it]                                                                                                                                               {'loss': 0.7413, 'grad_norm': 3.796875, 'learning_rate': 4.7742275304176115e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 350.1, 'epoch': 1.48}
 15%|██████████████▊                                                                                     | 1060/7135 [57:38<5:15:29,  3.12s/it] 15%|██████████████▊                                                                                     | 1061/7135 [57:41<5:04:47,  3.01s/it] 15%|██████████████▉                                                                                     | 1062/7135 [57:44<5:01:38,  2.98s/it] 15%|██████████████▉                                                                                     | 1063/7135 [57:48<5:34:59,  3.31s/it] 15%|██████████████▉                                                                                     | 1064/7135 [57:51<5:27:39,  3.24s/it] 15%|██████████████▉                                                                                     | 1065/7135 [57:55<5:40:10,  3.36s/it] 15%|██████████████▉                                                                                     | 1066/7135 [57:58<5:50:54,  3.47s/it] 15%|██████████████▉                                                                                     | 1067/7135 [58:01<5:26:33,  3.23s/it] 15%|██████████████▉                                                                                     | 1068/7135 [58:04<5:25:06,  3.22s/it] 15%|██████████████▉                                                                                     | 1069/7135 [58:08<5:35:25,  3.32s/it] 15%|██████████████▉                                                                                     | 1070/7135 [58:11<5:23:17,  3.20s/it]                                                                                                                                               {'loss': 0.7823, 'grad_norm': 3.65625, 'learning_rate': 4.769568555633038e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 427.84, 'epoch': 1.5}
 15%|██████████████▉                                                                                     | 1070/7135 [58:11<5:23:17,  3.20s/it] 15%|███████████████                                                                                     | 1071/7135 [58:13<5:07:32,  3.04s/it] 15%|███████████████                                                                                     | 1072/7135 [58:16<5:06:58,  3.04s/it] 15%|███████████████                                                                                     | 1073/7135 [58:20<5:14:44,  3.12s/it] 15%|███████████████                                                                                     | 1074/7135 [58:23<5:35:24,  3.32s/it] 15%|███████████████                                                                                     | 1075/7135 [58:26<5:28:05,  3.25s/it] 15%|███████████████                                                                                     | 1076/7135 [58:29<5:20:34,  3.17s/it] 15%|███████████████                                                                                     | 1077/7135 [58:33<5:19:15,  3.16s/it] 15%|███████████████                                                                                     | 1078/7135 [58:36<5:15:58,  3.13s/it] 15%|███████████████                                                                                     | 1079/7135 [58:38<5:03:54,  3.01s/it] 15%|███████████████▏                                                                                    | 1080/7135 [58:42<5:08:58,  3.06s/it]                                                                                                                                               {'loss': 0.7587, 'grad_norm': 3.640625, 'learning_rate': 4.7648643208926246e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 395.53, 'epoch': 1.51}
 15%|███████████████▏                                                                                    | 1080/7135 [58:42<5:08:58,  3.06s/it] 15%|███████████████▏                                                                                    | 1081/7135 [58:45<5:20:30,  3.18s/it] 15%|███████████████▏                                                                                    | 1082/7135 [58:49<5:33:02,  3.30s/it] 15%|███████████████▏                                                                                    | 1083/7135 [58:51<5:20:11,  3.17s/it] 15%|███████████████▏                                                                                    | 1084/7135 [58:54<5:13:59,  3.11s/it] 15%|███████████████▏                                                                                    | 1085/7135 [58:58<5:38:52,  3.36s/it] 15%|███████████████▏                                                                                    | 1086/7135 [59:02<5:37:28,  3.35s/it] 15%|███████████████▏                                                                                    | 1087/7135 [59:05<5:34:10,  3.32s/it] 15%|███████████████▏                                                                                    | 1088/7135 [59:08<5:26:53,  3.24s/it] 15%|███████████████▎                                                                                    | 1089/7135 [59:11<5:17:50,  3.15s/it] 15%|███████████████▎                                                                                    | 1090/7135 [59:15<5:36:07,  3.34s/it]                                                                                                                                               {'loss': 0.8001, 'grad_norm': 3.859375, 'learning_rate': 4.760114920008673e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 353.39, 'epoch': 1.53}
 15%|███████████████▎                                                                                    | 1090/7135 [59:15<5:36:07,  3.34s/it] 15%|███████████████▎                                                                                    | 1091/7135 [59:18<5:29:29,  3.27s/it] 15%|███████████████▎                                                                                    | 1092/7135 [59:21<5:31:00,  3.29s/it] 15%|███████████████▎                                                                                    | 1093/7135 [59:24<5:18:45,  3.17s/it] 15%|███████████████▎                                                                                    | 1094/7135 [59:27<5:12:04,  3.10s/it] 15%|███████████████▎                                                                                    | 1095/7135 [59:30<5:13:18,  3.11s/it] 15%|███████████████▎                                                                                    | 1096/7135 [59:33<4:57:11,  2.95s/it] 15%|███████████████▎                                                                                    | 1097/7135 [59:36<4:57:57,  2.96s/it] 15%|███████████████▍                                                                                    | 1098/7135 [59:39<4:59:08,  2.97s/it] 15%|███████████████▍                                                                                    | 1099/7135 [59:42<5:10:29,  3.09s/it] 15%|███████████████▍                                                                                    | 1100/7135 [59:45<5:15:25,  3.14s/it]                                                                                                                                               {'loss': 0.8068, 'grad_norm': 8.0625, 'learning_rate': 4.755320447694198e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.25, 'tokens_per_second_per_gpu': 359.27, 'epoch': 1.54}
 15%|███████████████▍                                                                                    | 1100/7135 [59:45<5:15:25,  3.14s/it] 15%|███████████████▍                                                                                    | 1101/7135 [59:48<5:16:21,  3.15s/it] 15%|███████████████▍                                                                                    | 1102/7135 [59:52<5:20:07,  3.18s/it] 15%|███████████████▍                                                                                    | 1103/7135 [59:55<5:25:54,  3.24s/it] 15%|███████████████▍                                                                                    | 1104/7135 [59:59<5:57:19,  3.55s/it] 15%|███████████████▏                                                                                  | 1105/7135 [1:00:02<5:37:46,  3.36s/it] 16%|███████████████▏                                                                                  | 1106/7135 [1:00:06<5:38:50,  3.37s/it] 16%|███████████████▏                                                                                  | 1107/7135 [1:00:09<5:28:04,  3.27s/it] 16%|███████████████▏                                                                                  | 1108/7135 [1:00:12<5:21:14,  3.20s/it] 16%|███████████████▏                                                                                  | 1109/7135 [1:00:16<5:39:09,  3.38s/it] 16%|███████████████▏                                                                                  | 1110/7135 [1:00:19<5:32:46,  3.31s/it]                                                                                                                                               {'loss': 0.8131, 'grad_norm': 4.53125, 'learning_rate': 4.750480999561028e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 472.55, 'epoch': 1.56}
 16%|███████████████▏                                                                                  | 1110/7135 [1:00:19<5:32:46,  3.31s/it] 16%|███████████████▎                                                                                  | 1111/7135 [1:00:23<5:52:51,  3.51s/it] 16%|███████████████▎                                                                                  | 1112/7135 [1:00:27<6:21:01,  3.80s/it] 16%|███████████████▎                                                                                  | 1113/7135 [1:00:30<5:59:21,  3.58s/it] 16%|███████████████▎                                                                                  | 1114/7135 [1:00:33<5:46:46,  3.46s/it] 16%|███████████████▎                                                                                  | 1115/7135 [1:00:37<5:48:54,  3.48s/it] 16%|███████████████▎                                                                                  | 1116/7135 [1:00:40<5:40:12,  3.39s/it] 16%|███████████████▎                                                                                  | 1117/7135 [1:00:44<5:48:06,  3.47s/it] 16%|███████████████▎                                                                                  | 1118/7135 [1:00:47<5:42:08,  3.41s/it] 16%|███████████████▎                                                                                  | 1119/7135 [1:00:50<5:42:22,  3.41s/it] 16%|███████████████▍                                                                                  | 1120/7135 [1:00:54<5:42:00,  3.41s/it]                                                                                                                                               {'loss': 0.7706, 'grad_norm': 5.53125, 'learning_rate': 4.745596672117908e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 339.29, 'epoch': 1.57}
 16%|███████████████▍                                                                                  | 1120/7135 [1:00:54<5:42:00,  3.41s/it] 16%|███████████████▍                                                                                  | 1121/7135 [1:00:57<5:42:57,  3.42s/it] 16%|███████████████▍                                                                                  | 1122/7135 [1:01:01<5:44:06,  3.43s/it] 16%|███████████████▍                                                                                  | 1123/7135 [1:01:04<5:39:10,  3.38s/it] 16%|███████████████▍                                                                                  | 1124/7135 [1:01:08<5:45:45,  3.45s/it] 16%|███████████████▍                                                                                  | 1125/7135 [1:01:11<5:27:57,  3.27s/it] 16%|███████████████▍                                                                                  | 1126/7135 [1:01:14<5:44:25,  3.44s/it] 16%|███████████████▍                                                                                  | 1127/7135 [1:01:18<5:37:46,  3.37s/it] 16%|███████████████▍                                                                                  | 1128/7135 [1:01:21<5:32:32,  3.32s/it] 16%|███████████████▌                                                                                  | 1129/7135 [1:01:24<5:35:41,  3.35s/it] 16%|███████████████▌                                                                                  | 1130/7135 [1:01:27<5:24:19,  3.24s/it]                                                                                                                                               {'loss': 0.7282, 'grad_norm': 5.3125, 'learning_rate': 4.740667562768569e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 401.3, 'epoch': 1.58}
 16%|███████████████▌                                                                                  | 1130/7135 [1:01:27<5:24:19,  3.24s/it] 16%|███████████████▌                                                                                  | 1131/7135 [1:01:30<5:19:18,  3.19s/it] 16%|███████████████▌                                                                                  | 1132/7135 [1:01:33<5:16:25,  3.16s/it] 16%|███████████████▌                                                                                  | 1133/7135 [1:01:36<5:11:10,  3.11s/it] 16%|███████████████▌                                                                                  | 1134/7135 [1:01:39<5:08:17,  3.08s/it] 16%|███████████████▌                                                                                  | 1135/7135 [1:01:43<5:18:03,  3.18s/it] 16%|███████████████▌                                                                                  | 1136/7135 [1:01:46<5:22:05,  3.22s/it] 16%|███████████████▌                                                                                  | 1137/7135 [1:01:50<5:34:27,  3.35s/it] 16%|███████████████▋                                                                                  | 1138/7135 [1:01:53<5:19:25,  3.20s/it] 16%|███████████████▋                                                                                  | 1139/7135 [1:01:55<5:08:17,  3.08s/it] 16%|███████████████▋                                                                                  | 1140/7135 [1:01:58<4:59:28,  3.00s/it]                                                                                                                                               {'loss': 0.7958, 'grad_norm': 5.71875, 'learning_rate': 4.735693769809785e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 392.09, 'epoch': 1.6}
 16%|███████████████▋                                                                                  | 1140/7135 [1:01:58<4:59:28,  3.00s/it] 16%|███████████████▋                                                                                  | 1141/7135 [1:02:01<4:59:23,  3.00s/it] 16%|███████████████▋                                                                                  | 1142/7135 [1:02:05<5:14:22,  3.15s/it] 16%|███████████████▋                                                                                  | 1143/7135 [1:02:08<5:21:59,  3.22s/it] 16%|███████████████▋                                                                                  | 1144/7135 [1:02:11<5:22:27,  3.23s/it] 16%|███████████████▋                                                                                  | 1145/7135 [1:02:14<5:17:23,  3.18s/it] 16%|███████████████▋                                                                                  | 1146/7135 [1:02:18<5:16:29,  3.17s/it] 16%|███████████████▊                                                                                  | 1147/7135 [1:02:21<5:16:06,  3.17s/it] 16%|███████████████▊                                                                                  | 1148/7135 [1:02:24<5:14:08,  3.15s/it] 16%|███████████████▊                                                                                  | 1149/7135 [1:02:27<5:11:19,  3.12s/it] 16%|███████████████▊                                                                                  | 1150/7135 [1:02:30<5:14:46,  3.16s/it]                                                                                                                                               {'loss': 0.7487, 'grad_norm': 3.953125, 'learning_rate': 4.7306753924294186e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 380.82, 'epoch': 1.61}
 16%|███████████████▊                                                                                  | 1150/7135 [1:02:30<5:14:46,  3.16s/it] 16%|███████████████▊                                                                                  | 1151/7135 [1:02:34<5:34:18,  3.35s/it] 16%|███████████████▊                                                                                  | 1152/7135 [1:02:37<5:23:45,  3.25s/it] 16%|███████████████▊                                                                                  | 1153/7135 [1:02:40<5:26:34,  3.28s/it] 16%|███████████████▊                                                                                  | 1154/7135 [1:02:43<5:25:02,  3.26s/it] 16%|███████████████▊                                                                                  | 1155/7135 [1:02:47<5:27:16,  3.28s/it] 16%|███████████████▉                                                                                  | 1156/7135 [1:02:50<5:26:47,  3.28s/it] 16%|███████████████▉                                                                                  | 1157/7135 [1:02:53<5:23:18,  3.24s/it] 16%|███████████████▉                                                                                  | 1158/7135 [1:02:57<5:45:04,  3.46s/it] 16%|███████████████▉                                                                                  | 1159/7135 [1:03:01<5:40:19,  3.42s/it] 16%|███████████████▉                                                                                  | 1160/7135 [1:03:03<5:27:24,  3.29s/it]                                                                                                                                               {'loss': 0.7317, 'grad_norm': 3.84375, 'learning_rate': 4.725612530704435e-06, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 443.05, 'epoch': 1.63}
 16%|███████████████▉                                                                                  | 1160/7135 [1:03:04<5:27:24,  3.29s/it] 16%|███████████████▉                                                                                  | 1161/7135 [1:03:07<5:19:01,  3.20s/it] 16%|███████████████▉                                                                                  | 1162/7135 [1:03:10<5:15:37,  3.17s/it] 16%|███████████████▉                                                                                  | 1163/7135 [1:03:13<5:13:27,  3.15s/it] 16%|███████████████▉                                                                                  | 1164/7135 [1:03:15<5:00:33,  3.02s/it] 16%|████████████████                                                                                  | 1165/7135 [1:03:18<4:53:51,  2.95s/it] 16%|████████████████                                                                                  | 1166/7135 [1:03:22<5:04:54,  3.06s/it] 16%|████████████████                                                                                  | 1167/7135 [1:03:24<5:00:22,  3.02s/it] 16%|████████████████                                                                                  | 1168/7135 [1:03:27<4:57:27,  2.99s/it] 16%|████████████████                                                                                  | 1169/7135 [1:03:31<5:08:19,  3.10s/it] 16%|████████████████                                                                                  | 1170/7135 [1:03:34<5:02:26,  3.04s/it]                                                                                                                                               {'loss': 0.8756, 'grad_norm': 4.53125, 'learning_rate': 4.720505285598916e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 425.2, 'epoch': 1.64}
 16%|████████████████                                                                                  | 1170/7135 [1:03:34<5:02:26,  3.04s/it] 16%|████████████████                                                                                  | 1171/7135 [1:03:38<5:27:59,  3.30s/it] 16%|████████████████                                                                                  | 1172/7135 [1:03:41<5:43:52,  3.46s/it] 16%|████████████████                                                                                  | 1173/7135 [1:03:45<6:03:19,  3.66s/it] 16%|████████████████▏                                                                                 | 1174/7135 [1:03:49<5:48:24,  3.51s/it] 16%|████████████████▏                                                                                 | 1175/7135 [1:03:52<5:38:50,  3.41s/it] 16%|████████████████▏                                                                                 | 1176/7135 [1:03:55<5:25:40,  3.28s/it] 16%|████████████████▏                                                                                 | 1177/7135 [1:03:58<5:14:09,  3.16s/it] 17%|████████████████▏                                                                                 | 1178/7135 [1:04:01<5:23:38,  3.26s/it] 17%|████████████████▏                                                                                 | 1179/7135 [1:04:05<5:29:52,  3.32s/it] 17%|████████████████▏                                                                                 | 1180/7135 [1:04:08<5:18:33,  3.21s/it]                                                                                                                                               {'loss': 0.8491, 'grad_norm': 4.1875, 'learning_rate': 4.715353758962035e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 519.47, 'epoch': 1.65}
 17%|████████████████▏                                                                                 | 1180/7135 [1:04:08<5:18:33,  3.21s/it] 17%|████████████████▏                                                                                 | 1181/7135 [1:04:10<5:05:57,  3.08s/it] 17%|████████████████▏                                                                                 | 1182/7135 [1:04:14<5:22:27,  3.25s/it] 17%|████████████████▏                                                                                 | 1183/7135 [1:04:18<5:48:38,  3.51s/it] 17%|████████████████▎                                                                                 | 1184/7135 [1:04:21<5:38:13,  3.41s/it] 17%|████████████████▎                                                                                 | 1185/7135 [1:04:25<5:34:55,  3.38s/it] 17%|████████████████▎                                                                                 | 1186/7135 [1:04:28<5:22:38,  3.25s/it] 17%|████████████████▎                                                                                 | 1187/7135 [1:04:30<5:11:42,  3.14s/it] 17%|████████████████▎                                                                                 | 1188/7135 [1:04:34<5:19:20,  3.22s/it] 17%|████████████████▎                                                                                 | 1189/7135 [1:04:37<5:13:33,  3.16s/it] 17%|████████████████▎                                                                                 | 1190/7135 [1:04:40<5:11:57,  3.15s/it]                                                                                                                                               {'loss': 0.8478, 'grad_norm': 4.3125, 'learning_rate': 4.710158053526036e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 401.79, 'epoch': 1.67}
 17%|████████████████▎                                                                                 | 1190/7135 [1:04:40<5:11:57,  3.15s/it] 17%|████████████████▎                                                                                 | 1191/7135 [1:04:44<5:30:27,  3.34s/it] 17%|████████████████▎                                                                                 | 1192/7135 [1:04:47<5:28:10,  3.31s/it] 17%|████████████████▍                                                                                 | 1193/7135 [1:04:50<5:25:01,  3.28s/it] 17%|████████████████▍                                                                                 | 1194/7135 [1:04:54<5:27:27,  3.31s/it] 17%|████████████████▍                                                                                 | 1195/7135 [1:04:57<5:31:26,  3.35s/it] 17%|████████████████▍                                                                                 | 1196/7135 [1:05:00<5:22:39,  3.26s/it] 17%|████████████████▍                                                                                 | 1197/7135 [1:05:04<5:39:14,  3.43s/it] 17%|████████████████▍                                                                                 | 1198/7135 [1:05:07<5:24:32,  3.28s/it] 17%|████████████████▍                                                                                 | 1199/7135 [1:05:10<5:29:03,  3.33s/it] 17%|████████████████▍                                                                                 | 1200/7135 [1:05:13<5:07:59,  3.11s/it]                                                                                                                                               {'loss': 0.8617, 'grad_norm': 4.34375, 'learning_rate': 4.70491827290418e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 498.08, 'epoch': 1.68}
 17%|████████████████▍                                                                                 | 1200/7135 [1:05:13<5:07:59,  3.11s/it] 17%|████████████████▍                                                                                 | 1201/7135 [1:05:17<5:33:57,  3.38s/it] 17%|████████████████▌                                                                                 | 1202/7135 [1:05:21<5:41:06,  3.45s/it] 17%|████████████████▌                                                                                 | 1203/7135 [1:05:24<5:36:47,  3.41s/it] 17%|████████████████▌                                                                                 | 1204/7135 [1:05:27<5:36:15,  3.40s/it] 17%|████████████████▌                                                                                 | 1205/7135 [1:05:30<5:12:37,  3.16s/it] 17%|████████████████▌                                                                                 | 1206/7135 [1:05:33<5:09:56,  3.14s/it] 17%|████████████████▌                                                                                 | 1207/7135 [1:05:36<5:12:49,  3.17s/it] 17%|████████████████▌                                                                                 | 1208/7135 [1:05:40<5:29:21,  3.33s/it] 17%|████████████████▌                                                                                 | 1209/7135 [1:05:43<5:16:51,  3.21s/it] 17%|████████████████▌                                                                                 | 1210/7135 [1:05:47<5:39:30,  3.44s/it]                                                                                                                                               {'loss': 0.8708, 'grad_norm': 3.390625, 'learning_rate': 4.6996345215886795e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 372.32, 'epoch': 1.7}
 17%|████████████████▌                                                                                 | 1210/7135 [1:05:47<5:39:30,  3.44s/it] 17%|████████████████▋                                                                                 | 1211/7135 [1:05:50<5:28:25,  3.33s/it] 17%|████████████████▋                                                                                 | 1212/7135 [1:05:53<5:27:38,  3.32s/it] 17%|████████████████▋                                                                                 | 1213/7135 [1:05:56<5:15:33,  3.20s/it] 17%|████████████████▋                                                                                 | 1214/7135 [1:05:59<5:01:57,  3.06s/it] 17%|████████████████▋                                                                                 | 1215/7135 [1:06:03<5:25:00,  3.29s/it] 17%|████████████████▋                                                                                 | 1216/7135 [1:06:06<5:23:38,  3.28s/it] 17%|████████████████▋                                                                                 | 1217/7135 [1:06:09<5:22:29,  3.27s/it] 17%|████████████████▋                                                                                 | 1218/7135 [1:06:12<5:10:16,  3.15s/it] 17%|████████████████▋                                                                                 | 1219/7135 [1:06:15<5:09:49,  3.14s/it] 17%|████████████████▊                                                                                 | 1220/7135 [1:06:18<5:12:47,  3.17s/it]                                                                                                                                               {'loss': 0.8458, 'grad_norm': 4.125, 'learning_rate': 4.694306904948615e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 430.93, 'epoch': 1.71}
 17%|████████████████▊                                                                                 | 1220/7135 [1:06:18<5:12:47,  3.17s/it] 17%|████████████████▊                                                                                 | 1221/7135 [1:06:21<5:02:10,  3.07s/it] 17%|████████████████▊                                                                                 | 1222/7135 [1:06:25<5:12:16,  3.17s/it] 17%|████████████████▊                                                                                 | 1223/7135 [1:06:28<5:22:23,  3.27s/it] 17%|████████████████▊                                                                                 | 1224/7135 [1:06:31<5:21:09,  3.26s/it] 17%|████████████████▊                                                                                 | 1225/7135 [1:06:34<5:17:20,  3.22s/it] 17%|████████████████▊                                                                                 | 1226/7135 [1:06:37<5:09:22,  3.14s/it] 17%|████████████████▊                                                                                 | 1227/7135 [1:06:40<5:05:25,  3.10s/it] 17%|████████████████▊                                                                                 | 1228/7135 [1:06:44<5:04:51,  3.10s/it] 17%|████████████████▉                                                                                 | 1229/7135 [1:06:46<4:59:55,  3.05s/it] 17%|████████████████▉                                                                                 | 1230/7135 [1:06:49<4:57:53,  3.03s/it]                                                                                                                                               {'loss': 0.7214, 'grad_norm': 5.0625, 'learning_rate': 4.688935529227831e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 372.33, 'epoch': 1.72}
 17%|████████████████▉                                                                                 | 1230/7135 [1:06:49<4:57:53,  3.03s/it] 17%|████████████████▉                                                                                 | 1231/7135 [1:06:52<4:54:13,  2.99s/it] 17%|████████████████▉                                                                                 | 1232/7135 [1:06:55<4:53:36,  2.98s/it] 17%|████████████████▉                                                                                 | 1233/7135 [1:06:59<5:09:49,  3.15s/it] 17%|████████████████▉                                                                                 | 1234/7135 [1:07:02<5:20:16,  3.26s/it] 17%|████████████████▉                                                                                 | 1235/7135 [1:07:06<5:17:37,  3.23s/it] 17%|████████████████▉                                                                                 | 1236/7135 [1:07:09<5:14:41,  3.20s/it] 17%|████████████████▉                                                                                 | 1237/7135 [1:07:12<5:13:02,  3.18s/it] 17%|█████████████████                                                                                 | 1238/7135 [1:07:15<5:09:29,  3.15s/it] 17%|█████████████████                                                                                 | 1239/7135 [1:07:18<5:16:28,  3.22s/it] 17%|█████████████████                                                                                 | 1240/7135 [1:07:21<5:12:33,  3.18s/it]                                                                                                                                               {'loss': 0.9438, 'grad_norm': 5.1875, 'learning_rate': 4.683520501542825e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 425.54, 'epoch': 1.74}
 17%|█████████████████                                                                                 | 1240/7135 [1:07:21<5:12:33,  3.18s/it] 17%|█████████████████                                                                                 | 1241/7135 [1:07:25<5:21:21,  3.27s/it] 17%|█████████████████                                                                                 | 1242/7135 [1:07:28<5:20:41,  3.27s/it] 17%|█████████████████                                                                                 | 1243/7135 [1:07:32<5:31:35,  3.38s/it] 17%|█████████████████                                                                                 | 1244/7135 [1:07:34<5:11:13,  3.17s/it] 17%|█████████████████                                                                                 | 1245/7135 [1:07:38<5:18:55,  3.25s/it] 17%|█████████████████                                                                                 | 1246/7135 [1:07:41<5:18:01,  3.24s/it] 17%|█████████████████▏                                                                                | 1247/7135 [1:07:44<5:19:53,  3.26s/it] 17%|█████████████████▏                                                                                | 1248/7135 [1:07:48<5:19:38,  3.26s/it] 18%|█████████████████▏                                                                                | 1249/7135 [1:07:51<5:12:19,  3.18s/it] 18%|█████████████████▏                                                                                | 1250/7135 [1:07:55<5:33:17,  3.40s/it]                                                                                                                                               {'loss': 0.8334, 'grad_norm': 1.796875, 'learning_rate': 4.678061929880602e-06, 'memory/max_active (GiB)': 44.58, 'memory/max_allocated (GiB)': 44.58, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 392.2, 'epoch': 1.75}
 18%|█████████████████▏                                                                                | 1250/7135 [1:07:55<5:33:17,  3.40s/it] 18%|█████████████████▏                                                                                | 1251/7135 [1:07:57<5:15:35,  3.22s/it] 18%|█████████████████▏                                                                                | 1252/7135 [1:08:00<5:08:49,  3.15s/it] 18%|█████████████████▏                                                                                | 1253/7135 [1:08:03<5:06:31,  3.13s/it] 18%|█████████████████▏                                                                                | 1254/7135 [1:08:06<5:04:33,  3.11s/it] 18%|█████████████████▏                                                                                | 1255/7135 [1:08:09<4:58:06,  3.04s/it] 18%|█████████████████▎                                                                                | 1256/7135 [1:08:12<4:57:08,  3.03s/it] 18%|█████████████████▎                                                                                | 1257/7135 [1:08:15<4:49:48,  2.96s/it] 18%|█████████████████▎                                                                                | 1258/7135 [1:08:18<5:01:10,  3.07s/it] 18%|█████████████████▎                                                                                | 1259/7135 [1:08:21<4:54:46,  3.01s/it] 18%|█████████████████▎                                                                                | 1260/7135 [1:08:24<4:52:56,  2.99s/it]                                                                                                                                               {'loss': 0.7109, 'grad_norm': 4.75, 'learning_rate': 4.672559923096526e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 339.15, 'epoch': 1.77}
 18%|█████████████████▎                                                                                | 1260/7135 [1:08:24<4:52:56,  2.99s/it] 18%|█████████████████▎                                                                                | 1261/7135 [1:08:28<5:16:08,  3.23s/it] 18%|█████████████████▎                                                                                | 1262/7135 [1:08:31<5:03:20,  3.10s/it] 18%|█████████████████▎                                                                                | 1263/7135 [1:08:33<4:49:49,  2.96s/it] 18%|█████████████████▎                                                                                | 1264/7135 [1:08:37<4:54:34,  3.01s/it] 18%|█████████████████▎                                                                                | 1265/7135 [1:08:40<5:04:13,  3.11s/it] 18%|█████████████████▍                                                                                | 1266/7135 [1:08:43<5:13:34,  3.21s/it] 18%|█████████████████▍                                                                                | 1267/7135 [1:08:47<5:12:49,  3.20s/it] 18%|█████████████████▍                                                                                | 1268/7135 [1:08:50<5:12:49,  3.20s/it] 18%|█████████████████▍                                                                                | 1269/7135 [1:08:53<5:12:49,  3.20s/it] 18%|█████████████████▍                                                                                | 1270/7135 [1:08:56<4:56:35,  3.03s/it]                                                                                                                                               {'loss': 0.7063, 'grad_norm': 4.03125, 'learning_rate': 4.66701459091215e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 438.34, 'epoch': 1.78}
 18%|█████████████████▍                                                                                | 1270/7135 [1:08:56<4:56:35,  3.03s/it] 18%|█████████████████▍                                                                                | 1271/7135 [1:08:59<4:55:22,  3.02s/it] 18%|█████████████████▍                                                                                | 1272/7135 [1:09:02<4:54:12,  3.01s/it] 18%|█████████████████▍                                                                                | 1273/7135 [1:09:04<4:49:49,  2.97s/it] 18%|█████████████████▍                                                                                | 1274/7135 [1:09:07<4:45:15,  2.92s/it] 18%|█████████████████▌                                                                                | 1275/7135 [1:09:11<5:18:30,  3.26s/it] 18%|█████████████████▌                                                                                | 1276/7135 [1:09:14<5:07:58,  3.15s/it] 18%|█████████████████▌                                                                                | 1277/7135 [1:09:18<5:21:19,  3.29s/it] 18%|█████████████████▌                                                                                | 1278/7135 [1:09:22<5:32:35,  3.41s/it] 18%|█████████████████▌                                                                                | 1279/7135 [1:09:25<5:26:14,  3.34s/it] 18%|█████████████████▌                                                                                | 1280/7135 [1:09:28<5:23:54,  3.32s/it]                                                                                                                                               {'loss': 0.9071, 'grad_norm': 2.4375, 'learning_rate': 4.661426043913024e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 416.09, 'epoch': 1.79}
 18%|█████████████████▌                                                                                | 1280/7135 [1:09:28<5:23:54,  3.32s/it] 18%|█████████████████▌                                                                                | 1281/7135 [1:09:31<5:14:20,  3.22s/it] 18%|█████████████████▌                                                                                | 1282/7135 [1:09:34<4:57:59,  3.05s/it] 18%|█████████████████▌                                                                                | 1283/7135 [1:09:37<4:58:16,  3.06s/it] 18%|█████████████████▋                                                                                | 1284/7135 [1:09:40<4:55:47,  3.03s/it] 18%|█████████████████▋                                                                                | 1285/7135 [1:09:43<5:05:18,  3.13s/it] 18%|█████████████████▋                                                                                | 1286/7135 [1:09:46<4:55:38,  3.03s/it] 18%|█████████████████▋                                                                                | 1287/7135 [1:09:49<4:51:53,  2.99s/it] 18%|█████████████████▋                                                                                | 1288/7135 [1:09:52<4:55:05,  3.03s/it] 18%|█████████████████▋                                                                                | 1289/7135 [1:09:55<5:00:54,  3.09s/it] 18%|█████████████████▋                                                                                | 1290/7135 [1:09:59<5:12:35,  3.21s/it]                                                                                                                                               {'loss': 0.844, 'grad_norm': 4.96875, 'learning_rate': 4.6557943935464945e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 307.88, 'epoch': 1.81}
 18%|█████████████████▋                                                                                | 1290/7135 [1:09:59<5:12:35,  3.21s/it] 18%|█████████████████▋                                                                                | 1291/7135 [1:10:01<5:04:04,  3.12s/it] 18%|█████████████████▋                                                                                | 1292/7135 [1:10:05<5:10:07,  3.18s/it] 18%|█████████████████▊                                                                                | 1293/7135 [1:10:08<5:00:58,  3.09s/it] 18%|█████████████████▊                                                                                | 1294/7135 [1:10:11<5:01:40,  3.10s/it] 18%|█████████████████▊                                                                                | 1295/7135 [1:10:14<4:54:20,  3.02s/it] 18%|█████████████████▊                                                                                | 1296/7135 [1:10:18<5:19:07,  3.28s/it] 18%|█████████████████▊                                                                                | 1297/7135 [1:10:21<5:13:24,  3.22s/it] 18%|█████████████████▊                                                                                | 1298/7135 [1:10:23<5:01:19,  3.10s/it] 18%|█████████████████▊                                                                                | 1299/7135 [1:10:27<5:19:00,  3.28s/it] 18%|█████████████████▊                                                                                | 1300/7135 [1:10:31<5:26:08,  3.35s/it]                                                                                                                                               {'loss': 0.9399, 'grad_norm': 4.1875, 'learning_rate': 4.650119752119478e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 397.71, 'epoch': 1.82}
 18%|█████████████████▊                                                                                | 1300/7135 [1:10:31<5:26:08,  3.35s/it] 18%|█████████████████▊                                                                                | 1301/7135 [1:10:34<5:15:27,  3.24s/it] 18%|█████████████████▉                                                                                | 1302/7135 [1:10:37<5:07:39,  3.16s/it] 18%|█████████████████▉                                                                                | 1303/7135 [1:10:39<4:54:55,  3.03s/it] 18%|█████████████████▉                                                                                | 1304/7135 [1:10:43<5:02:45,  3.12s/it] 18%|█████████████████▉                                                                                | 1305/7135 [1:10:46<5:18:01,  3.27s/it] 18%|█████████████████▉                                                                                | 1306/7135 [1:10:49<5:13:49,  3.23s/it] 18%|█████████████████▉                                                                                | 1307/7135 [1:10:52<5:05:39,  3.15s/it] 18%|█████████████████▉                                                                                | 1308/7135 [1:10:55<5:00:05,  3.09s/it] 18%|█████████████████▉                                                                                | 1309/7135 [1:10:59<5:07:49,  3.17s/it] 18%|█████████████████▉                                                                                | 1310/7135 [1:11:02<5:07:19,  3.17s/it]                                                                                                                                               {'loss': 0.7662, 'grad_norm': 4.53125, 'learning_rate': 4.644402232796222e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 382.88, 'epoch': 1.84}
 18%|█████████████████▉                                                                                | 1310/7135 [1:11:02<5:07:19,  3.17s/it] 18%|██████████████████                                                                                | 1311/7135 [1:11:05<5:10:06,  3.19s/it] 18%|██████████████████                                                                                | 1312/7135 [1:11:08<5:09:52,  3.19s/it] 18%|██████████████████                                                                                | 1313/7135 [1:11:12<5:10:57,  3.20s/it] 18%|██████████████████                                                                                | 1314/7135 [1:11:16<5:33:31,  3.44s/it] 18%|██████████████████                                                                                | 1315/7135 [1:11:19<5:22:47,  3.33s/it] 18%|██████████████████                                                                                | 1316/7135 [1:11:21<5:03:22,  3.13s/it] 18%|██████████████████                                                                                | 1317/7135 [1:11:25<5:09:02,  3.19s/it] 18%|██████████████████                                                                                | 1318/7135 [1:11:28<5:16:22,  3.26s/it] 18%|██████████████████                                                                                | 1319/7135 [1:11:31<5:16:49,  3.27s/it] 19%|██████████████████▏                                                                               | 1320/7135 [1:11:35<5:14:48,  3.25s/it]                                                                                                                                               {'loss': 0.7825, 'grad_norm': 6.59375, 'learning_rate': 4.638641949596052e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 394.79, 'epoch': 1.85}
 19%|██████████████████▏                                                                               | 1320/7135 [1:11:35<5:14:48,  3.25s/it] 19%|██████████████████▏                                                                               | 1321/7135 [1:11:37<4:57:12,  3.07s/it] 19%|██████████████████▏                                                                               | 1322/7135 [1:11:40<4:58:37,  3.08s/it] 19%|██████████████████▏                                                                               | 1323/7135 [1:11:43<4:58:02,  3.08s/it] 19%|██████████████████▏                                                                               | 1324/7135 [1:11:46<5:00:02,  3.10s/it] 19%|██████████████████▏                                                                               | 1325/7135 [1:11:49<4:50:53,  3.00s/it] 19%|██████████████████▏                                                                               | 1326/7135 [1:11:53<5:03:50,  3.14s/it] 19%|██████████████████▏                                                                               | 1327/7135 [1:11:56<4:58:12,  3.08s/it] 19%|██████████████████▏                                                                               | 1328/7135 [1:11:59<4:58:51,  3.09s/it] 19%|██████████████████▎                                                                               | 1329/7135 [1:12:02<5:02:02,  3.12s/it] 19%|██████████████████▎                                                                               | 1330/7135 [1:12:05<5:09:15,  3.20s/it]                                                                                                                                               {'loss': 0.7312, 'grad_norm': 3.578125, 'learning_rate': 4.632839017391093e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 345.99, 'epoch': 1.86}
 19%|██████████████████▎                                                                               | 1330/7135 [1:12:05<5:09:15,  3.20s/it] 19%|██████████████████▎                                                                               | 1331/7135 [1:12:09<5:13:07,  3.24s/it] 19%|██████████████████▎                                                                               | 1332/7135 [1:12:13<5:30:53,  3.42s/it] 19%|██████████████████▎                                                                               | 1333/7135 [1:12:15<5:17:36,  3.28s/it] 19%|██████████████████▎                                                                               | 1334/7135 [1:12:18<5:06:23,  3.17s/it] 19%|██████████████████▎                                                                               | 1335/7135 [1:12:21<4:50:56,  3.01s/it] 19%|██████████████████▎                                                                               | 1336/7135 [1:12:24<4:59:01,  3.09s/it] 19%|██████████████████▎                                                                               | 1337/7135 [1:12:28<5:11:41,  3.23s/it] 19%|██████████████████▍                                                                               | 1338/7135 [1:12:31<4:58:26,  3.09s/it] 19%|██████████████████▍                                                                               | 1339/7135 [1:12:33<4:47:29,  2.98s/it] 19%|██████████████████▍                                                                               | 1340/7135 [1:12:37<5:07:42,  3.19s/it]                                                                                                                                               {'loss': 0.7621, 'grad_norm': 4.28125, 'learning_rate': 4.62699355190398e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 320.92, 'epoch': 1.88}
 19%|██████████████████▍                                                                               | 1340/7135 [1:12:37<5:07:42,  3.19s/it] 19%|██████████████████▍                                                                               | 1341/7135 [1:12:40<5:08:09,  3.19s/it] 19%|██████████████████▍                                                                               | 1342/7135 [1:12:44<5:14:36,  3.26s/it] 19%|██████████████████▍                                                                               | 1343/7135 [1:12:47<5:13:43,  3.25s/it] 19%|██████████████████▍                                                                               | 1344/7135 [1:12:50<4:58:00,  3.09s/it] 19%|██████████████████▍                                                                               | 1345/7135 [1:12:53<5:07:12,  3.18s/it] 19%|██████████████████▍                                                                               | 1346/7135 [1:12:56<5:16:25,  3.28s/it] 19%|██████████████████▌                                                                               | 1347/7135 [1:12:59<4:57:16,  3.08s/it] 19%|██████████████████▌                                                                               | 1348/7135 [1:13:03<5:06:47,  3.18s/it] 19%|██████████████████▌                                                                               | 1349/7135 [1:13:06<5:12:23,  3.24s/it] 19%|██████████████████▌                                                                               | 1350/7135 [1:13:09<5:05:03,  3.16s/it]                                                                                                                                               {'loss': 0.7611, 'grad_norm': 5.46875, 'learning_rate': 4.621105669705551e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 366.75, 'epoch': 1.89}
 19%|██████████████████▌                                                                               | 1350/7135 [1:13:09<5:05:03,  3.16s/it] 19%|██████████████████▌                                                                               | 1351/7135 [1:13:12<5:14:48,  3.27s/it] 19%|██████████████████▌                                                                               | 1352/7135 [1:13:15<5:08:35,  3.20s/it] 19%|██████████████████▌                                                                               | 1353/7135 [1:13:19<5:12:15,  3.24s/it] 19%|██████████████████▌                                                                               | 1354/7135 [1:13:22<5:08:53,  3.21s/it] 19%|██████████████████▌                                                                               | 1355/7135 [1:13:25<5:09:48,  3.22s/it] 19%|██████████████████▌                                                                               | 1356/7135 [1:13:28<5:04:04,  3.16s/it] 19%|██████████████████▋                                                                               | 1357/7135 [1:13:32<5:16:23,  3.29s/it] 19%|██████████████████▋                                                                               | 1358/7135 [1:13:35<5:14:33,  3.27s/it] 19%|██████████████████▋                                                                               | 1359/7135 [1:13:38<4:57:03,  3.09s/it] 19%|██████████████████▋                                                                               | 1360/7135 [1:13:41<5:03:34,  3.15s/it]                                                                                                                                               {'loss': 0.8158, 'grad_norm': 5.3125, 'learning_rate': 4.615175488212524e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 413.54, 'epoch': 1.91}
 19%|██████████████████▋                                                                               | 1360/7135 [1:13:41<5:03:34,  3.15s/it] 19%|██████████████████▋                                                                               | 1361/7135 [1:13:44<5:01:26,  3.13s/it] 19%|██████████████████▋                                                                               | 1362/7135 [1:13:47<5:03:48,  3.16s/it] 19%|██████████████████▋                                                                               | 1363/7135 [1:13:51<5:12:28,  3.25s/it] 19%|██████████████████▋                                                                               | 1364/7135 [1:13:54<5:15:19,  3.28s/it] 19%|██████████████████▋                                                                               | 1365/7135 [1:13:58<5:26:30,  3.40s/it] 19%|██████████████████▊                                                                               | 1366/7135 [1:14:01<5:30:08,  3.43s/it] 19%|██████████████████▊                                                                               | 1367/7135 [1:14:04<5:24:36,  3.38s/it] 19%|██████████████████▊                                                                               | 1368/7135 [1:14:08<5:16:12,  3.29s/it] 19%|██████████████████▊                                                                               | 1369/7135 [1:14:10<5:02:28,  3.15s/it] 19%|██████████████████▊                                                                               | 1370/7135 [1:14:13<4:51:59,  3.04s/it]                                                                                                                                               {'loss': 0.7832, 'grad_norm': 5.71875, 'learning_rate': 4.609203125685152e-06, 'memory/max_active (GiB)': 37.88, 'memory/max_allocated (GiB)': 37.88, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 435.02, 'epoch': 1.92}
 19%|██████████████████▊                                                                               | 1370/7135 [1:14:13<4:51:59,  3.04s/it] 19%|██████████████████▊                                                                               | 1371/7135 [1:14:16<5:00:36,  3.13s/it] 19%|██████████████████▊                                                                               | 1372/7135 [1:14:19<4:53:39,  3.06s/it] 19%|██████████████████▊                                                                               | 1373/7135 [1:14:22<4:48:29,  3.00s/it] 19%|██████████████████▊                                                                               | 1374/7135 [1:14:25<4:51:24,  3.03s/it] 19%|██████████████████▉                                                                               | 1375/7135 [1:14:28<4:53:10,  3.05s/it] 19%|██████████████████▉                                                                               | 1376/7135 [1:14:31<4:45:58,  2.98s/it] 19%|██████████████████▉                                                                               | 1377/7135 [1:14:34<4:47:30,  3.00s/it] 19%|██████████████████▉                                                                               | 1378/7135 [1:14:37<4:44:04,  2.96s/it] 19%|██████████████████▉                                                                               | 1379/7135 [1:14:40<4:34:22,  2.86s/it] 19%|██████████████████▉                                                                               | 1380/7135 [1:14:43<4:35:08,  2.87s/it]                                                                                                                                               {'loss': 0.8216, 'grad_norm': 4.375, 'learning_rate': 4.6031887012248676e-06, 'memory/max_active (GiB)': 35.13, 'memory/max_allocated (GiB)': 35.13, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 398.88, 'epoch': 1.93}
 19%|██████████████████▉                                                                               | 1380/7135 [1:14:43<4:35:08,  2.87s/it] 19%|██████████████████▉                                                                               | 1381/7135 [1:14:46<4:37:33,  2.89s/it] 19%|██████████████████▉                                                                               | 1382/7135 [1:14:48<4:32:42,  2.84s/it] 19%|██████████████████▉                                                                               | 1383/7135 [1:14:52<4:46:22,  2.99s/it] 19%|███████████████████                                                                               | 1384/7135 [1:14:55<4:45:19,  2.98s/it] 19%|███████████████████                                                                               | 1385/7135 [1:14:58<4:52:37,  3.05s/it] 19%|███████████████████                                                                               | 1386/7135 [1:15:01<5:02:37,  3.16s/it] 19%|███████████████████                                                                               | 1387/7135 [1:15:04<4:50:29,  3.03s/it] 19%|███████████████████                                                                               | 1388/7135 [1:15:07<4:52:02,  3.05s/it] 19%|███████████████████                                                                               | 1389/7135 [1:15:10<4:58:44,  3.12s/it] 19%|███████████████████                                                                               | 1390/7135 [1:15:14<4:59:36,  3.13s/it]                                                                                                                                               {'loss': 0.6898, 'grad_norm': 5.0, 'learning_rate': 4.597132334771903e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 332.36, 'epoch': 1.95}
 19%|███████████████████                                                                               | 1390/7135 [1:15:14<4:59:36,  3.13s/it] 19%|███████████████████                                                                               | 1391/7135 [1:15:16<4:52:31,  3.06s/it] 20%|███████████████████                                                                               | 1392/7135 [1:15:19<4:49:11,  3.02s/it] 20%|███████████████████▏                                                                              | 1393/7135 [1:15:22<4:50:25,  3.03s/it] 20%|███████████████████▏                                                                              | 1394/7135 [1:15:26<5:09:33,  3.24s/it] 20%|███████████████████▏                                                                              | 1395/7135 [1:15:30<5:14:13,  3.28s/it] 20%|███████████████████▏                                                                              | 1396/7135 [1:15:33<5:24:44,  3.40s/it] 20%|███████████████████▏                                                                              | 1397/7135 [1:15:36<5:16:39,  3.31s/it] 20%|███████████████████▏                                                                              | 1398/7135 [1:15:40<5:32:02,  3.47s/it] 20%|███████████████████▏                                                                              | 1399/7135 [1:15:44<5:28:18,  3.43s/it] 20%|███████████████████▏                                                                              | 1400/7135 [1:15:48<5:44:26,  3.60s/it]                                                                                                                                               {'loss': 0.7015, 'grad_norm': 4.75, 'learning_rate': 4.591034147102908e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 334.61, 'epoch': 1.96}
 20%|███████████████████▏                                                                              | 1400/7135 [1:15:48<5:44:26,  3.60s/it] 20%|███████████████████▏                                                                              | 1401/7135 [1:15:51<5:27:43,  3.43s/it] 20%|███████████████████▎                                                                              | 1402/7135 [1:15:54<5:14:36,  3.29s/it] 20%|███████████████████▎                                                                              | 1403/7135 [1:15:56<5:01:36,  3.16s/it] 20%|███████████████████▎                                                                              | 1404/7135 [1:16:00<5:21:35,  3.37s/it] 20%|███████████████████▎                                                                              | 1405/7135 [1:16:04<5:28:57,  3.44s/it] 20%|███████████████████▎                                                                              | 1406/7135 [1:16:07<5:26:16,  3.42s/it] 20%|███████████████████▎                                                                              | 1407/7135 [1:16:11<5:27:34,  3.43s/it] 20%|███████████████████▎                                                                              | 1408/7135 [1:16:14<5:23:58,  3.39s/it] 20%|███████████████████▎                                                                              | 1409/7135 [1:16:17<5:07:00,  3.22s/it] 20%|███████████████████▎                                                                              | 1410/7135 [1:16:20<4:56:35,  3.11s/it]                                                                                                                                               {'loss': 0.7443, 'grad_norm': 5.46875, 'learning_rate': 4.584894259828528e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 449.09, 'epoch': 1.98}
 20%|███████████████████▎                                                                              | 1410/7135 [1:16:20<4:56:35,  3.11s/it] 20%|███████████████████▍                                                                              | 1411/7135 [1:16:23<4:50:37,  3.05s/it] 20%|███████████████████▍                                                                              | 1412/7135 [1:16:26<4:58:20,  3.13s/it] 20%|███████████████████▍                                                                              | 1413/7135 [1:16:29<5:04:17,  3.19s/it] 20%|███████████████████▍                                                                              | 1414/7135 [1:16:32<5:04:32,  3.19s/it] 20%|███████████████████▍                                                                              | 1415/7135 [1:16:36<5:07:05,  3.22s/it] 20%|███████████████████▍                                                                              | 1416/7135 [1:16:39<5:02:51,  3.18s/it] 20%|███████████████████▍                                                                              | 1417/7135 [1:16:41<4:49:09,  3.03s/it] 20%|███████████████████▍                                                                              | 1418/7135 [1:16:44<4:46:13,  3.00s/it] 20%|███████████████████▍                                                                              | 1419/7135 [1:16:48<5:02:55,  3.18s/it] 20%|███████████████████▌                                                                              | 1420/7135 [1:16:51<4:58:22,  3.13s/it]                                                                                                                                               {'loss': 0.8043, 'grad_norm': 4.75, 'learning_rate': 4.578712795390992e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 399.05, 'epoch': 1.99}
 20%|███████████████████▌                                                                              | 1420/7135 [1:16:51<4:58:22,  3.13s/it] 20%|███████████████████▌                                                                              | 1421/7135 [1:16:54<4:53:39,  3.08s/it] 20%|███████████████████▌                                                                              | 1422/7135 [1:16:58<5:21:43,  3.38s/it] 20%|███████████████████▌                                                                              | 1423/7135 [1:17:01<5:15:01,  3.31s/it] 20%|███████████████████▌                                                                              | 1424/7135 [1:17:04<5:10:34,  3.26s/it] 20%|███████████████████▌                                                                              | 1425/7135 [1:17:07<5:01:47,  3.17s/it] 20%|███████████████████▌                                                                              | 1426/7135 [1:17:10<4:54:41,  3.10s/it] 20%|███████████████████▌                                                                              | 1427/7135 [1:17:14<5:07:30,  3.23s/it] 20%|███████████████████▌                                                                              | 1428/7135 [1:17:15<4:18:28,  2.72s/it][2025-12-23 15:41:21,413] [INFO] [axolotl.core.trainers.base._save:671] [PID:5064] Saving model checkpoint to ./outputs/qwen3-4b-instruct-abd-full-train/checkpoint-1428
 20%|███████████████████▍                                                                             | 1429/7135 [1:18:22<34:48:47, 21.96s/it] 20%|███████████████████▍                                                                             | 1430/7135 [1:18:25<25:33:17, 16.13s/it]                                                                                                                                               {'loss': 0.7464, 'grad_norm': 4.78125, 'learning_rate': 4.57248987706166e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 473.94, 'epoch': 2.0}
 20%|███████████████████▍                                                                             | 1430/7135 [1:18:25<25:33:17, 16.13s/it] 20%|███████████████████▍                                                                             | 1431/7135 [1:18:28<19:23:05, 12.23s/it] 20%|███████████████████▍                                                                             | 1432/7135 [1:18:31<15:01:39,  9.49s/it] 20%|███████████████████▍                                                                             | 1433/7135 [1:18:34<12:00:49,  7.58s/it] 20%|███████████████████▋                                                                              | 1434/7135 [1:18:37<9:58:55,  6.30s/it] 20%|███████████████████▋                                                                              | 1435/7135 [1:18:40<8:19:39,  5.26s/it] 20%|███████████████████▋                                                                              | 1436/7135 [1:18:44<7:31:26,  4.75s/it] 20%|███████████████████▋                                                                              | 1437/7135 [1:18:47<6:41:32,  4.23s/it] 20%|███████████████████▊                                                                              | 1438/7135 [1:18:50<6:07:20,  3.87s/it] 20%|███████████████████▊                                                                              | 1439/7135 [1:18:53<5:48:53,  3.68s/it] 20%|███████████████████▊                                                                              | 1440/7135 [1:18:56<5:35:12,  3.53s/it]                                                                                                                                               {'loss': 0.6933, 'grad_norm': 4.8125, 'learning_rate': 4.566225628938573e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 393.08, 'epoch': 2.02}
 20%|███████████████████▊                                                                              | 1440/7135 [1:18:56<5:35:12,  3.53s/it] 20%|███████████████████▊                                                                              | 1441/7135 [1:19:00<5:30:07,  3.48s/it] 20%|███████████████████▊                                                                              | 1442/7135 [1:19:02<5:13:38,  3.31s/it] 20%|███████████████████▊                                                                              | 1443/7135 [1:19:06<5:13:45,  3.31s/it] 20%|███████████████████▊                                                                              | 1444/7135 [1:19:09<5:12:16,  3.29s/it] 20%|███████████████████▊                                                                              | 1445/7135 [1:19:13<5:24:19,  3.42s/it] 20%|███████████████████▊                                                                              | 1446/7135 [1:19:16<5:23:44,  3.41s/it] 20%|███████████████████▊                                                                              | 1447/7135 [1:19:20<5:24:36,  3.42s/it] 20%|███████████████████▉                                                                              | 1448/7135 [1:19:23<5:13:48,  3.31s/it] 20%|███████████████████▉                                                                              | 1449/7135 [1:19:26<5:13:37,  3.31s/it] 20%|███████████████████▉                                                                              | 1450/7135 [1:19:29<5:20:51,  3.39s/it]                                                                                                                                               {'loss': 0.7979, 'grad_norm': 5.4375, 'learning_rate': 4.5599201759439735e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 377.92, 'epoch': 2.03}
 20%|███████████████████▉                                                                              | 1450/7135 [1:19:30<5:20:51,  3.39s/it] 20%|███████████████████▉                                                                              | 1451/7135 [1:19:34<5:45:44,  3.65s/it] 20%|███████████████████▉                                                                              | 1452/7135 [1:19:37<5:31:46,  3.50s/it] 20%|███████████████████▉                                                                              | 1453/7135 [1:19:40<5:19:05,  3.37s/it] 20%|███████████████████▉                                                                              | 1454/7135 [1:19:43<5:07:38,  3.25s/it] 20%|███████████████████▉                                                                              | 1455/7135 [1:19:47<5:26:20,  3.45s/it] 20%|███████████████████▉                                                                              | 1456/7135 [1:19:50<5:10:49,  3.28s/it] 20%|████████████████████                                                                              | 1457/7135 [1:19:53<5:01:23,  3.18s/it] 20%|████████████████████                                                                              | 1458/7135 [1:19:56<5:18:14,  3.36s/it] 20%|████████████████████                                                                              | 1459/7135 [1:19:59<5:07:08,  3.25s/it] 20%|████████████████████                                                                              | 1460/7135 [1:20:02<4:52:16,  3.09s/it]                                                                                                                                               {'loss': 0.9823, 'grad_norm': 5.5625, 'learning_rate': 4.553573643821814e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 454.99, 'epoch': 2.04}
 20%|████████████████████                                                                              | 1460/7135 [1:20:02<4:52:16,  3.09s/it] 20%|████████████████████                                                                              | 1461/7135 [1:20:05<4:55:01,  3.12s/it] 20%|████████████████████                                                                              | 1462/7135 [1:20:09<5:05:37,  3.23s/it] 21%|████████████████████                                                                              | 1463/7135 [1:20:12<5:11:24,  3.29s/it] 21%|████████████████████                                                                              | 1464/7135 [1:20:15<5:05:42,  3.23s/it] 21%|████████████████████                                                                              | 1465/7135 [1:20:20<5:34:17,  3.54s/it] 21%|████████████████████▏                                                                             | 1466/7135 [1:20:23<5:16:35,  3.35s/it] 21%|████████████████████▏                                                                             | 1467/7135 [1:20:26<5:14:01,  3.32s/it] 21%|████████████████████▏                                                                             | 1468/7135 [1:20:29<5:07:39,  3.26s/it] 21%|████████████████████▏                                                                             | 1469/7135 [1:20:32<5:01:15,  3.19s/it] 21%|████████████████████▏                                                                             | 1470/7135 [1:20:35<5:05:50,  3.24s/it]                                                                                                                                               {'loss': 0.7462, 'grad_norm': 4.15625, 'learning_rate': 4.547186159135256e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 338.81, 'epoch': 2.06}
 21%|████████████████████▏                                                                             | 1470/7135 [1:20:35<5:05:50,  3.24s/it] 21%|████████████████████▏                                                                             | 1471/7135 [1:20:38<5:03:36,  3.22s/it] 21%|████████████████████▏                                                                             | 1472/7135 [1:20:41<4:52:50,  3.10s/it] 21%|████████████████████▏                                                                             | 1473/7135 [1:20:44<4:47:05,  3.04s/it] 21%|████████████████████▏                                                                             | 1474/7135 [1:20:47<4:43:25,  3.00s/it] 21%|████████████████████▎                                                                             | 1475/7135 [1:20:50<4:47:58,  3.05s/it] 21%|████████████████████▎                                                                             | 1476/7135 [1:20:53<4:42:48,  3.00s/it] 21%|████████████████████▎                                                                             | 1477/7135 [1:20:57<4:56:04,  3.14s/it] 21%|████████████████████▎                                                                             | 1478/7135 [1:21:00<5:09:55,  3.29s/it] 21%|████████████████████▎                                                                             | 1479/7135 [1:21:03<4:53:40,  3.12s/it] 21%|████████████████████▎                                                                             | 1480/7135 [1:21:06<4:48:24,  3.06s/it]                                                                                                                                               {'loss': 0.8392, 'grad_norm': 5.03125, 'learning_rate': 4.540757849264133e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 382.06, 'epoch': 2.07}
 21%|████████████████████▎                                                                             | 1480/7135 [1:21:06<4:48:24,  3.06s/it] 21%|████████████████████▎                                                                             | 1481/7135 [1:21:09<4:44:02,  3.01s/it] 21%|████████████████████▎                                                                             | 1482/7135 [1:21:12<4:43:10,  3.01s/it] 21%|████████████████████▎                                                                             | 1483/7135 [1:21:15<4:59:02,  3.17s/it] 21%|████████████████████▍                                                                             | 1484/7135 [1:21:19<5:17:41,  3.37s/it] 21%|████████████████████▍                                                                             | 1485/7135 [1:21:22<4:56:55,  3.15s/it] 21%|████████████████████▍                                                                             | 1486/7135 [1:21:25<4:54:02,  3.12s/it] 21%|████████████████████▍                                                                             | 1487/7135 [1:21:28<4:49:24,  3.07s/it] 21%|████████████████████▍                                                                             | 1488/7135 [1:21:31<4:52:27,  3.11s/it] 21%|████████████████████▍                                                                             | 1489/7135 [1:21:34<4:55:03,  3.14s/it] 21%|████████████████████▍                                                                             | 1490/7135 [1:21:38<5:00:56,  3.20s/it]                                                                                                                                               {'loss': 0.6367, 'grad_norm': 4.6875, 'learning_rate': 4.534288842402427e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 326.68, 'epoch': 2.09}
 21%|████████████████████▍                                                                             | 1490/7135 [1:21:38<5:00:56,  3.20s/it] 21%|████████████████████▍                                                                             | 1491/7135 [1:21:41<5:03:34,  3.23s/it] 21%|████████████████████▍                                                                             | 1492/7135 [1:21:44<5:01:04,  3.20s/it] 21%|████████████████████▌                                                                             | 1493/7135 [1:21:48<5:23:38,  3.44s/it] 21%|████████████████████▌                                                                             | 1494/7135 [1:21:52<5:27:11,  3.48s/it] 21%|████████████████████▌                                                                             | 1495/7135 [1:21:55<5:18:53,  3.39s/it] 21%|████████████████████▌                                                                             | 1496/7135 [1:21:58<5:18:25,  3.39s/it] 21%|████████████████████▌                                                                             | 1497/7135 [1:22:01<5:16:55,  3.37s/it] 21%|████████████████████▌                                                                             | 1498/7135 [1:22:05<5:08:12,  3.28s/it] 21%|████████████████████▌                                                                             | 1499/7135 [1:22:08<5:06:09,  3.26s/it] 21%|████████████████████▌                                                                             | 1500/7135 [1:22:11<5:16:16,  3.37s/it]                                                                                                                                               {'loss': 0.6855, 'grad_norm': 2.703125, 'learning_rate': 4.5277792675556955e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 420.29, 'epoch': 2.1}
 21%|████████████████████▌                                                                             | 1500/7135 [1:22:11<5:16:16,  3.37s/it] 21%|████████████████████▌                                                                             | 1501/7135 [1:22:15<5:10:28,  3.31s/it] 21%|████████████████████▋                                                                             | 1502/7135 [1:22:17<4:56:53,  3.16s/it] 21%|████████████████████▋                                                                             | 1503/7135 [1:22:21<4:57:50,  3.17s/it] 21%|████████████████████▋                                                                             | 1504/7135 [1:22:24<5:11:33,  3.32s/it] 21%|████████████████████▋                                                                             | 1505/7135 [1:22:28<5:18:46,  3.40s/it] 21%|████████████████████▋                                                                             | 1506/7135 [1:22:31<5:13:19,  3.34s/it] 21%|████████████████████▋                                                                             | 1507/7135 [1:22:34<5:10:28,  3.31s/it] 21%|████████████████████▋                                                                             | 1508/7135 [1:22:38<5:14:12,  3.35s/it] 21%|████████████████████▋                                                                             | 1509/7135 [1:22:41<5:07:01,  3.27s/it] 21%|████████████████████▋                                                                             | 1510/7135 [1:22:44<4:56:08,  3.16s/it]                                                                                                                                               {'loss': 0.7938, 'grad_norm': 4.5625, 'learning_rate': 4.521229254538512e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 400.11, 'epoch': 2.11}
 21%|████████████████████▋                                                                             | 1510/7135 [1:22:44<4:56:08,  3.16s/it] 21%|████████████████████▊                                                                             | 1511/7135 [1:22:46<4:42:06,  3.01s/it] 21%|████████████████████▊                                                                             | 1512/7135 [1:22:50<5:01:21,  3.22s/it] 21%|████████████████████▊                                                                             | 1513/7135 [1:22:53<5:02:39,  3.23s/it] 21%|████████████████████▊                                                                             | 1514/7135 [1:22:56<4:55:22,  3.15s/it] 21%|████████████████████▊                                                                             | 1515/7135 [1:23:00<5:18:27,  3.40s/it] 21%|████████████████████▊                                                                             | 1516/7135 [1:23:03<4:58:44,  3.19s/it] 21%|████████████████████▊                                                                             | 1517/7135 [1:23:06<5:06:13,  3.27s/it] 21%|████████████████████▊                                                                             | 1518/7135 [1:23:10<5:03:19,  3.24s/it] 21%|████████████████████▊                                                                             | 1519/7135 [1:23:12<4:44:31,  3.04s/it] 21%|████████████████████▉                                                                             | 1520/7135 [1:23:16<4:54:15,  3.14s/it]                                                                                                                                               {'loss': 0.7435, 'grad_norm': 4.96875, 'learning_rate': 4.514638933971871e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 409.78, 'epoch': 2.13}
 21%|████████████████████▉                                                                             | 1520/7135 [1:23:16<4:54:15,  3.14s/it] 21%|████████████████████▉                                                                             | 1521/7135 [1:23:19<5:06:58,  3.28s/it] 21%|████████████████████▉                                                                             | 1522/7135 [1:23:22<4:55:18,  3.16s/it] 21%|████████████████████▉                                                                             | 1523/7135 [1:23:26<5:04:14,  3.25s/it] 21%|████████████████████▉                                                                             | 1524/7135 [1:23:29<4:57:03,  3.18s/it] 21%|████████████████████▉                                                                             | 1525/7135 [1:23:32<4:57:02,  3.18s/it] 21%|████████████████████▉                                                                             | 1526/7135 [1:23:35<5:03:17,  3.24s/it] 21%|████████████████████▉                                                                             | 1527/7135 [1:23:39<5:08:12,  3.30s/it] 21%|████████████████████▉                                                                             | 1528/7135 [1:23:42<5:02:56,  3.24s/it] 21%|█████████████████████                                                                             | 1529/7135 [1:23:44<4:50:11,  3.11s/it] 21%|█████████████████████                                                                             | 1530/7135 [1:23:48<4:56:18,  3.17s/it]                                                                                                                                               {'loss': 0.8898, 'grad_norm': 5.28125, 'learning_rate': 4.50800843728058e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 395.81, 'epoch': 2.14}
 21%|█████████████████████                                                                             | 1530/7135 [1:23:48<4:56:18,  3.17s/it] 21%|█████████████████████                                                                             | 1531/7135 [1:23:51<4:58:25,  3.20s/it] 21%|█████████████████████                                                                             | 1532/7135 [1:23:54<4:48:18,  3.09s/it] 21%|█████████████████████                                                                             | 1533/7135 [1:23:57<4:58:33,  3.20s/it] 21%|█████████████████████                                                                             | 1534/7135 [1:24:00<4:55:19,  3.16s/it] 22%|█████████████████████                                                                             | 1535/7135 [1:24:03<4:41:45,  3.02s/it] 22%|█████████████████████                                                                             | 1536/7135 [1:24:07<5:01:08,  3.23s/it] 22%|█████████████████████                                                                             | 1537/7135 [1:24:10<4:49:35,  3.10s/it] 22%|█████████████████████                                                                             | 1538/7135 [1:24:13<5:06:34,  3.29s/it] 22%|█████████████████████▏                                                                            | 1539/7135 [1:24:16<4:54:49,  3.16s/it] 22%|█████████████████████▏                                                                            | 1540/7135 [1:24:19<4:51:51,  3.13s/it]                                                                                                                                               {'loss': 0.8048, 'grad_norm': 6.34375, 'learning_rate': 4.501337896690649e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 406.56, 'epoch': 2.16}
 22%|█████████████████████▏                                                                            | 1540/7135 [1:24:19<4:51:51,  3.13s/it] 22%|█████████████████████▏                                                                            | 1541/7135 [1:24:22<4:49:50,  3.11s/it] 22%|█████████████████████▏                                                                            | 1542/7135 [1:24:25<4:44:44,  3.05s/it] 22%|█████████████████████▏                                                                            | 1543/7135 [1:24:29<4:54:20,  3.16s/it] 22%|█████████████████████▏                                                                            | 1544/7135 [1:24:32<4:48:47,  3.10s/it] 22%|█████████████████████▏                                                                            | 1545/7135 [1:24:34<4:39:59,  3.01s/it] 22%|█████████████████████▏                                                                            | 1546/7135 [1:24:38<4:47:55,  3.09s/it] 22%|█████████████████████▏                                                                            | 1547/7135 [1:24:41<4:52:41,  3.14s/it] 22%|█████████████████████▎                                                                            | 1548/7135 [1:24:45<5:16:34,  3.40s/it] 22%|█████████████████████▎                                                                            | 1549/7135 [1:24:48<5:04:34,  3.27s/it] 22%|█████████████████████▎                                                                            | 1550/7135 [1:24:51<5:08:48,  3.32s/it]                                                                                                                                               {'loss': 0.9798, 'grad_norm': 3.96875, 'learning_rate': 4.4946274452266445e-06, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 434.79, 'epoch': 2.17}
 22%|█████████████████████▎                                                                            | 1550/7135 [1:24:51<5:08:48,  3.32s/it] 22%|█████████████████████▎                                                                            | 1551/7135 [1:24:54<5:03:40,  3.26s/it] 22%|█████████████████████▎                                                                            | 1552/7135 [1:24:58<5:10:27,  3.34s/it] 22%|█████████████████████▎                                                                            | 1553/7135 [1:25:01<4:51:36,  3.13s/it] 22%|█████████████████████▎                                                                            | 1554/7135 [1:25:04<4:45:47,  3.07s/it] 22%|█████████████████████▎                                                                            | 1555/7135 [1:25:07<4:47:26,  3.09s/it] 22%|█████████████████████▎                                                                            | 1556/7135 [1:25:10<4:52:13,  3.14s/it] 22%|█████████████████████▍                                                                            | 1557/7135 [1:25:13<4:40:40,  3.02s/it] 22%|█████████████████████▍                                                                            | 1558/7135 [1:25:16<4:37:36,  2.99s/it] 22%|█████████████████████▍                                                                            | 1559/7135 [1:25:19<4:59:41,  3.22s/it] 22%|█████████████████████▍                                                                            | 1560/7135 [1:25:22<4:52:01,  3.14s/it]                                                                                                                                               {'loss': 0.6531, 'grad_norm': 4.4375, 'learning_rate': 4.487877216709037e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 396.97, 'epoch': 2.19}
 22%|█████████████████████▍                                                                            | 1560/7135 [1:25:22<4:52:01,  3.14s/it] 22%|█████████████████████▍                                                                            | 1561/7135 [1:25:25<4:46:49,  3.09s/it] 22%|█████████████████████▍                                                                            | 1562/7135 [1:25:29<5:05:15,  3.29s/it] 22%|█████████████████████▍                                                                            | 1563/7135 [1:25:32<5:03:04,  3.26s/it] 22%|█████████████████████▍                                                                            | 1564/7135 [1:25:35<4:57:24,  3.20s/it] 22%|█████████████████████▍                                                                            | 1565/7135 [1:25:38<4:54:17,  3.17s/it] 22%|█████████████████████▌                                                                            | 1566/7135 [1:25:41<4:39:57,  3.02s/it] 22%|█████████████████████▌                                                                            | 1567/7135 [1:25:44<4:41:10,  3.03s/it] 22%|█████████████████████▌                                                                            | 1568/7135 [1:25:47<4:32:09,  2.93s/it] 22%|█████████████████████▌                                                                            | 1569/7135 [1:25:50<4:41:42,  3.04s/it] 22%|█████████████████████▌                                                                            | 1570/7135 [1:25:53<4:36:32,  2.98s/it]                                                                                                                                               {'loss': 0.9126, 'grad_norm': 4.875, 'learning_rate': 4.481087345751537e-06, 'memory/max_active (GiB)': 42.47, 'memory/max_allocated (GiB)': 42.47, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 399.51, 'epoch': 2.2}
 22%|█████████████████████▌                                                                            | 1570/7135 [1:25:53<4:36:32,  2.98s/it] 22%|█████████████████████▌                                                                            | 1571/7135 [1:25:56<4:47:54,  3.10s/it] 22%|█████████████████████▌                                                                            | 1572/7135 [1:25:59<4:41:10,  3.03s/it] 22%|█████████████████████▌                                                                            | 1573/7135 [1:26:02<4:41:21,  3.04s/it] 22%|█████████████████████▌                                                                            | 1574/7135 [1:26:05<4:43:51,  3.06s/it] 22%|█████████████████████▋                                                                            | 1575/7135 [1:26:09<4:47:17,  3.10s/it] 22%|█████████████████████▋                                                                            | 1576/7135 [1:26:11<4:42:24,  3.05s/it] 22%|█████████████████████▋                                                                            | 1577/7135 [1:26:15<4:46:53,  3.10s/it] 22%|█████████████████████▋                                                                            | 1578/7135 [1:26:18<4:52:58,  3.16s/it] 22%|█████████████████████▋                                                                            | 1579/7135 [1:26:22<5:26:00,  3.52s/it] 22%|█████████████████████▋                                                                            | 1580/7135 [1:26:26<5:19:14,  3.45s/it]                                                                                                                                               {'loss': 0.8105, 'grad_norm': 4.65625, 'learning_rate': 4.474257967758411e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 393.4, 'epoch': 2.21}
 22%|█████████████████████▋                                                                            | 1580/7135 [1:26:26<5:19:14,  3.45s/it] 22%|█████████████████████▋                                                                            | 1581/7135 [1:26:29<5:11:17,  3.36s/it] 22%|█████████████████████▋                                                                            | 1582/7135 [1:26:32<4:55:02,  3.19s/it] 22%|█████████████████████▋                                                                            | 1583/7135 [1:26:35<4:54:50,  3.19s/it] 22%|█████████████████████▊                                                                            | 1584/7135 [1:26:38<4:53:51,  3.18s/it] 22%|█████████████████████▊                                                                            | 1585/7135 [1:26:41<4:43:30,  3.06s/it] 22%|█████████████████████▊                                                                            | 1586/7135 [1:26:45<5:09:42,  3.35s/it] 22%|█████████████████████▊                                                                            | 1587/7135 [1:26:48<5:20:35,  3.47s/it] 22%|█████████████████████▊                                                                            | 1588/7135 [1:26:52<5:09:13,  3.34s/it] 22%|█████████████████████▊                                                                            | 1589/7135 [1:26:55<5:03:46,  3.29s/it] 22%|█████████████████████▊                                                                            | 1590/7135 [1:26:58<5:07:44,  3.33s/it]                                                                                                                                               {'loss': 0.7652, 'grad_norm': 3.640625, 'learning_rate': 4.467389218921773e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 403.48, 'epoch': 2.23}
 22%|█████████████████████▊                                                                            | 1590/7135 [1:26:58<5:07:44,  3.33s/it] 22%|█████████████████████▊                                                                            | 1591/7135 [1:27:01<5:05:52,  3.31s/it] 22%|█████████████████████▊                                                                            | 1592/7135 [1:27:05<5:07:57,  3.33s/it] 22%|█████████████████████▉                                                                            | 1593/7135 [1:27:07<4:47:07,  3.11s/it] 22%|█████████████████████▉                                                                            | 1594/7135 [1:27:11<4:53:22,  3.18s/it] 22%|█████████████████████▉                                                                            | 1595/7135 [1:27:14<5:02:43,  3.28s/it] 22%|█████████████████████▉                                                                            | 1596/7135 [1:27:18<5:04:44,  3.30s/it] 22%|█████████████████████▉                                                                            | 1597/7135 [1:27:21<5:01:49,  3.27s/it] 22%|█████████████████████▉                                                                            | 1598/7135 [1:27:24<5:04:29,  3.30s/it] 22%|█████████████████████▉                                                                            | 1599/7135 [1:27:28<5:12:32,  3.39s/it] 22%|█████████████████████▉                                                                            | 1600/7135 [1:27:30<4:50:01,  3.14s/it]                                                                                                                                               {'loss': 0.8836, 'grad_norm': 5.84375, 'learning_rate': 4.460481236218878e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 532.12, 'epoch': 2.24}
 22%|█████████████████████▉                                                                            | 1600/7135 [1:27:30<4:50:01,  3.14s/it] 22%|█████████████████████▉                                                                            | 1601/7135 [1:27:34<4:53:46,  3.19s/it] 22%|██████████████████████                                                                            | 1602/7135 [1:27:36<4:39:21,  3.03s/it] 22%|██████████████████████                                                                            | 1603/7135 [1:27:40<4:51:20,  3.16s/it] 22%|██████████████████████                                                                            | 1604/7135 [1:27:43<4:48:33,  3.13s/it] 22%|██████████████████████                                                                            | 1605/7135 [1:27:46<4:44:29,  3.09s/it] 23%|██████████████████████                                                                            | 1606/7135 [1:27:49<4:48:33,  3.13s/it] 23%|██████████████████████                                                                            | 1607/7135 [1:27:52<4:52:41,  3.18s/it] 23%|██████████████████████                                                                            | 1608/7135 [1:27:55<4:54:25,  3.20s/it] 23%|██████████████████████                                                                            | 1609/7135 [1:27:58<4:48:45,  3.14s/it] 23%|██████████████████████                                                                            | 1610/7135 [1:28:01<4:40:51,  3.05s/it]                                                                                                                                               {'loss': 0.8008, 'grad_norm': 5.625, 'learning_rate': 4.453534157409388e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 447.99, 'epoch': 2.26}
 23%|██████████████████████                                                                            | 1610/7135 [1:28:01<4:40:51,  3.05s/it] 23%|██████████████████████▏                                                                           | 1611/7135 [1:28:05<4:49:03,  3.14s/it] 23%|██████████████████████▏                                                                           | 1612/7135 [1:28:08<4:47:25,  3.12s/it] 23%|██████████████████████▏                                                                           | 1613/7135 [1:28:11<4:37:42,  3.02s/it] 23%|██████████████████████▏                                                                           | 1614/7135 [1:28:14<4:38:32,  3.03s/it] 23%|██████████████████████▏                                                                           | 1615/7135 [1:28:17<4:51:56,  3.17s/it] 23%|██████████████████████▏                                                                           | 1616/7135 [1:28:20<4:49:21,  3.15s/it] 23%|██████████████████████▏                                                                           | 1617/7135 [1:28:23<4:40:58,  3.06s/it] 23%|██████████████████████▏                                                                           | 1618/7135 [1:28:26<4:29:44,  2.93s/it] 23%|██████████████████████▏                                                                           | 1619/7135 [1:28:29<4:34:27,  2.99s/it] 23%|██████████████████████▎                                                                           | 1620/7135 [1:28:33<4:56:47,  3.23s/it]                                                                                                                                               {'loss': 0.6995, 'grad_norm': 4.21875, 'learning_rate': 4.44654812103262e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 317.57, 'epoch': 2.27}
 23%|██████████████████████▎                                                                           | 1620/7135 [1:28:33<4:56:47,  3.23s/it] 23%|██████████████████████▎                                                                           | 1621/7135 [1:28:36<4:56:06,  3.22s/it] 23%|██████████████████████▎                                                                           | 1622/7135 [1:28:39<4:44:12,  3.09s/it] 23%|██████████████████████▎                                                                           | 1623/7135 [1:28:41<4:38:20,  3.03s/it] 23%|██████████████████████▎                                                                           | 1624/7135 [1:28:44<4:31:02,  2.95s/it] 23%|██████████████████████▎                                                                           | 1625/7135 [1:28:48<4:41:04,  3.06s/it] 23%|██████████████████████▎                                                                           | 1626/7135 [1:28:51<4:38:56,  3.04s/it] 23%|██████████████████████▎                                                                           | 1627/7135 [1:28:54<4:41:06,  3.06s/it] 23%|██████████████████████▎                                                                           | 1628/7135 [1:28:56<4:34:30,  2.99s/it] 23%|██████████████████████▎                                                                           | 1629/7135 [1:29:00<4:38:43,  3.04s/it] 23%|██████████████████████▍                                                                           | 1630/7135 [1:29:03<4:41:53,  3.07s/it]                                                                                                                                               {'loss': 0.7709, 'grad_norm': 3.90625, 'learning_rate': 4.439523266404786e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 370.62, 'epoch': 2.28}
 23%|██████████████████████▍                                                                           | 1630/7135 [1:29:03<4:41:53,  3.07s/it] 23%|██████████████████████▍                                                                           | 1631/7135 [1:29:06<4:54:53,  3.21s/it] 23%|██████████████████████▍                                                                           | 1632/7135 [1:29:09<4:51:09,  3.17s/it] 23%|██████████████████████▍                                                                           | 1633/7135 [1:29:13<4:57:07,  3.24s/it] 23%|██████████████████████▍                                                                           | 1634/7135 [1:29:16<4:47:56,  3.14s/it] 23%|██████████████████████▍                                                                           | 1635/7135 [1:29:19<5:02:24,  3.30s/it] 23%|██████████████████████▍                                                                           | 1636/7135 [1:29:23<5:01:36,  3.29s/it] 23%|██████████████████████▍                                                                           | 1637/7135 [1:29:26<4:50:11,  3.17s/it] 23%|██████████████████████▍                                                                           | 1638/7135 [1:29:29<4:47:04,  3.13s/it] 23%|██████████████████████▌                                                                           | 1639/7135 [1:29:32<4:42:19,  3.08s/it] 23%|██████████████████████▌                                                                           | 1640/7135 [1:29:35<4:43:54,  3.10s/it]                                                                                                                                               {'loss': 0.8316, 'grad_norm': 4.21875, 'learning_rate': 4.432459733616219e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 382.33, 'epoch': 2.3}
 23%|██████████████████████▌                                                                           | 1640/7135 [1:29:35<4:43:54,  3.10s/it] 23%|██████████████████████▌                                                                           | 1641/7135 [1:29:38<4:51:23,  3.18s/it] 23%|██████████████████████▌                                                                           | 1642/7135 [1:29:41<4:54:11,  3.21s/it] 23%|██████████████████████▌                                                                           | 1643/7135 [1:29:45<4:55:29,  3.23s/it] 23%|██████████████████████▌                                                                           | 1644/7135 [1:29:48<4:57:18,  3.25s/it] 23%|██████████████████████▌                                                                           | 1645/7135 [1:29:51<4:48:28,  3.15s/it] 23%|██████████████████████▌                                                                           | 1646/7135 [1:29:54<4:41:03,  3.07s/it] 23%|██████████████████████▌                                                                           | 1647/7135 [1:29:57<4:36:48,  3.03s/it] 23%|██████████████████████▋                                                                           | 1648/7135 [1:30:00<4:36:56,  3.03s/it] 23%|██████████████████████▋                                                                           | 1649/7135 [1:30:03<4:38:17,  3.04s/it] 23%|██████████████████████▋                                                                           | 1650/7135 [1:30:06<4:45:38,  3.12s/it]                                                                                                                                               {'loss': 0.7225, 'grad_norm': 3.859375, 'learning_rate': 4.4253576635285726e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 345.67, 'epoch': 2.31}
 23%|██████████████████████▋                                                                           | 1650/7135 [1:30:06<4:45:38,  3.12s/it] 23%|██████████████████████▋                                                                           | 1651/7135 [1:30:09<4:42:33,  3.09s/it] 23%|██████████████████████▋                                                                           | 1652/7135 [1:30:12<4:45:44,  3.13s/it] 23%|██████████████████████▋                                                                           | 1653/7135 [1:30:15<4:47:07,  3.14s/it] 23%|██████████████████████▋                                                                           | 1654/7135 [1:30:19<4:48:59,  3.16s/it] 23%|██████████████████████▋                                                                           | 1655/7135 [1:30:22<4:46:56,  3.14s/it] 23%|██████████████████████▋                                                                           | 1656/7135 [1:30:25<4:36:50,  3.03s/it] 23%|██████████████████████▊                                                                           | 1657/7135 [1:30:28<4:42:11,  3.09s/it] 23%|██████████████████████▊                                                                           | 1658/7135 [1:30:31<4:48:48,  3.16s/it] 23%|██████████████████████▊                                                                           | 1659/7135 [1:30:34<4:37:51,  3.04s/it] 23%|██████████████████████▊                                                                           | 1660/7135 [1:30:37<4:43:17,  3.10s/it]                                                                                                                                               {'loss': 0.7685, 'grad_norm': 7.15625, 'learning_rate': 4.418217197772016e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 396.9, 'epoch': 2.33}
 23%|██████████████████████▊                                                                           | 1660/7135 [1:30:37<4:43:17,  3.10s/it] 23%|██████████████████████▊                                                                           | 1661/7135 [1:30:41<5:01:27,  3.30s/it] 23%|██████████████████████▊                                                                           | 1662/7135 [1:30:44<4:58:42,  3.27s/it] 23%|██████████████████████▊                                                                           | 1663/7135 [1:30:47<4:57:03,  3.26s/it] 23%|██████████████████████▊                                                                           | 1664/7135 [1:30:51<4:58:01,  3.27s/it] 23%|██████████████████████▊                                                                           | 1665/7135 [1:30:54<4:54:04,  3.23s/it] 23%|██████████████████████▉                                                                           | 1666/7135 [1:30:57<4:50:35,  3.19s/it] 23%|██████████████████████▉                                                                           | 1667/7135 [1:31:00<4:51:15,  3.20s/it] 23%|██████████████████████▉                                                                           | 1668/7135 [1:31:03<4:54:44,  3.23s/it] 23%|██████████████████████▉                                                                           | 1669/7135 [1:31:07<4:54:40,  3.23s/it] 23%|██████████████████████▉                                                                           | 1670/7135 [1:31:10<5:02:01,  3.32s/it]                                                                                                                                               {'loss': 0.7378, 'grad_norm': 3.984375, 'learning_rate': 4.41103847874241e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 365.02, 'epoch': 2.34}
 23%|██████████████████████▉                                                                           | 1670/7135 [1:31:10<5:02:01,  3.32s/it] 23%|██████████████████████▉                                                                           | 1671/7135 [1:31:13<4:56:13,  3.25s/it] 23%|██████████████████████▉                                                                           | 1672/7135 [1:31:16<4:53:40,  3.23s/it] 23%|██████████████████████▉                                                                           | 1673/7135 [1:31:20<4:54:21,  3.23s/it] 23%|██████████████████████▉                                                                           | 1674/7135 [1:31:23<4:54:34,  3.24s/it] 23%|███████████████████████                                                                           | 1675/7135 [1:31:26<4:57:08,  3.27s/it] 23%|███████████████████████                                                                           | 1676/7135 [1:31:29<4:53:12,  3.22s/it] 24%|███████████████████████                                                                           | 1677/7135 [1:31:33<5:02:05,  3.32s/it] 24%|███████████████████████                                                                           | 1678/7135 [1:31:37<5:11:06,  3.42s/it] 24%|███████████████████████                                                                           | 1679/7135 [1:31:40<5:02:45,  3.33s/it] 24%|███████████████████████                                                                           | 1680/7135 [1:31:43<4:53:06,  3.22s/it]                                                                                                                                               {'loss': 0.9532, 'grad_norm': 4.65625, 'learning_rate': 4.403821649598462e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 422.45, 'epoch': 2.35}
 24%|███████████████████████                                                                           | 1680/7135 [1:31:43<4:53:06,  3.22s/it] 24%|███████████████████████                                                                           | 1681/7135 [1:31:46<4:46:36,  3.15s/it] 24%|███████████████████████                                                                           | 1682/7135 [1:31:48<4:37:41,  3.06s/it] 24%|███████████████████████                                                                           | 1683/7135 [1:31:52<4:39:13,  3.07s/it] 24%|███████████████████████▏                                                                          | 1684/7135 [1:31:55<4:38:56,  3.07s/it] 24%|███████████████████████▏                                                                          | 1685/7135 [1:31:58<4:45:28,  3.14s/it] 24%|███████████████████████▏                                                                          | 1686/7135 [1:32:01<4:45:32,  3.14s/it] 24%|███████████████████████▏                                                                          | 1687/7135 [1:32:04<4:33:21,  3.01s/it] 24%|███████████████████████▏                                                                          | 1688/7135 [1:32:07<4:44:49,  3.14s/it] 24%|███████████████████████▏                                                                          | 1689/7135 [1:32:11<4:49:21,  3.19s/it] 24%|███████████████████████▏                                                                          | 1690/7135 [1:32:14<4:48:37,  3.18s/it]                                                                                                                                               {'loss': 0.7215, 'grad_norm': 6.1875, 'learning_rate': 4.396566854258879e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 331.89, 'epoch': 2.37}
 24%|███████████████████████▏                                                                          | 1690/7135 [1:32:14<4:48:37,  3.18s/it] 24%|███████████████████████▏                                                                          | 1691/7135 [1:32:17<4:46:52,  3.16s/it] 24%|███████████████████████▏                                                                          | 1692/7135 [1:32:20<4:51:59,  3.22s/it] 24%|███████████████████████▎                                                                          | 1693/7135 [1:32:23<4:46:25,  3.16s/it] 24%|███████████████████████▎                                                                          | 1694/7135 [1:32:26<4:47:02,  3.17s/it] 24%|███████████████████████▎                                                                          | 1695/7135 [1:32:29<4:44:00,  3.13s/it] 24%|███████████████████████▎                                                                          | 1696/7135 [1:32:32<4:33:46,  3.02s/it] 24%|███████████████████████▎                                                                          | 1697/7135 [1:32:36<4:49:19,  3.19s/it] 24%|███████████████████████▎                                                                          | 1698/7135 [1:32:39<4:44:22,  3.14s/it] 24%|███████████████████████▎                                                                          | 1699/7135 [1:32:42<4:48:06,  3.18s/it] 24%|███████████████████████▎                                                                          | 1700/7135 [1:32:46<5:09:38,  3.42s/it]                                                                                                                                               {'loss': 0.7076, 'grad_norm': 6.8125, 'learning_rate': 4.389274237399492e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 294.37, 'epoch': 2.38}
 24%|███████████████████████▎                                                                          | 1700/7135 [1:32:46<5:09:38,  3.42s/it] 24%|███████████████████████▎                                                                          | 1701/7135 [1:32:49<4:47:16,  3.17s/it] 24%|███████████████████████▍                                                                          | 1702/7135 [1:32:51<4:35:56,  3.05s/it] 24%|███████████████████████▍                                                                          | 1703/7135 [1:32:55<4:55:43,  3.27s/it] 24%|███████████████████████▍                                                                          | 1704/7135 [1:32:59<5:00:18,  3.32s/it] 24%|███████████████████████▍                                                                          | 1705/7135 [1:33:02<4:52:15,  3.23s/it] 24%|███████████████████████▍                                                                          | 1706/7135 [1:33:05<4:45:11,  3.15s/it] 24%|███████████████████████▍                                                                          | 1707/7135 [1:33:08<4:43:47,  3.14s/it] 24%|███████████████████████▍                                                                          | 1708/7135 [1:33:11<4:46:59,  3.17s/it] 24%|███████████████████████▍                                                                          | 1709/7135 [1:33:14<4:54:56,  3.26s/it] 24%|███████████████████████▍                                                                          | 1710/7135 [1:33:18<4:53:13,  3.24s/it]                                                                                                                                               {'loss': 0.5878, 'grad_norm': 4.84375, 'learning_rate': 4.381943944450372e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 394.0, 'epoch': 2.4}
 24%|███████████████████████▍                                                                          | 1710/7135 [1:33:18<4:53:13,  3.24s/it] 24%|███████████████████████▌                                                                          | 1711/7135 [1:33:21<4:52:57,  3.24s/it] 24%|███████████████████████▌                                                                          | 1712/7135 [1:33:24<4:51:44,  3.23s/it] 24%|███████████████████████▌                                                                          | 1713/7135 [1:33:27<4:43:12,  3.13s/it] 24%|███████████████████████▌                                                                          | 1714/7135 [1:33:31<5:03:19,  3.36s/it] 24%|███████████████████████▌                                                                          | 1715/7135 [1:33:34<4:46:06,  3.17s/it] 24%|███████████████████████▌                                                                          | 1716/7135 [1:33:37<4:48:42,  3.20s/it] 24%|███████████████████████▌                                                                          | 1717/7135 [1:33:40<4:54:50,  3.27s/it] 24%|███████████████████████▌                                                                          | 1718/7135 [1:33:44<4:58:16,  3.30s/it] 24%|███████████████████████▌                                                                          | 1719/7135 [1:33:47<4:58:08,  3.30s/it] 24%|███████████████████████▌                                                                          | 1720/7135 [1:33:50<4:53:44,  3.25s/it]                                                                                                                                               {'loss': 0.713, 'grad_norm': 4.96875, 'learning_rate': 4.374576121592931e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 408.49, 'epoch': 2.41}
 24%|███████████████████████▌                                                                          | 1720/7135 [1:33:50<4:53:44,  3.25s/it] 24%|███████████████████████▋                                                                          | 1721/7135 [1:33:53<4:49:47,  3.21s/it] 24%|███████████████████████▋                                                                          | 1722/7135 [1:33:57<4:57:06,  3.29s/it] 24%|███████████████████████▋                                                                          | 1723/7135 [1:34:00<4:50:14,  3.22s/it] 24%|███████████████████████▋                                                                          | 1724/7135 [1:34:03<4:42:25,  3.13s/it] 24%|███████████████████████▋                                                                          | 1725/7135 [1:34:06<4:53:40,  3.26s/it] 24%|███████████████████████▋                                                                          | 1726/7135 [1:34:10<4:59:12,  3.32s/it] 24%|███████████████████████▋                                                                          | 1727/7135 [1:34:13<4:51:49,  3.24s/it] 24%|███████████████████████▋                                                                          | 1728/7135 [1:34:16<4:56:41,  3.29s/it] 24%|███████████████████████▋                                                                          | 1729/7135 [1:34:19<4:57:33,  3.30s/it] 24%|███████████████████████▊                                                                          | 1730/7135 [1:34:22<4:49:53,  3.22s/it]                                                                                                                                               {'loss': 0.9399, 'grad_norm': 4.5625, 'learning_rate': 4.367170915757005e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 460.72, 'epoch': 2.42}
 24%|███████████████████████▊                                                                          | 1730/7135 [1:34:23<4:49:53,  3.22s/it] 24%|███████████████████████▊                                                                          | 1731/7135 [1:34:25<4:42:53,  3.14s/it] 24%|███████████████████████▊                                                                          | 1732/7135 [1:34:29<4:44:20,  3.16s/it] 24%|███████████████████████▊                                                                          | 1733/7135 [1:34:32<4:41:23,  3.13s/it] 24%|███████████████████████▊                                                                          | 1734/7135 [1:34:35<4:32:48,  3.03s/it] 24%|███████████████████████▊                                                                          | 1735/7135 [1:34:38<4:34:50,  3.05s/it] 24%|███████████████████████▊                                                                          | 1736/7135 [1:34:41<4:41:10,  3.12s/it] 24%|███████████████████████▊                                                                          | 1737/7135 [1:34:44<4:45:54,  3.18s/it] 24%|███████████████████████▊                                                                          | 1738/7135 [1:34:48<4:54:55,  3.28s/it] 24%|███████████████████████▉                                                                          | 1739/7135 [1:34:51<4:52:05,  3.25s/it] 24%|███████████████████████▉                                                                          | 1740/7135 [1:34:54<4:44:40,  3.17s/it]                                                                                                                                               {'loss': 0.7354, 'grad_norm': 4.5, 'learning_rate': 4.359728474617926e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 386.98, 'epoch': 2.44}
 24%|███████████████████████▉                                                                          | 1740/7135 [1:34:54<4:44:40,  3.17s/it] 24%|███████████████████████▉                                                                          | 1741/7135 [1:34:57<4:50:31,  3.23s/it] 24%|███████████████████████▉                                                                          | 1742/7135 [1:35:00<4:42:31,  3.14s/it] 24%|███████████████████████▉                                                                          | 1743/7135 [1:35:03<4:42:17,  3.14s/it] 24%|███████████████████████▉                                                                          | 1744/7135 [1:35:06<4:35:18,  3.06s/it] 24%|███████████████████████▉                                                                          | 1745/7135 [1:35:09<4:25:25,  2.95s/it] 24%|███████████████████████▉                                                                          | 1746/7135 [1:35:12<4:34:33,  3.06s/it] 24%|███████████████████████▉                                                                          | 1747/7135 [1:35:16<4:41:19,  3.13s/it] 24%|████████████████████████                                                                          | 1748/7135 [1:35:19<4:44:09,  3.16s/it] 25%|████████████████████████                                                                          | 1749/7135 [1:35:22<4:46:23,  3.19s/it] 25%|████████████████████████                                                                          | 1750/7135 [1:35:25<4:45:42,  3.18s/it]                                                                                                                                               {'loss': 0.7583, 'grad_norm': 4.9375, 'learning_rate': 4.352248946593576e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 379.52, 'epoch': 2.45}
 25%|████████████████████████                                                                          | 1750/7135 [1:35:25<4:45:42,  3.18s/it] 25%|████████████████████████                                                                          | 1751/7135 [1:35:28<4:38:11,  3.10s/it] 25%|████████████████████████                                                                          | 1752/7135 [1:35:31<4:39:09,  3.11s/it] 25%|████████████████████████                                                                          | 1753/7135 [1:35:34<4:28:29,  2.99s/it] 25%|████████████████████████                                                                          | 1754/7135 [1:35:38<4:59:34,  3.34s/it] 25%|████████████████████████                                                                          | 1755/7135 [1:35:42<5:24:02,  3.61s/it] 25%|████████████████████████                                                                          | 1756/7135 [1:35:46<5:12:54,  3.49s/it] 25%|████████████████████████▏                                                                         | 1757/7135 [1:35:48<4:55:14,  3.29s/it] 25%|████████████████████████▏                                                                         | 1758/7135 [1:35:52<4:51:48,  3.26s/it] 25%|████████████████████████▏                                                                         | 1759/7135 [1:35:55<4:48:54,  3.22s/it] 25%|████████████████████████▏                                                                         | 1760/7135 [1:35:58<4:49:15,  3.23s/it]                                                                                                                                               {'loss': 0.8322, 'grad_norm': 4.375, 'learning_rate': 4.344732480841427e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 403.11, 'epoch': 2.47}
 25%|████████████████████████▏                                                                         | 1760/7135 [1:35:58<4:49:15,  3.23s/it] 25%|████████████████████████▏                                                                         | 1761/7135 [1:36:02<5:00:08,  3.35s/it] 25%|████████████████████████▏                                                                         | 1762/7135 [1:36:06<5:21:36,  3.59s/it] 25%|████████████████████████▏                                                                         | 1763/7135 [1:36:09<5:13:36,  3.50s/it] 25%|████████████████████████▏                                                                         | 1764/7135 [1:36:12<5:01:56,  3.37s/it] 25%|████████████████████████▏                                                                         | 1765/7135 [1:36:15<4:51:02,  3.25s/it] 25%|████████████████████████▎                                                                         | 1766/7135 [1:36:18<4:44:11,  3.18s/it] 25%|████████████████████████▎                                                                         | 1767/7135 [1:36:22<4:53:35,  3.28s/it] 25%|████████████████████████▎                                                                         | 1768/7135 [1:36:25<4:49:23,  3.24s/it] 25%|████████████████████████▎                                                                         | 1769/7135 [1:36:28<4:50:37,  3.25s/it] 25%|████████████████████████▎                                                                         | 1770/7135 [1:36:31<4:37:34,  3.10s/it]                                                                                                                                               {'loss': 0.7805, 'grad_norm': 6.25, 'learning_rate': 4.337179227255565e-06, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 560.61, 'epoch': 2.48}
 25%|████████████████████████▎                                                                         | 1770/7135 [1:36:31<4:37:34,  3.10s/it] 25%|████████████████████████▎                                                                         | 1771/7135 [1:36:35<5:03:59,  3.40s/it] 25%|████████████████████████▎                                                                         | 1772/7135 [1:36:38<4:50:19,  3.25s/it] 25%|████████████████████████▎                                                                         | 1773/7135 [1:36:41<4:54:36,  3.30s/it] 25%|████████████████████████▎                                                                         | 1774/7135 [1:36:44<4:46:12,  3.20s/it] 25%|████████████████████████▍                                                                         | 1775/7135 [1:36:47<4:41:37,  3.15s/it] 25%|████████████████████████▍                                                                         | 1776/7135 [1:36:50<4:35:58,  3.09s/it] 25%|████████████████████████▍                                                                         | 1777/7135 [1:36:53<4:42:15,  3.16s/it] 25%|████████████████████████▍                                                                         | 1778/7135 [1:36:56<4:38:27,  3.12s/it] 25%|████████████████████████▍                                                                         | 1779/7135 [1:37:00<4:42:30,  3.16s/it] 25%|████████████████████████▍                                                                         | 1780/7135 [1:37:03<4:49:54,  3.25s/it]                                                                                                                                               {'loss': 0.7194, 'grad_norm': 4.25, 'learning_rate': 4.329589336463705e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 355.44, 'epoch': 2.49}
 25%|████████████████████████▍                                                                         | 1780/7135 [1:37:03<4:49:54,  3.25s/it] 25%|████████████████████████▍                                                                         | 1781/7135 [1:37:06<4:42:01,  3.16s/it] 25%|████████████████████████▍                                                                         | 1782/7135 [1:37:10<4:50:33,  3.26s/it] 25%|████████████████████████▍                                                                         | 1783/7135 [1:37:13<4:41:10,  3.15s/it] 25%|████████████████████████▌                                                                         | 1784/7135 [1:37:16<4:46:29,  3.21s/it] 25%|████████████████████████▌                                                                         | 1785/7135 [1:37:19<4:43:22,  3.18s/it] 25%|████████████████████████▌                                                                         | 1786/7135 [1:37:22<4:46:10,  3.21s/it] 25%|████████████████████████▌                                                                         | 1787/7135 [1:37:25<4:35:14,  3.09s/it] 25%|████████████████████████▌                                                                         | 1788/7135 [1:37:28<4:27:09,  3.00s/it] 25%|████████████████████████▌                                                                         | 1789/7135 [1:37:31<4:32:05,  3.05s/it] 25%|████████████████████████▌                                                                         | 1790/7135 [1:37:34<4:27:15,  3.00s/it]                                                                                                                                               {'loss': 0.7303, 'grad_norm': 4.28125, 'learning_rate': 4.321962959824185e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 378.98, 'epoch': 2.51}
 25%|████████████████████████▌                                                                         | 1790/7135 [1:37:34<4:27:15,  3.00s/it] 25%|████████████████████████▌                                                                         | 1791/7135 [1:37:38<4:44:41,  3.20s/it] 25%|████████████████████████▌                                                                         | 1792/7135 [1:37:41<4:47:20,  3.23s/it] 25%|████████████████████████▋                                                                         | 1793/7135 [1:37:44<4:44:41,  3.20s/it] 25%|████████████████████████▋                                                                         | 1794/7135 [1:37:47<4:43:57,  3.19s/it] 25%|████████████████████████▋                                                                         | 1795/7135 [1:37:50<4:42:11,  3.17s/it] 25%|████████████████████████▋                                                                         | 1796/7135 [1:37:53<4:39:31,  3.14s/it] 25%|████████████████████████▋                                                                         | 1797/7135 [1:37:56<4:31:34,  3.05s/it] 25%|████████████████████████▋                                                                         | 1798/7135 [1:37:59<4:29:10,  3.03s/it] 25%|████████████████████████▋                                                                         | 1799/7135 [1:38:02<4:20:41,  2.93s/it] 25%|████████████████████████▋                                                                         | 1800/7135 [1:38:05<4:31:09,  3.05s/it]                                                                                                                                               {'loss': 0.7772, 'grad_norm': 6.46875, 'learning_rate': 4.3143002494229455e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 363.13, 'epoch': 2.52}
 25%|████████████████████████▋                                                                         | 1800/7135 [1:38:05<4:31:09,  3.05s/it] 25%|████████████████████████▋                                                                         | 1801/7135 [1:38:08<4:32:48,  3.07s/it] 25%|████████████████████████▊                                                                         | 1802/7135 [1:38:11<4:31:47,  3.06s/it] 25%|████████████████████████▊                                                                         | 1803/7135 [1:38:15<4:45:26,  3.21s/it] 25%|████████████████████████▊                                                                         | 1804/7135 [1:38:18<4:43:11,  3.19s/it] 25%|████████████████████████▊                                                                         | 1805/7135 [1:38:21<4:41:30,  3.17s/it] 25%|████████████████████████▊                                                                         | 1806/7135 [1:38:24<4:27:57,  3.02s/it] 25%|████████████████████████▊                                                                         | 1807/7135 [1:38:27<4:39:02,  3.14s/it] 25%|████████████████████████▊                                                                         | 1808/7135 [1:38:30<4:39:56,  3.15s/it] 25%|████████████████████████▊                                                                         | 1809/7135 [1:38:34<4:51:57,  3.29s/it] 25%|████████████████████████▊                                                                         | 1810/7135 [1:38:37<4:54:30,  3.32s/it]                                                                                                                                               {'loss': 1.0924, 'grad_norm': 2.828125, 'learning_rate': 4.3066013580705e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 474.6, 'epoch': 2.54}
 25%|████████████████████████▊                                                                         | 1810/7135 [1:38:37<4:54:30,  3.32s/it] 25%|████████████████████████▊                                                                         | 1811/7135 [1:38:40<4:42:27,  3.18s/it] 25%|████████████████████████▉                                                                         | 1812/7135 [1:38:43<4:38:46,  3.14s/it] 25%|████████████████████████▉                                                                         | 1813/7135 [1:38:46<4:33:39,  3.09s/it] 25%|████████████████████████▉                                                                         | 1814/7135 [1:38:49<4:28:42,  3.03s/it] 25%|████████████████████████▉                                                                         | 1815/7135 [1:38:52<4:33:44,  3.09s/it] 25%|████████████████████████▉                                                                         | 1816/7135 [1:38:56<4:36:27,  3.12s/it] 25%|████████████████████████▉                                                                         | 1817/7135 [1:38:59<4:52:04,  3.30s/it] 25%|████████████████████████▉                                                                         | 1818/7135 [1:39:03<4:50:23,  3.28s/it] 25%|████████████████████████▉                                                                         | 1819/7135 [1:39:06<4:45:11,  3.22s/it] 26%|████████████████████████▉                                                                         | 1820/7135 [1:39:09<4:53:09,  3.31s/it]                                                                                                                                               {'loss': 0.6746, 'grad_norm': 5.21875, 'learning_rate': 4.2988664392988836e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 299.18, 'epoch': 2.55}
 26%|████████████████████████▉                                                                         | 1820/7135 [1:39:09<4:53:09,  3.31s/it] 26%|█████████████████████████                                                                         | 1821/7135 [1:39:12<4:47:44,  3.25s/it] 26%|█████████████████████████                                                                         | 1822/7135 [1:39:16<5:11:28,  3.52s/it] 26%|█████████████████████████                                                                         | 1823/7135 [1:39:20<5:02:30,  3.42s/it] 26%|█████████████████████████                                                                         | 1824/7135 [1:39:23<4:53:38,  3.32s/it] 26%|█████████████████████████                                                                         | 1825/7135 [1:39:26<4:50:18,  3.28s/it] 26%|█████████████████████████                                                                         | 1826/7135 [1:39:29<4:48:29,  3.26s/it] 26%|█████████████████████████                                                                         | 1827/7135 [1:39:32<4:39:44,  3.16s/it] 26%|█████████████████████████                                                                         | 1828/7135 [1:39:35<4:44:10,  3.21s/it] 26%|█████████████████████████                                                                         | 1829/7135 [1:39:38<4:35:38,  3.12s/it] 26%|█████████████████████████▏                                                                        | 1830/7135 [1:39:42<4:39:51,  3.17s/it]                                                                                                                                               {'loss': 0.822, 'grad_norm': 3.921875, 'learning_rate': 4.291095647358596e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 488.41, 'epoch': 2.56}
 26%|█████████████████████████▏                                                                        | 1830/7135 [1:39:42<4:39:51,  3.17s/it] 26%|█████████████████████████▏                                                                        | 1831/7135 [1:39:45<4:43:30,  3.21s/it] 26%|█████████████████████████▏                                                                        | 1832/7135 [1:39:48<4:36:26,  3.13s/it] 26%|█████████████████████████▏                                                                        | 1833/7135 [1:39:51<4:28:09,  3.03s/it] 26%|█████████████████████████▏                                                                        | 1834/7135 [1:39:54<4:50:12,  3.28s/it] 26%|█████████████████████████▏                                                                        | 1835/7135 [1:39:58<4:52:56,  3.32s/it] 26%|█████████████████████████▏                                                                        | 1836/7135 [1:40:01<4:55:11,  3.34s/it] 26%|█████████████████████████▏                                                                        | 1837/7135 [1:40:04<4:49:05,  3.27s/it] 26%|█████████████████████████▏                                                                        | 1838/7135 [1:40:08<4:46:12,  3.24s/it] 26%|█████████████████████████▎                                                                        | 1839/7135 [1:40:10<4:36:57,  3.14s/it] 26%|█████████████████████████▎                                                                        | 1840/7135 [1:40:15<5:08:18,  3.49s/it]                                                                                                                                               {'loss': 0.7971, 'grad_norm': 1.765625, 'learning_rate': 4.283289137215522e-06, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 439.24, 'epoch': 2.58}
 26%|█████████████████████████▎                                                                        | 1840/7135 [1:40:15<5:08:18,  3.49s/it] 26%|█████████████████████████▎                                                                        | 1841/7135 [1:40:19<5:14:56,  3.57s/it] 26%|█████████████████████████▎                                                                        | 1842/7135 [1:40:21<4:53:20,  3.33s/it] 26%|█████████████████████████▎                                                                        | 1843/7135 [1:40:24<4:50:11,  3.29s/it] 26%|█████████████████████████▎                                                                        | 1844/7135 [1:40:27<4:41:26,  3.19s/it] 26%|█████████████████████████▎                                                                        | 1845/7135 [1:40:31<4:38:40,  3.16s/it] 26%|█████████████████████████▎                                                                        | 1846/7135 [1:40:34<4:36:45,  3.14s/it] 26%|█████████████████████████▎                                                                        | 1847/7135 [1:40:37<4:30:08,  3.07s/it] 26%|█████████████████████████▍                                                                        | 1848/7135 [1:40:40<4:38:20,  3.16s/it] 26%|█████████████████████████▍                                                                        | 1849/7135 [1:40:43<4:40:35,  3.18s/it] 26%|█████████████████████████▍                                                                        | 1850/7135 [1:40:46<4:33:22,  3.10s/it]                                                                                                                                               {'loss': 0.6837, 'grad_norm': 5.21875, 'learning_rate': 4.2754470645478425e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 363.14, 'epoch': 2.59}
 26%|█████████████████████████▍                                                                        | 1850/7135 [1:40:46<4:33:22,  3.10s/it] 26%|█████████████████████████▍                                                                        | 1851/7135 [1:40:49<4:40:16,  3.18s/it] 26%|█████████████████████████▍                                                                        | 1852/7135 [1:40:53<4:39:36,  3.18s/it] 26%|█████████████████████████▍                                                                        | 1853/7135 [1:40:56<4:36:22,  3.14s/it] 26%|█████████████████████████▍                                                                        | 1854/7135 [1:40:59<4:29:35,  3.06s/it] 26%|█████████████████████████▍                                                                        | 1855/7135 [1:41:01<4:24:55,  3.01s/it] 26%|█████████████████████████▍                                                                        | 1856/7135 [1:41:05<4:49:21,  3.29s/it] 26%|█████████████████████████▌                                                                        | 1857/7135 [1:41:09<4:54:57,  3.35s/it] 26%|█████████████████████████▌                                                                        | 1858/7135 [1:41:12<4:47:28,  3.27s/it] 26%|█████████████████████████▌                                                                        | 1859/7135 [1:41:15<4:44:11,  3.23s/it] 26%|█████████████████████████▌                                                                        | 1860/7135 [1:41:18<4:29:25,  3.06s/it]                                                                                                                                               {'loss': 0.6905, 'grad_norm': 6.5625, 'learning_rate': 4.26756958574293e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 503.51, 'epoch': 2.61}
 26%|█████████████████████████▌                                                                        | 1860/7135 [1:41:18<4:29:25,  3.06s/it] 26%|█████████████████████████▌                                                                        | 1861/7135 [1:41:21<4:31:04,  3.08s/it] 26%|█████████████████████████▌                                                                        | 1862/7135 [1:41:23<4:17:06,  2.93s/it] 26%|█████████████████████████▌                                                                        | 1863/7135 [1:41:28<4:50:04,  3.30s/it] 26%|█████████████████████████▌                                                                        | 1864/7135 [1:41:31<4:55:50,  3.37s/it] 26%|█████████████████████████▌                                                                        | 1865/7135 [1:41:34<4:49:34,  3.30s/it] 26%|█████████████████████████▋                                                                        | 1866/7135 [1:41:37<4:45:00,  3.25s/it] 26%|█████████████████████████▋                                                                        | 1867/7135 [1:41:41<5:02:00,  3.44s/it] 26%|█████████████████████████▋                                                                        | 1868/7135 [1:41:45<5:02:08,  3.44s/it] 26%|█████████████████████████▋                                                                        | 1869/7135 [1:41:48<4:59:56,  3.42s/it] 26%|█████████████████████████▋                                                                        | 1870/7135 [1:41:52<5:00:26,  3.42s/it]                                                                                                                                               {'loss': 0.8531, 'grad_norm': 3.171875, 'learning_rate': 4.25965685789423e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 513.76, 'epoch': 2.62}
 26%|█████████████████████████▋                                                                        | 1870/7135 [1:41:52<5:00:26,  3.42s/it] 26%|█████████████████████████▋                                                                        | 1871/7135 [1:41:55<4:53:43,  3.35s/it] 26%|█████████████████████████▋                                                                        | 1872/7135 [1:41:58<4:49:59,  3.31s/it] 26%|█████████████████████████▋                                                                        | 1873/7135 [1:42:01<4:54:52,  3.36s/it] 26%|█████████████████████████▋                                                                        | 1874/7135 [1:42:05<4:50:33,  3.31s/it] 26%|█████████████████████████▊                                                                        | 1875/7135 [1:42:09<5:20:02,  3.65s/it] 26%|█████████████████████████▊                                                                        | 1876/7135 [1:42:12<4:58:34,  3.41s/it] 26%|█████████████████████████▊                                                                        | 1877/7135 [1:42:16<5:18:38,  3.64s/it] 26%|█████████████████████████▊                                                                        | 1878/7135 [1:42:19<5:00:29,  3.43s/it] 26%|█████████████████████████▊                                                                        | 1879/7135 [1:42:23<5:08:59,  3.53s/it] 26%|█████████████████████████▊                                                                        | 1880/7135 [1:42:26<5:10:13,  3.54s/it]                                                                                                                                               {'loss': 0.8342, 'grad_norm': 4.6875, 'learning_rate': 4.251709038798127e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 367.25, 'epoch': 2.63}
 26%|█████████████████████████▊                                                                        | 1880/7135 [1:42:26<5:10:13,  3.54s/it] 26%|█████████████████████████▊                                                                        | 1881/7135 [1:42:30<5:01:27,  3.44s/it] 26%|█████████████████████████▊                                                                        | 1882/7135 [1:42:33<4:50:48,  3.32s/it] 26%|█████████████████████████▊                                                                        | 1883/7135 [1:42:35<4:37:08,  3.17s/it] 26%|█████████████████████████▉                                                                        | 1884/7135 [1:42:39<4:44:22,  3.25s/it] 26%|█████████████████████████▉                                                                        | 1885/7135 [1:42:42<4:35:31,  3.15s/it] 26%|█████████████████████████▉                                                                        | 1886/7135 [1:42:45<4:38:27,  3.18s/it] 26%|█████████████████████████▉                                                                        | 1887/7135 [1:42:48<4:42:00,  3.22s/it] 26%|█████████████████████████▉                                                                        | 1888/7135 [1:42:52<4:49:39,  3.31s/it] 26%|█████████████████████████▉                                                                        | 1889/7135 [1:42:55<4:58:54,  3.42s/it] 26%|█████████████████████████▉                                                                        | 1890/7135 [1:42:59<5:03:36,  3.47s/it]                                                                                                                                               {'loss': 0.7037, 'grad_norm': 3.15625, 'learning_rate': 4.2437262869507974e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 400.51, 'epoch': 2.65}
 26%|█████████████████████████▉                                                                        | 1890/7135 [1:42:59<5:03:36,  3.47s/it] 27%|█████████████████████████▉                                                                        | 1891/7135 [1:43:02<4:46:16,  3.28s/it] 27%|█████████████████████████▉                                                                        | 1892/7135 [1:43:05<4:33:33,  3.13s/it] 27%|██████████████████████████                                                                        | 1893/7135 [1:43:08<4:31:45,  3.11s/it] 27%|██████████████████████████                                                                        | 1894/7135 [1:43:11<4:29:21,  3.08s/it] 27%|██████████████████████████                                                                        | 1895/7135 [1:43:14<4:24:10,  3.02s/it] 27%|██████████████████████████                                                                        | 1896/7135 [1:43:17<4:26:52,  3.06s/it] 27%|██████████████████████████                                                                        | 1897/7135 [1:43:20<4:25:47,  3.04s/it] 27%|██████████████████████████                                                                        | 1898/7135 [1:43:23<4:31:46,  3.11s/it] 27%|██████████████████████████                                                                        | 1899/7135 [1:43:26<4:29:29,  3.09s/it] 27%|██████████████████████████                                                                        | 1900/7135 [1:43:29<4:22:03,  3.00s/it]                                                                                                                                               {'loss': 0.69, 'grad_norm': 3.96875, 'learning_rate': 4.2357087615450546e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 419.36, 'epoch': 2.66}
 27%|██████████████████████████                                                                        | 1900/7135 [1:43:29<4:22:03,  3.00s/it] 27%|██████████████████████████                                                                        | 1901/7135 [1:43:32<4:11:34,  2.88s/it] 27%|██████████████████████████                                                                        | 1902/7135 [1:43:35<4:23:21,  3.02s/it] 27%|██████████████████████████▏                                                                       | 1903/7135 [1:43:38<4:20:40,  2.99s/it] 27%|██████████████████████████▏                                                                       | 1904/7135 [1:43:41<4:21:36,  3.00s/it] 27%|██████████████████████████▏                                                                       | 1905/7135 [1:43:44<4:26:16,  3.05s/it] 27%|██████████████████████████▏                                                                       | 1906/7135 [1:43:47<4:26:40,  3.06s/it] 27%|██████████████████████████▏                                                                       | 1907/7135 [1:43:51<4:40:16,  3.22s/it] 27%|██████████████████████████▏                                                                       | 1908/7135 [1:43:53<4:29:03,  3.09s/it] 27%|██████████████████████████▏                                                                       | 1909/7135 [1:43:57<4:32:46,  3.13s/it] 27%|██████████████████████████▏                                                                       | 1910/7135 [1:43:59<4:22:11,  3.01s/it]                                                                                                                                               {'loss': 0.8369, 'grad_norm': 4.1875, 'learning_rate': 4.227656622467162e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 450.41, 'epoch': 2.68}
 27%|██████████████████████████▏                                                                       | 1910/7135 [1:43:59<4:22:11,  3.01s/it] 27%|██████████████████████████▏                                                                       | 1911/7135 [1:44:03<4:25:04,  3.04s/it] 27%|██████████████████████████▎                                                                       | 1912/7135 [1:44:06<4:28:25,  3.08s/it] 27%|██████████████████████████▎                                                                       | 1913/7135 [1:44:09<4:22:28,  3.02s/it] 27%|██████████████████████████▎                                                                       | 1914/7135 [1:44:12<4:24:24,  3.04s/it] 27%|██████████████████████████▎                                                                       | 1915/7135 [1:44:15<4:35:57,  3.17s/it] 27%|██████████████████████████▎                                                                       | 1916/7135 [1:44:18<4:30:07,  3.11s/it] 27%|██████████████████████████▎                                                                       | 1917/7135 [1:44:22<4:42:17,  3.25s/it] 27%|██████████████████████████▎                                                                       | 1918/7135 [1:44:24<4:30:23,  3.11s/it] 27%|██████████████████████████▎                                                                       | 1919/7135 [1:44:27<4:22:15,  3.02s/it] 27%|██████████████████████████▎                                                                       | 1920/7135 [1:44:30<4:26:27,  3.07s/it]                                                                                                                                               {'loss': 0.7769, 'grad_norm': 3.546875, 'learning_rate': 4.21957003029366e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 355.53, 'epoch': 2.69}
 27%|██████████████████████████▎                                                                       | 1920/7135 [1:44:30<4:26:27,  3.07s/it] 27%|██████████████████████████▍                                                                       | 1921/7135 [1:44:33<4:17:48,  2.97s/it] 27%|██████████████████████████▍                                                                       | 1922/7135 [1:44:37<4:35:59,  3.18s/it] 27%|██████████████████████████▍                                                                       | 1923/7135 [1:44:40<4:33:54,  3.15s/it] 27%|██████████████████████████▍                                                                       | 1924/7135 [1:44:43<4:24:54,  3.05s/it] 27%|██████████████████████████▍                                                                       | 1925/7135 [1:44:46<4:36:01,  3.18s/it] 27%|██████████████████████████▍                                                                       | 1926/7135 [1:44:50<4:43:04,  3.26s/it] 27%|██████████████████████████▍                                                                       | 1927/7135 [1:44:53<4:47:30,  3.31s/it] 27%|██████████████████████████▍                                                                       | 1928/7135 [1:44:56<4:41:55,  3.25s/it] 27%|██████████████████████████▍                                                                       | 1929/7135 [1:45:00<4:46:43,  3.30s/it] 27%|██████████████████████████▌                                                                       | 1930/7135 [1:45:02<4:33:54,  3.16s/it]                                                                                                                                               {'loss': 0.7692, 'grad_norm': 5.0625, 'learning_rate': 4.211449146288151e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 416.29, 'epoch': 2.7}
 27%|██████████████████████████▌                                                                       | 1930/7135 [1:45:02<4:33:54,  3.16s/it] 27%|██████████████████████████▌                                                                       | 1931/7135 [1:45:06<4:32:15,  3.14s/it] 27%|██████████████████████████▌                                                                       | 1932/7135 [1:45:08<4:25:44,  3.06s/it] 27%|██████████████████████████▌                                                                       | 1933/7135 [1:45:12<4:37:37,  3.20s/it] 27%|██████████████████████████▌                                                                       | 1934/7135 [1:45:16<4:47:14,  3.31s/it] 27%|██████████████████████████▌                                                                       | 1935/7135 [1:45:18<4:37:14,  3.20s/it] 27%|██████████████████████████▌                                                                       | 1936/7135 [1:45:22<4:39:31,  3.23s/it] 27%|██████████████████████████▌                                                                       | 1937/7135 [1:45:25<4:32:58,  3.15s/it] 27%|██████████████████████████▌                                                                       | 1938/7135 [1:45:28<4:32:29,  3.15s/it] 27%|██████████████████████████▋                                                                       | 1939/7135 [1:45:31<4:33:55,  3.16s/it] 27%|██████████████████████████▋                                                                       | 1940/7135 [1:45:34<4:32:49,  3.15s/it]                                                                                                                                               {'loss': 0.6825, 'grad_norm': 7.65625, 'learning_rate': 4.20329413239809e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 391.59, 'epoch': 2.72}
 27%|██████████████████████████▋                                                                       | 1940/7135 [1:45:34<4:32:49,  3.15s/it] 27%|██████████████████████████▋                                                                       | 1941/7135 [1:45:37<4:33:21,  3.16s/it] 27%|██████████████████████████▋                                                                       | 1942/7135 [1:45:40<4:27:54,  3.10s/it] 27%|██████████████████████████▋                                                                       | 1943/7135 [1:45:43<4:25:41,  3.07s/it] 27%|██████████████████████████▋                                                                       | 1944/7135 [1:45:47<4:40:41,  3.24s/it] 27%|██████████████████████████▋                                                                       | 1945/7135 [1:45:50<4:37:46,  3.21s/it] 27%|██████████████████████████▋                                                                       | 1946/7135 [1:45:53<4:21:45,  3.03s/it] 27%|██████████████████████████▋                                                                       | 1947/7135 [1:45:56<4:27:57,  3.10s/it] 27%|██████████████████████████▊                                                                       | 1948/7135 [1:45:59<4:32:01,  3.15s/it] 27%|██████████████████████████▊                                                                       | 1949/7135 [1:46:02<4:24:03,  3.06s/it] 27%|██████████████████████████▊                                                                       | 1950/7135 [1:46:05<4:25:01,  3.07s/it]                                                                                                                                               {'loss': 0.8832, 'grad_norm': 7.65625, 'learning_rate': 4.195105151251554e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 375.24, 'epoch': 2.73}
 27%|██████████████████████████▊                                                                       | 1950/7135 [1:46:05<4:25:01,  3.07s/it] 27%|██████████████████████████▊                                                                       | 1951/7135 [1:46:08<4:27:13,  3.09s/it] 27%|██████████████████████████▊                                                                       | 1952/7135 [1:46:11<4:23:55,  3.06s/it] 27%|██████████████████████████▊                                                                       | 1953/7135 [1:46:14<4:18:09,  2.99s/it] 27%|██████████████████████████▊                                                                       | 1954/7135 [1:46:17<4:21:38,  3.03s/it] 27%|██████████████████████████▊                                                                       | 1955/7135 [1:46:21<4:28:23,  3.11s/it] 27%|██████████████████████████▊                                                                       | 1956/7135 [1:46:23<4:22:30,  3.04s/it] 27%|██████████████████████████▉                                                                       | 1957/7135 [1:46:26<4:15:12,  2.96s/it] 27%|██████████████████████████▉                                                                       | 1958/7135 [1:46:29<4:15:42,  2.96s/it] 27%|██████████████████████████▉                                                                       | 1959/7135 [1:46:32<4:13:08,  2.93s/it] 27%|██████████████████████████▉                                                                       | 1960/7135 [1:46:35<4:25:59,  3.08s/it]                                                                                                                                               {'loss': 0.7472, 'grad_norm': 2.734375, 'learning_rate': 4.186882366153998e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 344.88, 'epoch': 2.75}
 27%|██████████████████████████▉                                                                       | 1960/7135 [1:46:35<4:25:59,  3.08s/it] 27%|██████████████████████████▉                                                                       | 1961/7135 [1:46:39<4:41:12,  3.26s/it] 27%|██████████████████████████▉                                                                       | 1962/7135 [1:46:42<4:40:01,  3.25s/it] 28%|██████████████████████████▉                                                                       | 1963/7135 [1:46:45<4:34:39,  3.19s/it] 28%|██████████████████████████▉                                                                       | 1964/7135 [1:46:48<4:24:23,  3.07s/it] 28%|██████████████████████████▉                                                                       | 1965/7135 [1:46:52<4:35:24,  3.20s/it] 28%|███████████████████████████                                                                       | 1966/7135 [1:46:55<4:38:09,  3.23s/it] 28%|███████████████████████████                                                                       | 1967/7135 [1:46:58<4:36:57,  3.22s/it] 28%|███████████████████████████                                                                       | 1968/7135 [1:47:01<4:30:32,  3.14s/it] 28%|███████████████████████████                                                                       | 1969/7135 [1:47:04<4:30:41,  3.14s/it] 28%|███████████████████████████                                                                       | 1970/7135 [1:47:08<4:44:11,  3.30s/it]                                                                                                                                               {'loss': 0.7264, 'grad_norm': 2.8125, 'learning_rate': 4.1786259410849965e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 365.32, 'epoch': 2.76}
 28%|███████████████████████████                                                                       | 1970/7135 [1:47:08<4:44:11,  3.30s/it] 28%|███████████████████████████                                                                       | 1971/7135 [1:47:11<4:41:19,  3.27s/it] 28%|███████████████████████████                                                                       | 1972/7135 [1:47:16<5:17:00,  3.68s/it] 28%|███████████████████████████                                                                       | 1973/7135 [1:47:20<5:32:50,  3.87s/it] 28%|███████████████████████████                                                                       | 1974/7135 [1:47:23<5:08:48,  3.59s/it] 28%|███████████████████████████▏                                                                      | 1975/7135 [1:47:26<4:55:35,  3.44s/it] 28%|███████████████████████████▏                                                                      | 1976/7135 [1:47:29<4:39:36,  3.25s/it] 28%|███████████████████████████▏                                                                      | 1977/7135 [1:47:32<4:38:00,  3.23s/it] 28%|███████████████████████████▏                                                                      | 1978/7135 [1:47:35<4:33:51,  3.19s/it] 28%|███████████████████████████▏                                                                      | 1979/7135 [1:47:38<4:25:52,  3.09s/it] 28%|███████████████████████████▏                                                                      | 1980/7135 [1:47:41<4:32:35,  3.17s/it]                                                                                                                                               {'loss': 0.8695, 'grad_norm': 5.625, 'learning_rate': 4.17033604069498e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 450.78, 'epoch': 2.77}
 28%|███████████████████████████▏                                                                      | 1980/7135 [1:47:41<4:32:35,  3.17s/it] 28%|███████████████████████████▏                                                                      | 1981/7135 [1:47:45<4:46:48,  3.34s/it] 28%|███████████████████████████▏                                                                      | 1982/7135 [1:47:48<4:43:33,  3.30s/it] 28%|███████████████████████████▏                                                                      | 1983/7135 [1:47:52<4:49:22,  3.37s/it] 28%|███████████████████████████▎                                                                      | 1984/7135 [1:47:56<4:59:59,  3.49s/it] 28%|███████████████████████████▎                                                                      | 1985/7135 [1:47:59<4:57:37,  3.47s/it] 28%|███████████████████████████▎                                                                      | 1986/7135 [1:48:02<4:45:16,  3.32s/it] 28%|███████████████████████████▎                                                                      | 1987/7135 [1:48:06<4:54:45,  3.44s/it] 28%|███████████████████████████▎                                                                      | 1988/7135 [1:48:09<4:45:39,  3.33s/it] 28%|███████████████████████████▎                                                                      | 1989/7135 [1:48:12<4:40:41,  3.27s/it] 28%|███████████████████████████▎                                                                      | 1990/7135 [1:48:15<4:22:05,  3.06s/it]                                                                                                                                               {'loss': 0.721, 'grad_norm': 5.9375, 'learning_rate': 4.162012830301944e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 491.49, 'epoch': 2.79}
 28%|███████████████████████████▎                                                                      | 1990/7135 [1:48:15<4:22:05,  3.06s/it] 28%|███████████████████████████▎                                                                      | 1991/7135 [1:48:18<4:32:58,  3.18s/it] 28%|███████████████████████████▎                                                                      | 1992/7135 [1:48:21<4:35:29,  3.21s/it] 28%|███████████████████████████▎                                                                      | 1993/7135 [1:48:25<4:41:55,  3.29s/it] 28%|███████████████████████████▍                                                                      | 1994/7135 [1:48:28<4:43:38,  3.31s/it] 28%|███████████████████████████▍                                                                      | 1995/7135 [1:48:31<4:42:50,  3.30s/it] 28%|███████████████████████████▍                                                                      | 1996/7135 [1:48:35<4:43:19,  3.31s/it] 28%|███████████████████████████▍                                                                      | 1997/7135 [1:48:39<4:59:40,  3.50s/it] 28%|███████████████████████████▍                                                                      | 1998/7135 [1:48:42<4:42:30,  3.30s/it] 28%|███████████████████████████▍                                                                      | 1999/7135 [1:48:45<4:43:17,  3.31s/it] 28%|███████████████████████████▍                                                                      | 2000/7135 [1:48:47<4:25:37,  3.10s/it]                                                                                                                                               {'loss': 0.7886, 'grad_norm': 6.25, 'learning_rate': 4.153656475888154e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 423.47, 'epoch': 2.8}
 28%|███████████████████████████▍                                                                      | 2000/7135 [1:48:48<4:25:37,  3.10s/it] 28%|███████████████████████████▍                                                                      | 2001/7135 [1:48:51<4:34:48,  3.21s/it] 28%|███████████████████████████▍                                                                      | 2002/7135 [1:48:54<4:30:40,  3.16s/it] 28%|███████████████████████████▌                                                                      | 2003/7135 [1:48:57<4:27:27,  3.13s/it] 28%|███████████████████████████▌                                                                      | 2004/7135 [1:49:00<4:22:52,  3.07s/it] 28%|███████████████████████████▌                                                                      | 2005/7135 [1:49:03<4:28:02,  3.14s/it] 28%|███████████████████████████▌                                                                      | 2006/7135 [1:49:06<4:25:40,  3.11s/it] 28%|███████████████████████████▌                                                                      | 2007/7135 [1:49:10<4:41:08,  3.29s/it] 28%|███████████████████████████▌                                                                      | 2008/7135 [1:49:13<4:31:34,  3.18s/it] 28%|███████████████████████████▌                                                                      | 2009/7135 [1:49:17<4:44:05,  3.33s/it] 28%|███████████████████████████▌                                                                      | 2010/7135 [1:49:21<5:00:50,  3.52s/it]                                                                                                                                               {'loss': 0.8029, 'grad_norm': 3.71875, 'learning_rate': 4.1452671440968415e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 388.7, 'epoch': 2.82}
 28%|███████████████████████████▌                                                                      | 2010/7135 [1:49:21<5:00:50,  3.52s/it] 28%|███████████████████████████▌                                                                      | 2011/7135 [1:49:24<5:08:56,  3.62s/it] 28%|███████████████████████████▋                                                                      | 2012/7135 [1:49:28<5:04:00,  3.56s/it] 28%|███████████████████████████▋                                                                      | 2013/7135 [1:49:30<4:39:40,  3.28s/it] 28%|███████████████████████████▋                                                                      | 2014/7135 [1:49:33<4:32:50,  3.20s/it] 28%|███████████████████████████▋                                                                      | 2015/7135 [1:49:37<4:40:08,  3.28s/it] 28%|███████████████████████████▋                                                                      | 2016/7135 [1:49:40<4:28:44,  3.15s/it] 28%|███████████████████████████▋                                                                      | 2017/7135 [1:49:44<4:59:33,  3.51s/it] 28%|███████████████████████████▋                                                                      | 2018/7135 [1:49:47<4:48:46,  3.39s/it] 28%|███████████████████████████▋                                                                      | 2019/7135 [1:49:50<4:41:34,  3.30s/it] 28%|███████████████████████████▋                                                                      | 2020/7135 [1:49:54<4:37:50,  3.26s/it]                                                                                                                                               {'loss': 0.7252, 'grad_norm': 4.96875, 'learning_rate': 4.136845002228871e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 402.53, 'epoch': 2.83}
 28%|███████████████████████████▋                                                                      | 2020/7135 [1:49:54<4:37:50,  3.26s/it] 28%|███████████████████████████▊                                                                      | 2021/7135 [1:49:57<4:30:19,  3.17s/it] 28%|███████████████████████████▊                                                                      | 2022/7135 [1:50:00<4:41:15,  3.30s/it] 28%|███████████████████████████▊                                                                      | 2023/7135 [1:50:03<4:32:58,  3.20s/it] 28%|███████████████████████████▊                                                                      | 2024/7135 [1:50:06<4:33:45,  3.21s/it] 28%|███████████████████████████▊                                                                      | 2025/7135 [1:50:09<4:26:30,  3.13s/it] 28%|███████████████████████████▊                                                                      | 2026/7135 [1:50:12<4:22:37,  3.08s/it] 28%|███████████████████████████▊                                                                      | 2027/7135 [1:50:15<4:24:50,  3.11s/it] 28%|███████████████████████████▊                                                                      | 2028/7135 [1:50:18<4:17:05,  3.02s/it] 28%|███████████████████████████▊                                                                      | 2029/7135 [1:50:22<4:31:42,  3.19s/it] 28%|███████████████████████████▉                                                                      | 2030/7135 [1:50:25<4:28:29,  3.16s/it]                                                                                                                                               {'loss': 0.8041, 'grad_norm': 4.53125, 'learning_rate': 4.128390218239411e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 404.99, 'epoch': 2.84}
 28%|███████████████████████████▉                                                                      | 2030/7135 [1:50:25<4:28:29,  3.16s/it] 28%|███████████████████████████▉                                                                      | 2031/7135 [1:50:28<4:32:06,  3.20s/it] 28%|███████████████████████████▉                                                                      | 2032/7135 [1:50:31<4:30:05,  3.18s/it] 28%|███████████████████████████▉                                                                      | 2033/7135 [1:50:34<4:28:18,  3.16s/it] 29%|███████████████████████████▉                                                                      | 2034/7135 [1:50:38<4:32:25,  3.20s/it] 29%|███████████████████████████▉                                                                      | 2035/7135 [1:50:41<4:25:57,  3.13s/it] 29%|███████████████████████████▉                                                                      | 2036/7135 [1:50:44<4:23:49,  3.10s/it] 29%|███████████████████████████▉                                                                      | 2037/7135 [1:50:47<4:17:36,  3.03s/it] 29%|███████████████████████████▉                                                                      | 2038/7135 [1:50:50<4:19:18,  3.05s/it] 29%|████████████████████████████                                                                      | 2039/7135 [1:50:53<4:14:36,  3.00s/it] 29%|████████████████████████████                                                                      | 2040/7135 [1:50:55<4:05:24,  2.89s/it]                                                                                                                                               {'loss': 0.8894, 'grad_norm': 4.375, 'learning_rate': 4.119902960734584e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 433.41, 'epoch': 2.86}
 29%|████████████████████████████                                                                      | 2040/7135 [1:50:55<4:05:24,  2.89s/it] 29%|████████████████████████████                                                                      | 2041/7135 [1:50:59<4:24:28,  3.12s/it] 29%|████████████████████████████                                                                      | 2042/7135 [1:51:02<4:28:11,  3.16s/it] 29%|████████████████████████████                                                                      | 2043/7135 [1:51:05<4:29:16,  3.17s/it] 29%|████████████████████████████                                                                      | 2044/7135 [1:51:08<4:29:14,  3.17s/it] 29%|████████████████████████████                                                                      | 2045/7135 [1:51:12<4:29:26,  3.18s/it] 29%|████████████████████████████                                                                      | 2046/7135 [1:51:15<4:24:54,  3.12s/it] 29%|████████████████████████████                                                                      | 2047/7135 [1:51:18<4:23:01,  3.10s/it] 29%|████████████████████████████▏                                                                     | 2048/7135 [1:51:21<4:30:01,  3.18s/it] 29%|████████████████████████████▏                                                                     | 2049/7135 [1:51:24<4:31:16,  3.20s/it] 29%|████████████████████████████▏                                                                     | 2050/7135 [1:51:27<4:21:00,  3.08s/it]                                                                                                                                               {'loss': 0.7371, 'grad_norm': 5.40625, 'learning_rate': 4.1113833989681e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 384.75, 'epoch': 2.87}
 29%|████████████████████████████▏                                                                     | 2050/7135 [1:51:27<4:21:00,  3.08s/it] 29%|████████████████████████████▏                                                                     | 2051/7135 [1:51:31<4:35:25,  3.25s/it] 29%|████████████████████████████▏                                                                     | 2052/7135 [1:51:34<4:42:19,  3.33s/it] 29%|████████████████████████████▏                                                                     | 2053/7135 [1:51:38<4:42:57,  3.34s/it] 29%|████████████████████████████▏                                                                     | 2054/7135 [1:51:41<4:37:36,  3.28s/it] 29%|████████████████████████████▏                                                                     | 2055/7135 [1:51:45<5:10:10,  3.66s/it] 29%|████████████████████████████▏                                                                     | 2056/7135 [1:51:49<5:10:34,  3.67s/it] 29%|████████████████████████████▎                                                                     | 2057/7135 [1:51:52<4:57:25,  3.51s/it] 29%|████████████████████████████▎                                                                     | 2058/7135 [1:51:55<4:41:55,  3.33s/it] 29%|████████████████████████████▎                                                                     | 2059/7135 [1:51:58<4:33:13,  3.23s/it] 29%|████████████████████████████▎                                                                     | 2060/7135 [1:52:01<4:26:00,  3.15s/it]                                                                                                                                               {'loss': 0.8187, 'grad_norm': 7.0, 'learning_rate': 4.102831702837883e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 483.71, 'epoch': 2.89}
 29%|████████████████████████████▎                                                                     | 2060/7135 [1:52:01<4:26:00,  3.15s/it] 29%|████████████████████████████▎                                                                     | 2061/7135 [1:52:04<4:24:16,  3.13s/it] 29%|████████████████████████████▎                                                                     | 2062/7135 [1:52:07<4:24:22,  3.13s/it] 29%|████████████████████████████▎                                                                     | 2063/7135 [1:52:10<4:18:42,  3.06s/it] 29%|████████████████████████████▎                                                                     | 2064/7135 [1:52:13<4:25:32,  3.14s/it] 29%|████████████████████████████▎                                                                     | 2065/7135 [1:52:17<4:38:22,  3.29s/it] 29%|████████████████████████████▍                                                                     | 2066/7135 [1:52:21<4:41:48,  3.34s/it] 29%|████████████████████████████▍                                                                     | 2067/7135 [1:52:23<4:29:32,  3.19s/it] 29%|████████████████████████████▍                                                                     | 2068/7135 [1:52:27<4:43:31,  3.36s/it] 29%|████████████████████████████▍                                                                     | 2069/7135 [1:52:31<4:44:08,  3.37s/it] 29%|████████████████████████████▍                                                                     | 2070/7135 [1:52:34<4:44:02,  3.36s/it]                                                                                                                                               {'loss': 0.7017, 'grad_norm': 4.5, 'learning_rate': 4.094248042882687e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 355.17, 'epoch': 2.9}
 29%|████████████████████████████▍                                                                     | 2070/7135 [1:52:34<4:44:02,  3.36s/it] 29%|████████████████████████████▍                                                                     | 2071/7135 [1:52:38<4:57:47,  3.53s/it] 29%|████████████████████████████▍                                                                     | 2072/7135 [1:52:41<4:47:13,  3.40s/it] 29%|████████████████████████████▍                                                                     | 2073/7135 [1:52:44<4:37:12,  3.29s/it] 29%|████████████████████████████▍                                                                     | 2074/7135 [1:52:47<4:29:46,  3.20s/it] 29%|████████████████████████████▌                                                                     | 2075/7135 [1:52:50<4:31:11,  3.22s/it] 29%|████████████████████████████▌                                                                     | 2076/7135 [1:52:54<4:35:50,  3.27s/it] 29%|████████████████████████████▌                                                                     | 2077/7135 [1:52:57<4:41:15,  3.34s/it] 29%|████████████████████████████▌                                                                     | 2078/7135 [1:53:01<4:59:14,  3.55s/it] 29%|████████████████████████████▌                                                                     | 2079/7135 [1:53:05<5:00:32,  3.57s/it] 29%|████████████████████████████▌                                                                     | 2080/7135 [1:53:08<4:54:42,  3.50s/it]                                                                                                                                               {'loss': 0.7757, 'grad_norm': 4.6875, 'learning_rate': 4.08563259027869e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 400.64, 'epoch': 2.91}
 29%|████████████████████████████▌                                                                     | 2080/7135 [1:53:08<4:54:42,  3.50s/it] 29%|████████████████████████████▌                                                                     | 2081/7135 [1:53:11<4:38:16,  3.30s/it] 29%|████████████████████████████▌                                                                     | 2082/7135 [1:53:14<4:43:18,  3.36s/it] 29%|████████████████████████████▌                                                                     | 2083/7135 [1:53:17<4:34:22,  3.26s/it] 29%|████████████████████████████▌                                                                     | 2084/7135 [1:53:21<4:38:57,  3.31s/it] 29%|████████████████████████████▋                                                                     | 2085/7135 [1:53:24<4:36:09,  3.28s/it] 29%|████████████████████████████▋                                                                     | 2086/7135 [1:53:27<4:30:45,  3.22s/it] 29%|████████████████████████████▋                                                                     | 2087/7135 [1:53:30<4:28:36,  3.19s/it] 29%|████████████████████████████▋                                                                     | 2088/7135 [1:53:33<4:24:49,  3.15s/it] 29%|████████████████████████████▋                                                                     | 2089/7135 [1:53:37<4:25:43,  3.16s/it] 29%|████████████████████████████▋                                                                     | 2090/7135 [1:53:40<4:23:32,  3.13s/it]                                                                                                                                               {'loss': 0.8688, 'grad_norm': 5.625, 'learning_rate': 4.07698551683608e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 403.86, 'epoch': 2.93}
 29%|████████████████████████████▋                                                                     | 2090/7135 [1:53:40<4:23:32,  3.13s/it] 29%|████████████████████████████▋                                                                     | 2091/7135 [1:53:43<4:25:38,  3.16s/it] 29%|████████████████████████████▋                                                                     | 2092/7135 [1:53:46<4:27:44,  3.19s/it] 29%|████████████████████████████▋                                                                     | 2093/7135 [1:53:49<4:17:50,  3.07s/it] 29%|████████████████████████████▊                                                                     | 2094/7135 [1:53:52<4:19:28,  3.09s/it] 29%|████████████████████████████▊                                                                     | 2095/7135 [1:53:55<4:12:58,  3.01s/it] 29%|████████████████████████████▊                                                                     | 2096/7135 [1:53:58<4:17:23,  3.06s/it] 29%|████████████████████████████▊                                                                     | 2097/7135 [1:54:01<4:09:09,  2.97s/it] 29%|████████████████████████████▊                                                                     | 2098/7135 [1:54:04<4:17:56,  3.07s/it] 29%|████████████████████████████▊                                                                     | 2099/7135 [1:54:07<4:19:48,  3.10s/it] 29%|████████████████████████████▊                                                                     | 2100/7135 [1:54:10<4:12:23,  3.01s/it]                                                                                                                                               {'loss': 0.6916, 'grad_norm': 6.21875, 'learning_rate': 4.0683069949956324e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 361.23, 'epoch': 2.94}
 29%|████████████████████████████▊                                                                     | 2100/7135 [1:54:10<4:12:23,  3.01s/it] 29%|████████████████████████████▊                                                                     | 2101/7135 [1:54:13<4:05:46,  2.93s/it] 29%|████████████████████████████▊                                                                     | 2102/7135 [1:54:16<4:13:44,  3.02s/it] 29%|████████████████████████████▉                                                                     | 2103/7135 [1:54:20<4:29:35,  3.21s/it] 29%|████████████████████████████▉                                                                     | 2104/7135 [1:54:23<4:40:30,  3.35s/it] 30%|████████████████████████████▉                                                                     | 2105/7135 [1:54:26<4:29:53,  3.22s/it] 30%|████████████████████████████▉                                                                     | 2106/7135 [1:54:29<4:23:27,  3.14s/it] 30%|████████████████████████████▉                                                                     | 2107/7135 [1:54:33<4:33:31,  3.26s/it] 30%|████████████████████████████▉                                                                     | 2108/7135 [1:54:35<4:18:42,  3.09s/it] 30%|████████████████████████████▉                                                                     | 2109/7135 [1:54:38<4:10:57,  3.00s/it] 30%|████████████████████████████▉                                                                     | 2110/7135 [1:54:41<4:14:15,  3.04s/it]                                                                                                                                               {'loss': 0.7561, 'grad_norm': 4.1875, 'learning_rate': 4.059597197825273e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 418.2, 'epoch': 2.96}
 30%|████████████████████████████▉                                                                     | 2110/7135 [1:54:41<4:14:15,  3.04s/it] 30%|████████████████████████████▉                                                                     | 2111/7135 [1:54:45<4:35:41,  3.29s/it] 30%|█████████████████████████████                                                                     | 2112/7135 [1:54:48<4:31:55,  3.25s/it] 30%|█████████████████████████████                                                                     | 2113/7135 [1:54:51<4:27:52,  3.20s/it] 30%|█████████████████████████████                                                                     | 2114/7135 [1:54:55<4:35:46,  3.30s/it] 30%|█████████████████████████████                                                                     | 2115/7135 [1:54:58<4:37:13,  3.31s/it] 30%|█████████████████████████████                                                                     | 2116/7135 [1:55:01<4:24:34,  3.16s/it] 30%|█████████████████████████████                                                                     | 2117/7135 [1:55:04<4:28:50,  3.21s/it] 30%|█████████████████████████████                                                                     | 2118/7135 [1:55:07<4:20:16,  3.11s/it] 30%|█████████████████████████████                                                                     | 2119/7135 [1:55:10<4:11:38,  3.01s/it] 30%|█████████████████████████████                                                                     | 2120/7135 [1:55:13<4:15:54,  3.06s/it]                                                                                                                                               {'loss': 0.8648, 'grad_norm': 4.625, 'learning_rate': 4.050856299016617e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 429.24, 'epoch': 2.97}
 30%|█████████████████████████████                                                                     | 2120/7135 [1:55:13<4:15:54,  3.06s/it] 30%|█████████████████████████████▏                                                                    | 2121/7135 [1:55:17<4:22:45,  3.14s/it] 30%|█████████████████████████████▏                                                                    | 2122/7135 [1:55:20<4:35:41,  3.30s/it] 30%|█████████████████████████████▏                                                                    | 2123/7135 [1:55:23<4:21:46,  3.13s/it] 30%|█████████████████████████████▏                                                                    | 2124/7135 [1:55:27<4:32:45,  3.27s/it] 30%|█████████████████████████████▏                                                                    | 2125/7135 [1:55:30<4:43:22,  3.39s/it] 30%|█████████████████████████████▏                                                                    | 2126/7135 [1:55:33<4:29:45,  3.23s/it] 30%|█████████████████████████████▏                                                                    | 2127/7135 [1:55:36<4:22:25,  3.14s/it] 30%|█████████████████████████████▏                                                                    | 2128/7135 [1:55:39<4:26:00,  3.19s/it] 30%|█████████████████████████████▏                                                                    | 2129/7135 [1:55:43<4:31:59,  3.26s/it] 30%|█████████████████████████████▎                                                                    | 2130/7135 [1:55:46<4:36:20,  3.31s/it]                                                                                                                                               {'loss': 0.619, 'grad_norm': 2.3125, 'learning_rate': 4.042084472881516e-06, 'memory/max_active (GiB)': 37.46, 'memory/max_allocated (GiB)': 37.46, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 430.54, 'epoch': 2.98}
 30%|█████████████████████████████▎                                                                    | 2130/7135 [1:55:46<4:36:20,  3.31s/it] 30%|█████████████████████████████▎                                                                    | 2131/7135 [1:55:49<4:22:52,  3.15s/it] 30%|█████████████████████████████▎                                                                    | 2132/7135 [1:55:52<4:15:50,  3.07s/it] 30%|█████████████████████████████▎                                                                    | 2133/7135 [1:55:55<4:26:29,  3.20s/it] 30%|█████████████████████████████▎                                                                    | 2134/7135 [1:55:59<4:27:14,  3.21s/it] 30%|█████████████████████████████▎                                                                    | 2135/7135 [1:56:02<4:23:38,  3.16s/it] 30%|█████████████████████████████▎                                                                    | 2136/7135 [1:56:05<4:28:20,  3.22s/it] 30%|█████████████████████████████▎                                                                    | 2137/7135 [1:56:08<4:21:29,  3.14s/it] 30%|█████████████████████████████▎                                                                    | 2138/7135 [1:56:11<4:28:17,  3.22s/it] 30%|█████████████████████████████▍                                                                    | 2139/7135 [1:56:15<4:24:17,  3.17s/it] 30%|█████████████████████████████▍                                                                    | 2140/7135 [1:56:18<4:29:11,  3.23s/it]                                                                                                                                               {'loss': 0.7995, 'grad_norm': 4.90625, 'learning_rate': 4.033281894348575e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 364.22, 'epoch': 3.0}
 30%|█████████████████████████████▍                                                                    | 2140/7135 [1:56:18<4:29:11,  3.23s/it] 30%|█████████████████████████████▍                                                                    | 2141/7135 [1:56:22<4:40:47,  3.37s/it] 30%|█████████████████████████████▍                                                                    | 2142/7135 [1:56:23<4:01:20,  2.90s/it][2025-12-23 16:20:29,528] [INFO] [axolotl.core.trainers.base._save:671] [PID:5064] Saving model checkpoint to ./outputs/qwen3-4b-instruct-abd-full-train/checkpoint-2142
 30%|█████████████████████████████▏                                                                   | 2143/7135 [1:57:26<28:51:20, 20.81s/it] 30%|█████████████████████████████▏                                                                   | 2144/7135 [1:57:29<21:18:24, 15.37s/it] 30%|█████████████████████████████▏                                                                   | 2145/7135 [1:57:32<16:15:48, 11.73s/it] 30%|█████████████████████████████▏                                                                   | 2146/7135 [1:57:35<12:45:55,  9.21s/it] 30%|█████████████████████████████▏                                                                   | 2147/7135 [1:57:38<10:10:56,  7.35s/it] 30%|█████████████████████████████▌                                                                    | 2148/7135 [1:57:42<8:31:15,  6.15s/it] 30%|█████████████████████████████▌                                                                    | 2149/7135 [1:57:45<7:18:35,  5.28s/it] 30%|█████████████████████████████▌                                                                    | 2150/7135 [1:57:48<6:14:18,  4.51s/it]                                                                                                                                               {'loss': 0.6804, 'grad_norm': 6.28125, 'learning_rate': 4.024448738959668e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 411.43, 'epoch': 3.01}
 30%|█████████████████████████████▌                                                                    | 2150/7135 [1:57:48<6:14:18,  4.51s/it] 30%|█████████████████████████████▌                                                                    | 2151/7135 [1:57:51<5:57:41,  4.31s/it] 30%|█████████████████████████████▌                                                                    | 2152/7135 [1:57:55<5:35:36,  4.04s/it] 30%|█████████████████████████████▌                                                                    | 2153/7135 [1:57:58<5:11:11,  3.75s/it] 30%|█████████████████████████████▌                                                                    | 2154/7135 [1:58:01<4:52:52,  3.53s/it] 30%|█████████████████████████████▌                                                                    | 2155/7135 [1:58:04<4:38:58,  3.36s/it] 30%|█████████████████████████████▌                                                                    | 2156/7135 [1:58:07<4:41:01,  3.39s/it] 30%|█████████████████████████████▋                                                                    | 2157/7135 [1:58:10<4:27:29,  3.22s/it] 30%|█████████████████████████████▋                                                                    | 2158/7135 [1:58:13<4:23:00,  3.17s/it] 30%|█████████████████████████████▋                                                                    | 2159/7135 [1:58:17<4:39:41,  3.37s/it] 30%|█████████████████████████████▋                                                                    | 2160/7135 [1:58:20<4:37:34,  3.35s/it]                                                                                                                                               {'loss': 0.724, 'grad_norm': 4.5625, 'learning_rate': 4.015585182866436e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 424.84, 'epoch': 3.03}
 30%|█████████████████████████████▋                                                                    | 2160/7135 [1:58:20<4:37:34,  3.35s/it] 30%|█████████████████████████████▋                                                                    | 2161/7135 [1:58:24<4:48:01,  3.47s/it] 30%|█████████████████████████████▋                                                                    | 2162/7135 [1:58:27<4:46:11,  3.45s/it] 30%|█████████████████████████████▋                                                                    | 2163/7135 [1:58:31<4:51:37,  3.52s/it] 30%|█████████████████████████████▋                                                                    | 2164/7135 [1:58:34<4:32:48,  3.29s/it] 30%|█████████████████████████████▋                                                                    | 2165/7135 [1:58:37<4:31:40,  3.28s/it] 30%|█████████████████████████████▊                                                                    | 2166/7135 [1:58:40<4:24:58,  3.20s/it] 30%|█████████████████████████████▊                                                                    | 2167/7135 [1:58:44<4:38:14,  3.36s/it] 30%|█████████████████████████████▊                                                                    | 2168/7135 [1:58:47<4:30:26,  3.27s/it] 30%|█████████████████████████████▊                                                                    | 2169/7135 [1:58:50<4:16:20,  3.10s/it] 30%|█████████████████████████████▊                                                                    | 2170/7135 [1:58:52<4:08:33,  3.00s/it]                                                                                                                                               {'loss': 0.7694, 'grad_norm': 4.46875, 'learning_rate': 4.006691402826771e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 401.95, 'epoch': 3.04}
 30%|█████████████████████████████▊                                                                    | 2170/7135 [1:58:52<4:08:33,  3.00s/it] 30%|█████████████████████████████▊                                                                    | 2171/7135 [1:58:56<4:11:00,  3.03s/it] 30%|█████████████████████████████▊                                                                    | 2172/7135 [1:58:58<4:05:57,  2.97s/it] 30%|█████████████████████████████▊                                                                    | 2173/7135 [1:59:02<4:21:28,  3.16s/it] 30%|█████████████████████████████▊                                                                    | 2174/7135 [1:59:05<4:10:07,  3.03s/it] 30%|█████████████████████████████▊                                                                    | 2175/7135 [1:59:08<4:09:36,  3.02s/it] 30%|█████████████████████████████▉                                                                    | 2176/7135 [1:59:11<4:19:04,  3.13s/it] 31%|█████████████████████████████▉                                                                    | 2177/7135 [1:59:14<4:19:48,  3.14s/it] 31%|█████████████████████████████▉                                                                    | 2178/7135 [1:59:18<4:27:46,  3.24s/it] 31%|█████████████████████████████▉                                                                    | 2179/7135 [1:59:21<4:19:07,  3.14s/it] 31%|█████████████████████████████▉                                                                    | 2180/7135 [1:59:24<4:35:42,  3.34s/it]                                                                                                                                               {'loss': 0.8669, 'grad_norm': 3.0, 'learning_rate': 3.997767576201296e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 408.62, 'epoch': 3.05}
 31%|█████████████████████████████▉                                                                    | 2180/7135 [1:59:24<4:35:42,  3.34s/it] 31%|█████████████████████████████▉                                                                    | 2181/7135 [1:59:28<4:31:25,  3.29s/it] 31%|█████████████████████████████▉                                                                    | 2182/7135 [1:59:31<4:32:44,  3.30s/it] 31%|█████████████████████████████▉                                                                    | 2183/7135 [1:59:34<4:37:59,  3.37s/it] 31%|█████████████████████████████▉                                                                    | 2184/7135 [1:59:38<4:40:21,  3.40s/it] 31%|██████████████████████████████                                                                    | 2185/7135 [1:59:41<4:39:24,  3.39s/it] 31%|██████████████████████████████                                                                    | 2186/7135 [1:59:44<4:27:43,  3.25s/it] 31%|██████████████████████████████                                                                    | 2187/7135 [1:59:47<4:25:07,  3.21s/it] 31%|██████████████████████████████                                                                    | 2188/7135 [1:59:50<4:19:02,  3.14s/it] 31%|██████████████████████████████                                                                    | 2189/7135 [1:59:53<4:13:11,  3.07s/it] 31%|██████████████████████████████                                                                    | 2190/7135 [1:59:57<4:25:54,  3.23s/it]                                                                                                                                               {'loss': 0.6677, 'grad_norm': 5.53125, 'learning_rate': 3.988813880949826e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 333.1, 'epoch': 3.07}
 31%|██████████████████████████████                                                                    | 2190/7135 [1:59:57<4:25:54,  3.23s/it] 31%|██████████████████████████████                                                                    | 2191/7135 [2:00:00<4:26:02,  3.23s/it] 31%|██████████████████████████████                                                                    | 2192/7135 [2:00:03<4:27:51,  3.25s/it] 31%|██████████████████████████████                                                                    | 2193/7135 [2:00:07<4:30:26,  3.28s/it] 31%|██████████████████████████████▏                                                                   | 2194/7135 [2:00:10<4:28:55,  3.27s/it] 31%|██████████████████████████████▏                                                                   | 2195/7135 [2:00:13<4:27:44,  3.25s/it] 31%|██████████████████████████████▏                                                                   | 2196/7135 [2:00:17<4:37:04,  3.37s/it] 31%|██████████████████████████████▏                                                                   | 2197/7135 [2:00:21<4:54:13,  3.58s/it] 31%|██████████████████████████████▏                                                                   | 2198/7135 [2:00:24<4:48:19,  3.50s/it] 31%|██████████████████████████████▏                                                                   | 2199/7135 [2:00:28<4:46:29,  3.48s/it] 31%|██████████████████████████████▏                                                                   | 2200/7135 [2:00:31<4:45:07,  3.47s/it]                                                                                                                                               {'loss': 0.7983, 'grad_norm': 4.0, 'learning_rate': 3.979830495627816e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 389.32, 'epoch': 3.08}
 31%|██████████████████████████████▏                                                                   | 2200/7135 [2:00:31<4:45:07,  3.47s/it] 31%|██████████████████████████████▏                                                                   | 2201/7135 [2:00:34<4:35:58,  3.36s/it] 31%|██████████████████████████████▏                                                                   | 2202/7135 [2:00:37<4:34:25,  3.34s/it] 31%|██████████████████████████████▎                                                                   | 2203/7135 [2:00:40<4:21:06,  3.18s/it] 31%|██████████████████████████████▎                                                                   | 2204/7135 [2:00:44<4:27:53,  3.26s/it] 31%|██████████████████████████████▎                                                                   | 2205/7135 [2:00:47<4:33:15,  3.33s/it] 31%|██████████████████████████████▎                                                                   | 2206/7135 [2:00:50<4:27:58,  3.26s/it] 31%|██████████████████████████████▎                                                                   | 2207/7135 [2:00:53<4:19:18,  3.16s/it] 31%|██████████████████████████████▎                                                                   | 2208/7135 [2:00:56<4:12:59,  3.08s/it] 31%|██████████████████████████████▎                                                                   | 2209/7135 [2:00:59<4:12:05,  3.07s/it] 31%|██████████████████████████████▎                                                                   | 2210/7135 [2:01:03<4:20:33,  3.17s/it]                                                                                                                                               {'loss': 0.7708, 'grad_norm': 4.34375, 'learning_rate': 3.970817599382809e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 382.83, 'epoch': 3.1}
 31%|██████████████████████████████▎                                                                   | 2210/7135 [2:01:03<4:20:33,  3.17s/it] 31%|██████████████████████████████▎                                                                   | 2211/7135 [2:01:06<4:22:04,  3.19s/it] 31%|██████████████████████████████▍                                                                   | 2212/7135 [2:01:09<4:21:23,  3.19s/it] 31%|██████████████████████████████▍                                                                   | 2213/7135 [2:01:12<4:15:10,  3.11s/it] 31%|██████████████████████████████▍                                                                   | 2214/7135 [2:01:15<4:12:05,  3.07s/it] 31%|██████████████████████████████▍                                                                   | 2215/7135 [2:01:18<4:11:09,  3.06s/it] 31%|██████████████████████████████▍                                                                   | 2216/7135 [2:01:21<4:10:20,  3.05s/it] 31%|██████████████████████████████▍                                                                   | 2217/7135 [2:01:24<4:15:11,  3.11s/it] 31%|██████████████████████████████▍                                                                   | 2218/7135 [2:01:27<4:17:37,  3.14s/it] 31%|██████████████████████████████▍                                                                   | 2219/7135 [2:01:31<4:19:37,  3.17s/it] 31%|██████████████████████████████▍                                                                   | 2220/7135 [2:01:34<4:21:27,  3.19s/it]                                                                                                                                               {'loss': 0.8085, 'grad_norm': 5.09375, 'learning_rate': 3.9617753719508525e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 350.61, 'epoch': 3.11}
 31%|██████████████████████████████▍                                                                   | 2220/7135 [2:01:34<4:21:27,  3.19s/it] 31%|██████████████████████████████▌                                                                   | 2221/7135 [2:01:38<4:40:19,  3.42s/it] 31%|██████████████████████████████▌                                                                   | 2222/7135 [2:01:41<4:45:09,  3.48s/it] 31%|██████████████████████████████▌                                                                   | 2223/7135 [2:01:44<4:31:55,  3.32s/it] 31%|██████████████████████████████▌                                                                   | 2224/7135 [2:01:48<4:32:01,  3.32s/it] 31%|██████████████████████████████▌                                                                   | 2225/7135 [2:01:51<4:23:00,  3.21s/it] 31%|██████████████████████████████▌                                                                   | 2226/7135 [2:01:54<4:23:41,  3.22s/it] 31%|██████████████████████████████▌                                                                   | 2227/7135 [2:01:57<4:11:54,  3.08s/it] 31%|██████████████████████████████▌                                                                   | 2228/7135 [2:02:00<4:12:27,  3.09s/it] 31%|██████████████████████████████▌                                                                   | 2229/7135 [2:02:03<4:11:47,  3.08s/it] 31%|██████████████████████████████▋                                                                   | 2230/7135 [2:02:06<4:19:44,  3.18s/it]                                                                                                                                               {'loss': 0.7421, 'grad_norm': 3.59375, 'learning_rate': 3.9527039936529225e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 349.9, 'epoch': 3.12}
 31%|██████████████████████████████▋                                                                   | 2230/7135 [2:02:06<4:19:44,  3.18s/it] 31%|██████████████████████████████▋                                                                   | 2231/7135 [2:02:09<4:18:44,  3.17s/it] 31%|██████████████████████████████▋                                                                   | 2232/7135 [2:02:12<4:08:05,  3.04s/it] 31%|██████████████████████████████▋                                                                   | 2233/7135 [2:02:15<3:59:50,  2.94s/it] 31%|██████████████████████████████▋                                                                   | 2234/7135 [2:02:18<3:58:34,  2.92s/it] 31%|██████████████████████████████▋                                                                   | 2235/7135 [2:02:22<4:28:21,  3.29s/it] 31%|██████████████████████████████▋                                                                   | 2236/7135 [2:02:25<4:16:43,  3.14s/it] 31%|██████████████████████████████▋                                                                   | 2237/7135 [2:02:28<4:10:58,  3.07s/it] 31%|██████████████████████████████▋                                                                   | 2238/7135 [2:02:31<4:14:18,  3.12s/it] 31%|██████████████████████████████▊                                                                   | 2239/7135 [2:02:34<4:15:50,  3.14s/it] 31%|██████████████████████████████▊                                                                   | 2240/7135 [2:02:37<4:15:04,  3.13s/it]                                                                                                                                               {'loss': 0.7332, 'grad_norm': 4.90625, 'learning_rate': 3.943603645391321e-06, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 417.81, 'epoch': 3.14}
 31%|██████████████████████████████▊                                                                   | 2240/7135 [2:02:37<4:15:04,  3.13s/it] 31%|██████████████████████████████▊                                                                   | 2241/7135 [2:02:40<4:18:30,  3.17s/it] 31%|██████████████████████████████▊                                                                   | 2242/7135 [2:02:44<4:27:38,  3.28s/it] 31%|██████████████████████████████▊                                                                   | 2243/7135 [2:02:47<4:20:28,  3.19s/it] 31%|██████████████████████████████▊                                                                   | 2244/7135 [2:02:50<4:18:26,  3.17s/it] 31%|██████████████████████████████▊                                                                   | 2245/7135 [2:02:54<4:39:04,  3.42s/it] 31%|██████████████████████████████▊                                                                   | 2246/7135 [2:02:58<4:43:42,  3.48s/it] 31%|██████████████████████████████▊                                                                   | 2247/7135 [2:03:01<4:42:13,  3.46s/it] 32%|██████████████████████████████▉                                                                   | 2248/7135 [2:03:04<4:31:50,  3.34s/it] 32%|██████████████████████████████▉                                                                   | 2249/7135 [2:03:08<4:39:54,  3.44s/it] 32%|██████████████████████████████▉                                                                   | 2250/7135 [2:03:11<4:38:24,  3.42s/it]                                                                                                                                               {'loss': 0.9052, 'grad_norm': 4.71875, 'learning_rate': 3.9344745086460765e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 432.99, 'epoch': 3.15}
 32%|██████████████████████████████▉                                                                   | 2250/7135 [2:03:11<4:38:24,  3.42s/it] 32%|██████████████████████████████▉                                                                   | 2251/7135 [2:03:14<4:27:21,  3.28s/it] 32%|██████████████████████████████▉                                                                   | 2252/7135 [2:03:17<4:15:33,  3.14s/it] 32%|██████████████████████████████▉                                                                   | 2253/7135 [2:03:20<4:25:01,  3.26s/it] 32%|██████████████████████████████▉                                                                   | 2254/7135 [2:03:23<4:18:42,  3.18s/it] 32%|██████████████████████████████▉                                                                   | 2255/7135 [2:03:27<4:26:15,  3.27s/it] 32%|██████████████████████████████▉                                                                   | 2256/7135 [2:03:31<4:32:28,  3.35s/it] 32%|███████████████████████████████                                                                   | 2257/7135 [2:03:34<4:42:44,  3.48s/it] 32%|███████████████████████████████                                                                   | 2258/7135 [2:03:37<4:26:53,  3.28s/it] 32%|███████████████████████████████                                                                   | 2259/7135 [2:03:40<4:15:37,  3.15s/it] 32%|███████████████████████████████                                                                   | 2260/7135 [2:03:43<4:03:19,  2.99s/it]                                                                                                                                               {'loss': 0.6605, 'grad_norm': 4.4375, 'learning_rate': 3.925316765471316e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 457.46, 'epoch': 3.17}
 32%|███████████████████████████████                                                                   | 2260/7135 [2:03:43<4:03:19,  2.99s/it] 32%|███████████████████████████████                                                                   | 2261/7135 [2:03:47<4:26:09,  3.28s/it] 32%|███████████████████████████████                                                                   | 2262/7135 [2:03:49<4:18:24,  3.18s/it] 32%|███████████████████████████████                                                                   | 2263/7135 [2:03:52<4:09:53,  3.08s/it] 32%|███████████████████████████████                                                                   | 2264/7135 [2:03:56<4:22:31,  3.23s/it] 32%|███████████████████████████████                                                                   | 2265/7135 [2:03:59<4:24:57,  3.26s/it] 32%|███████████████████████████████                                                                   | 2266/7135 [2:04:03<4:27:22,  3.29s/it] 32%|███████████████████████████████▏                                                                  | 2267/7135 [2:04:06<4:18:14,  3.18s/it] 32%|███████████████████████████████▏                                                                  | 2268/7135 [2:04:09<4:22:02,  3.23s/it] 32%|███████████████████████████████▏                                                                  | 2269/7135 [2:04:12<4:09:48,  3.08s/it] 32%|███████████████████████████████▏                                                                  | 2270/7135 [2:04:15<4:08:17,  3.06s/it]                                                                                                                                               {'loss': 0.688, 'grad_norm': 5.0625, 'learning_rate': 3.9161305984916415e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 377.99, 'epoch': 3.18}
 32%|███████████████████████████████▏                                                                  | 2270/7135 [2:04:15<4:08:17,  3.06s/it] 32%|███████████████████████████████▏                                                                  | 2271/7135 [2:04:18<4:17:48,  3.18s/it] 32%|███████████████████████████████▏                                                                  | 2272/7135 [2:04:21<4:22:34,  3.24s/it] 32%|███████████████████████████████▏                                                                  | 2273/7135 [2:04:24<4:11:48,  3.11s/it] 32%|███████████████████████████████▏                                                                  | 2274/7135 [2:04:28<4:17:59,  3.18s/it] 32%|███████████████████████████████▏                                                                  | 2275/7135 [2:04:31<4:13:59,  3.14s/it] 32%|███████████████████████████████▎                                                                  | 2276/7135 [2:04:34<4:14:46,  3.15s/it] 32%|███████████████████████████████▎                                                                  | 2277/7135 [2:04:37<4:18:40,  3.19s/it] 32%|███████████████████████████████▎                                                                  | 2278/7135 [2:04:40<4:16:38,  3.17s/it] 32%|███████████████████████████████▎                                                                  | 2279/7135 [2:04:43<4:08:58,  3.08s/it] 32%|███████████████████████████████▎                                                                  | 2280/7135 [2:04:46<4:04:13,  3.02s/it]                                                                                                                                               {'loss': 0.809, 'grad_norm': 4.09375, 'learning_rate': 3.906916190898484e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 428.59, 'epoch': 3.19}
 32%|███████████████████████████████▎                                                                  | 2280/7135 [2:04:46<4:04:13,  3.02s/it] 32%|███████████████████████████████▎                                                                  | 2281/7135 [2:04:49<4:00:23,  2.97s/it] 32%|███████████████████████████████▎                                                                  | 2282/7135 [2:04:52<4:02:54,  3.00s/it] 32%|███████████████████████████████▎                                                                  | 2283/7135 [2:04:55<4:11:15,  3.11s/it] 32%|███████████████████████████████▎                                                                  | 2284/7135 [2:04:58<4:05:15,  3.03s/it] 32%|███████████████████████████████▍                                                                  | 2285/7135 [2:05:01<4:00:38,  2.98s/it] 32%|███████████████████████████████▍                                                                  | 2286/7135 [2:05:04<4:04:31,  3.03s/it] 32%|███████████████████████████████▍                                                                  | 2287/7135 [2:05:07<4:09:05,  3.08s/it] 32%|███████████████████████████████▍                                                                  | 2288/7135 [2:05:10<4:06:20,  3.05s/it] 32%|███████████████████████████████▍                                                                  | 2289/7135 [2:05:14<4:16:04,  3.17s/it] 32%|███████████████████████████████▍                                                                  | 2290/7135 [2:05:18<4:34:56,  3.40s/it]                                                                                                                                               {'loss': 0.7009, 'grad_norm': 4.4375, 'learning_rate': 3.8976737264464505e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 281.53, 'epoch': 3.21}
 32%|███████████████████████████████▍                                                                  | 2290/7135 [2:05:18<4:34:56,  3.40s/it] 32%|███████████████████████████████▍                                                                  | 2291/7135 [2:05:21<4:35:41,  3.41s/it] 32%|███████████████████████████████▍                                                                  | 2292/7135 [2:05:24<4:30:49,  3.36s/it] 32%|███████████████████████████████▍                                                                  | 2293/7135 [2:05:28<4:31:21,  3.36s/it] 32%|███████████████████████████████▌                                                                  | 2294/7135 [2:05:31<4:33:11,  3.39s/it] 32%|███████████████████████████████▌                                                                  | 2295/7135 [2:05:35<4:34:25,  3.40s/it] 32%|███████████████████████████████▌                                                                  | 2296/7135 [2:05:38<4:29:30,  3.34s/it] 32%|███████████████████████████████▌                                                                  | 2297/7135 [2:05:41<4:34:25,  3.40s/it] 32%|███████████████████████████████▌                                                                  | 2298/7135 [2:05:45<4:29:34,  3.34s/it] 32%|███████████████████████████████▌                                                                  | 2299/7135 [2:05:48<4:23:46,  3.27s/it] 32%|███████████████████████████████▌                                                                  | 2300/7135 [2:05:52<4:37:51,  3.45s/it]                                                                                                                                               {'loss': 0.7401, 'grad_norm': 1.234375, 'learning_rate': 3.888403389449663e-06, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 394.84, 'epoch': 3.22}
 32%|███████████████████████████████▌                                                                  | 2300/7135 [2:05:52<4:37:51,  3.45s/it] 32%|███████████████████████████████▌                                                                  | 2301/7135 [2:05:54<4:22:48,  3.26s/it] 32%|███████████████████████████████▌                                                                  | 2302/7135 [2:05:58<4:33:16,  3.39s/it] 32%|███████████████████████████████▋                                                                  | 2303/7135 [2:06:02<4:55:00,  3.66s/it] 32%|███████████████████████████████▋                                                                  | 2304/7135 [2:06:06<4:45:03,  3.54s/it] 32%|███████████████████████████████▋                                                                  | 2305/7135 [2:06:09<4:46:57,  3.56s/it] 32%|███████████████████████████████▋                                                                  | 2306/7135 [2:06:12<4:35:30,  3.42s/it] 32%|███████████████████████████████▋                                                                  | 2307/7135 [2:06:16<4:37:31,  3.45s/it] 32%|███████████████████████████████▋                                                                  | 2308/7135 [2:06:19<4:22:31,  3.26s/it] 32%|███████████████████████████████▋                                                                  | 2309/7135 [2:06:22<4:22:01,  3.26s/it] 32%|███████████████████████████████▋                                                                  | 2310/7135 [2:06:26<4:32:10,  3.38s/it]                                                                                                                                               {'loss': 0.6869, 'grad_norm': 4.4375, 'learning_rate': 3.87910536477808e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 326.59, 'epoch': 3.24}
 32%|███████████████████████████████▋                                                                  | 2310/7135 [2:06:26<4:32:10,  3.38s/it] 32%|███████████████████████████████▋                                                                  | 2311/7135 [2:06:29<4:26:39,  3.32s/it] 32%|███████████████████████████████▊                                                                  | 2312/7135 [2:06:32<4:20:08,  3.24s/it] 32%|███████████████████████████████▊                                                                  | 2313/7135 [2:06:35<4:21:34,  3.25s/it] 32%|███████████████████████████████▊                                                                  | 2314/7135 [2:06:38<4:12:44,  3.15s/it] 32%|███████████████████████████████▊                                                                  | 2315/7135 [2:06:41<4:20:39,  3.24s/it] 32%|███████████████████████████████▊                                                                  | 2316/7135 [2:06:45<4:27:01,  3.32s/it] 32%|███████████████████████████████▊                                                                  | 2317/7135 [2:06:48<4:26:46,  3.32s/it] 32%|███████████████████████████████▊                                                                  | 2318/7135 [2:06:51<4:23:27,  3.28s/it] 33%|███████████████████████████████▊                                                                  | 2319/7135 [2:06:55<4:18:30,  3.22s/it] 33%|███████████████████████████████▊                                                                  | 2320/7135 [2:06:58<4:22:06,  3.27s/it]                                                                                                                                               {'loss': 0.6571, 'grad_norm': 6.15625, 'learning_rate': 3.869779837853808e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 372.8, 'epoch': 3.25}
 33%|███████████████████████████████▊                                                                  | 2320/7135 [2:06:58<4:22:06,  3.27s/it] 33%|███████████████████████████████▉                                                                  | 2321/7135 [2:07:01<4:08:07,  3.09s/it] 33%|███████████████████████████████▉                                                                  | 2322/7135 [2:07:04<4:08:19,  3.10s/it] 33%|███████████████████████████████▉                                                                  | 2323/7135 [2:07:07<4:12:52,  3.15s/it] 33%|███████████████████████████████▉                                                                  | 2324/7135 [2:07:10<4:05:04,  3.06s/it] 33%|███████████████████████████████▉                                                                  | 2325/7135 [2:07:13<4:14:07,  3.17s/it] 33%|███████████████████████████████▉                                                                  | 2326/7135 [2:07:16<4:10:29,  3.13s/it] 33%|███████████████████████████████▉                                                                  | 2327/7135 [2:07:19<4:10:36,  3.13s/it] 33%|███████████████████████████████▉                                                                  | 2328/7135 [2:07:23<4:12:57,  3.16s/it] 33%|███████████████████████████████▉                                                                  | 2329/7135 [2:07:26<4:17:04,  3.21s/it] 33%|████████████████████████████████                                                                  | 2330/7135 [2:07:29<4:09:47,  3.12s/it]                                                                                                                                               {'loss': 0.7976, 'grad_norm': 4.375, 'learning_rate': 3.860426994647408e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 426.25, 'epoch': 3.26}
 33%|████████████████████████████████                                                                  | 2330/7135 [2:07:29<4:09:47,  3.12s/it] 33%|████████████████████████████████                                                                  | 2331/7135 [2:07:32<4:07:23,  3.09s/it] 33%|████████████████████████████████                                                                  | 2332/7135 [2:07:35<4:04:06,  3.05s/it] 33%|████████████████████████████████                                                                  | 2333/7135 [2:07:38<4:10:09,  3.13s/it] 33%|████████████████████████████████                                                                  | 2334/7135 [2:07:42<4:21:14,  3.26s/it] 33%|████████████████████████████████                                                                  | 2335/7135 [2:07:45<4:21:22,  3.27s/it] 33%|████████████████████████████████                                                                  | 2336/7135 [2:07:48<4:18:47,  3.24s/it] 33%|████████████████████████████████                                                                  | 2337/7135 [2:07:52<4:36:33,  3.46s/it] 33%|████████████████████████████████                                                                  | 2338/7135 [2:07:55<4:16:41,  3.21s/it] 33%|████████████████████████████████▏                                                                 | 2339/7135 [2:07:59<4:28:32,  3.36s/it] 33%|████████████████████████████████▏                                                                 | 2340/7135 [2:08:02<4:41:39,  3.52s/it]                                                                                                                                               {'loss': 1.0336, 'grad_norm': 3.625, 'learning_rate': 3.851047021674186e-06, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 390.5, 'epoch': 3.28}
 33%|████████████████████████████████▏                                                                 | 2340/7135 [2:08:02<4:41:39,  3.52s/it] 33%|████████████████████████████████▏                                                                 | 2341/7135 [2:08:06<4:34:15,  3.43s/it] 33%|████████████████████████████████▏                                                                 | 2342/7135 [2:08:09<4:21:37,  3.28s/it] 33%|████████████████████████████████▏                                                                 | 2343/7135 [2:08:12<4:27:55,  3.35s/it] 33%|████████████████████████████████▏                                                                 | 2344/7135 [2:08:15<4:18:04,  3.23s/it] 33%|████████████████████████████████▏                                                                 | 2345/7135 [2:08:18<4:21:13,  3.27s/it] 33%|████████████████████████████████▏                                                                 | 2346/7135 [2:08:22<4:18:57,  3.24s/it] 33%|████████████████████████████████▏                                                                 | 2347/7135 [2:08:25<4:18:43,  3.24s/it] 33%|████████████████████████████████▎                                                                 | 2348/7135 [2:08:28<4:27:00,  3.35s/it] 33%|████████████████████████████████▎                                                                 | 2349/7135 [2:08:31<4:21:04,  3.27s/it] 33%|████████████████████████████████▎                                                                 | 2350/7135 [2:08:35<4:20:57,  3.27s/it]                                                                                                                                               {'loss': 0.7298, 'grad_norm': 5.1875, 'learning_rate': 3.8416401059904685e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 353.49, 'epoch': 3.29}
 33%|████████████████████████████████▎                                                                 | 2350/7135 [2:08:35<4:20:57,  3.27s/it] 33%|████████████████████████████████▎                                                                 | 2351/7135 [2:08:38<4:15:51,  3.21s/it] 33%|████████████████████████████████▎                                                                 | 2352/7135 [2:08:41<4:18:53,  3.25s/it] 33%|████████████████████████████████▎                                                                 | 2353/7135 [2:08:44<4:16:22,  3.22s/it] 33%|████████████████████████████████▎                                                                 | 2354/7135 [2:08:48<4:17:12,  3.23s/it] 33%|████████████████████████████████▎                                                                 | 2355/7135 [2:08:51<4:21:09,  3.28s/it] 33%|████████████████████████████████▎                                                                 | 2356/7135 [2:08:55<4:35:17,  3.46s/it] 33%|████████████████████████████████▎                                                                 | 2357/7135 [2:08:59<5:02:58,  3.80s/it] 33%|████████████████████████████████▍                                                                 | 2358/7135 [2:09:02<4:43:26,  3.56s/it] 33%|████████████████████████████████▍                                                                 | 2359/7135 [2:09:06<4:37:58,  3.49s/it] 33%|████████████████████████████████▍                                                                 | 2360/7135 [2:09:09<4:33:05,  3.43s/it]                                                                                                                                               {'loss': 0.8106, 'grad_norm': 3.171875, 'learning_rate': 3.832206435189881e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 424.65, 'epoch': 3.31}
 33%|████████████████████████████████▍                                                                 | 2360/7135 [2:09:09<4:33:05,  3.43s/it] 33%|████████████████████████████████▍                                                                 | 2361/7135 [2:09:12<4:30:46,  3.40s/it] 33%|████████████████████████████████▍                                                                 | 2362/7135 [2:09:16<4:35:30,  3.46s/it] 33%|████████████████████████████████▍                                                                 | 2363/7135 [2:09:19<4:18:50,  3.25s/it] 33%|████████████████████████████████▍                                                                 | 2364/7135 [2:09:22<4:15:40,  3.22s/it] 33%|████████████████████████████████▍                                                                 | 2365/7135 [2:09:25<4:12:35,  3.18s/it] 33%|████████████████████████████████▍                                                                 | 2366/7135 [2:09:29<4:22:36,  3.30s/it] 33%|████████████████████████████████▌                                                                 | 2367/7135 [2:09:32<4:29:30,  3.39s/it] 33%|████████████████████████████████▌                                                                 | 2368/7135 [2:09:35<4:18:11,  3.25s/it] 33%|████████████████████████████████▌                                                                 | 2369/7135 [2:09:38<4:20:39,  3.28s/it] 33%|████████████████████████████████▌                                                                 | 2370/7135 [2:09:42<4:20:37,  3.28s/it]                                                                                                                                               {'loss': 0.652, 'grad_norm': 5.9375, 'learning_rate': 3.822746197399599e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 412.21, 'epoch': 3.32}
 33%|████████████████████████████████▌                                                                 | 2370/7135 [2:09:42<4:20:37,  3.28s/it] 33%|████████████████████████████████▌                                                                 | 2371/7135 [2:09:45<4:18:08,  3.25s/it] 33%|████████████████████████████████▌                                                                 | 2372/7135 [2:09:48<4:19:56,  3.27s/it] 33%|████████████████████████████████▌                                                                 | 2373/7135 [2:09:51<4:11:17,  3.17s/it] 33%|████████████████████████████████▌                                                                 | 2374/7135 [2:09:55<4:20:33,  3.28s/it] 33%|████████████████████████████████▌                                                                 | 2375/7135 [2:09:58<4:10:56,  3.16s/it] 33%|████████████████████████████████▋                                                                 | 2376/7135 [2:10:01<4:26:35,  3.36s/it] 33%|████████████████████████████████▋                                                                 | 2377/7135 [2:10:05<4:21:43,  3.30s/it] 33%|████████████████████████████████▋                                                                 | 2378/7135 [2:10:07<4:11:37,  3.17s/it] 33%|████████████████████████████████▋                                                                 | 2379/7135 [2:10:11<4:11:14,  3.17s/it] 33%|████████████████████████████████▋                                                                 | 2380/7135 [2:10:15<4:29:41,  3.40s/it]                                                                                                                                               {'loss': 0.6596, 'grad_norm': 5.34375, 'learning_rate': 3.8132595812766005e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 335.54, 'epoch': 3.33}
 33%|████████████████████████████████▋                                                                 | 2380/7135 [2:10:15<4:29:41,  3.40s/it] 33%|████████████████████████████████▋                                                                 | 2381/7135 [2:10:17<4:12:49,  3.19s/it] 33%|████████████████████████████████▋                                                                 | 2382/7135 [2:10:20<4:10:25,  3.16s/it] 33%|████████████████████████████████▋                                                                 | 2383/7135 [2:10:23<4:05:37,  3.10s/it] 33%|████████████████████████████████▋                                                                 | 2384/7135 [2:10:26<4:01:03,  3.04s/it] 33%|████████████████████████████████▊                                                                 | 2385/7135 [2:10:29<4:06:21,  3.11s/it] 33%|████████████████████████████████▊                                                                 | 2386/7135 [2:10:33<4:16:18,  3.24s/it] 33%|████████████████████████████████▊                                                                 | 2387/7135 [2:10:37<4:24:36,  3.34s/it] 33%|████████████████████████████████▊                                                                 | 2388/7135 [2:10:40<4:13:49,  3.21s/it] 33%|████████████████████████████████▊                                                                 | 2389/7135 [2:10:43<4:14:47,  3.22s/it] 33%|████████████████████████████████▊                                                                 | 2390/7135 [2:10:46<4:12:41,  3.20s/it]                                                                                                                                               {'loss': 0.6443, 'grad_norm': 5.5, 'learning_rate': 3.8037467760039027e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 392.08, 'epoch': 3.35}
 33%|████████████████████████████████▊                                                                 | 2390/7135 [2:10:46<4:12:41,  3.20s/it] 34%|████████████████████████████████▊                                                                 | 2391/7135 [2:10:49<4:05:10,  3.10s/it] 34%|████████████████████████████████▊                                                                 | 2392/7135 [2:10:52<4:07:22,  3.13s/it] 34%|████████████████████████████████▊                                                                 | 2393/7135 [2:10:55<3:59:37,  3.03s/it] 34%|████████████████████████████████▉                                                                 | 2394/7135 [2:10:58<3:56:50,  3.00s/it] 34%|████████████████████████████████▉                                                                 | 2395/7135 [2:11:01<4:03:15,  3.08s/it] 34%|████████████████████████████████▉                                                                 | 2396/7135 [2:11:04<3:59:18,  3.03s/it] 34%|████████████████████████████████▉                                                                 | 2397/7135 [2:11:07<3:59:52,  3.04s/it] 34%|████████████████████████████████▉                                                                 | 2398/7135 [2:11:10<4:09:58,  3.17s/it] 34%|████████████████████████████████▉                                                                 | 2399/7135 [2:11:13<4:05:30,  3.11s/it] 34%|████████████████████████████████▉                                                                 | 2400/7135 [2:11:17<4:12:12,  3.20s/it]                                                                                                                                               {'loss': 0.7452, 'grad_norm': 5.0625, 'learning_rate': 3.794207971286788e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 373.81, 'epoch': 3.36}
 34%|████████████████████████████████▉                                                                 | 2400/7135 [2:11:17<4:12:12,  3.20s/it] 34%|████████████████████████████████▉                                                                 | 2401/7135 [2:11:20<4:08:26,  3.15s/it] 34%|████████████████████████████████▉                                                                 | 2402/7135 [2:11:23<4:07:24,  3.14s/it] 34%|█████████████████████████████████                                                                 | 2403/7135 [2:11:26<3:55:19,  2.98s/it] 34%|█████████████████████████████████                                                                 | 2404/7135 [2:11:28<3:54:12,  2.97s/it] 34%|█████████████████████████████████                                                                 | 2405/7135 [2:11:32<4:03:56,  3.09s/it] 34%|█████████████████████████████████                                                                 | 2406/7135 [2:11:35<4:09:50,  3.17s/it] 34%|█████████████████████████████████                                                                 | 2407/7135 [2:11:38<4:09:56,  3.17s/it] 34%|█████████████████████████████████                                                                 | 2408/7135 [2:11:42<4:16:04,  3.25s/it] 34%|█████████████████████████████████                                                                 | 2409/7135 [2:11:45<4:16:34,  3.26s/it] 34%|█████████████████████████████████                                                                 | 2410/7135 [2:11:48<4:09:52,  3.17s/it]                                                                                                                                               {'loss': 0.7258, 'grad_norm': 4.40625, 'learning_rate': 3.7846433573490248e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 358.79, 'epoch': 3.38}
 34%|█████████████████████████████████                                                                 | 2410/7135 [2:11:48<4:09:52,  3.17s/it] 34%|█████████████████████████████████                                                                 | 2411/7135 [2:11:51<4:06:14,  3.13s/it] 34%|█████████████████████████████████▏                                                                | 2412/7135 [2:11:54<4:01:02,  3.06s/it] 34%|█████████████████████████████████▏                                                                | 2413/7135 [2:11:57<4:05:40,  3.12s/it] 34%|█████████████████████████████████▏                                                                | 2414/7135 [2:12:00<4:06:50,  3.14s/it] 34%|█████████████████████████████████▏                                                                | 2415/7135 [2:12:03<3:58:10,  3.03s/it] 34%|█████████████████████████████████▏                                                                | 2416/7135 [2:12:06<3:55:03,  2.99s/it] 34%|█████████████████████████████████▏                                                                | 2417/7135 [2:12:10<4:08:07,  3.16s/it] 34%|█████████████████████████████████▏                                                                | 2418/7135 [2:12:12<3:57:28,  3.02s/it] 34%|█████████████████████████████████▏                                                                | 2419/7135 [2:12:16<4:08:47,  3.17s/it] 34%|█████████████████████████████████▏                                                                | 2420/7135 [2:12:19<3:59:25,  3.05s/it]                                                                                                                                               {'loss': 0.7331, 'grad_norm': 5.28125, 'learning_rate': 3.7750531249290696e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 434.98, 'epoch': 3.39}
 34%|█████████████████████████████████▏                                                                | 2420/7135 [2:12:19<3:59:25,  3.05s/it] 34%|█████████████████████████████████▎                                                                | 2421/7135 [2:12:22<3:58:30,  3.04s/it] 34%|█████████████████████████████████▎                                                                | 2422/7135 [2:12:24<3:45:26,  2.87s/it] 34%|█████████████████████████████████▎                                                                | 2423/7135 [2:12:27<3:48:01,  2.90s/it] 34%|█████████████████████████████████▎                                                                | 2424/7135 [2:12:30<3:53:52,  2.98s/it] 34%|█████████████████████████████████▎                                                                | 2425/7135 [2:12:33<3:56:10,  3.01s/it] 34%|█████████████████████████████████▎                                                                | 2426/7135 [2:12:36<3:59:17,  3.05s/it] 34%|█████████████████████████████████▎                                                                | 2427/7135 [2:12:40<4:09:08,  3.18s/it] 34%|█████████████████████████████████▎                                                                | 2428/7135 [2:12:43<3:57:18,  3.02s/it] 34%|█████████████████████████████████▎                                                                | 2429/7135 [2:12:47<4:27:26,  3.41s/it] 34%|█████████████████████████████████▍                                                                | 2430/7135 [2:12:51<4:40:45,  3.58s/it]                                                                                                                                               {'loss': 0.746, 'grad_norm': 5.75, 'learning_rate': 3.7654374652762664e-06, 'memory/max_active (GiB)': 42.47, 'memory/max_allocated (GiB)': 42.47, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 279.17, 'epoch': 3.4}
 34%|█████████████████████████████████▍                                                                | 2430/7135 [2:12:51<4:40:45,  3.58s/it] 34%|█████████████████████████████████▍                                                                | 2431/7135 [2:12:54<4:30:54,  3.46s/it] 34%|█████████████████████████████████▍                                                                | 2432/7135 [2:12:57<4:14:06,  3.24s/it] 34%|█████████████████████████████████▍                                                                | 2433/7135 [2:13:00<4:17:33,  3.29s/it] 34%|█████████████████████████████████▍                                                                | 2434/7135 [2:13:03<4:10:18,  3.19s/it] 34%|█████████████████████████████████▍                                                                | 2435/7135 [2:13:06<4:01:41,  3.09s/it] 34%|█████████████████████████████████▍                                                                | 2436/7135 [2:13:09<3:56:02,  3.01s/it] 34%|█████████████████████████████████▍                                                                | 2437/7135 [2:13:12<3:55:05,  3.00s/it] 34%|█████████████████████████████████▍                                                                | 2438/7135 [2:13:15<3:54:43,  3.00s/it] 34%|█████████████████████████████████▍                                                                | 2439/7135 [2:13:18<3:53:06,  2.98s/it] 34%|█████████████████████████████████▌                                                                | 2440/7135 [2:13:21<3:58:56,  3.05s/it]                                                                                                                                               {'loss': 0.7724, 'grad_norm': 3.78125, 'learning_rate': 3.75579657014703e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 348.09, 'epoch': 3.42}
 34%|█████████████████████████████████▌                                                                | 2440/7135 [2:13:21<3:58:56,  3.05s/it] 34%|█████████████████████████████████▌                                                                | 2441/7135 [2:13:24<4:00:38,  3.08s/it] 34%|█████████████████████████████████▌                                                                | 2442/7135 [2:13:27<4:03:40,  3.12s/it] 34%|█████████████████████████████████▌                                                                | 2443/7135 [2:13:31<4:15:09,  3.26s/it] 34%|█████████████████████████████████▌                                                                | 2444/7135 [2:13:34<4:13:31,  3.24s/it] 34%|█████████████████████████████████▌                                                                | 2445/7135 [2:13:37<4:14:56,  3.26s/it] 34%|█████████████████████████████████▌                                                                | 2446/7135 [2:13:40<4:07:05,  3.16s/it] 34%|█████████████████████████████████▌                                                                | 2447/7135 [2:13:43<4:04:51,  3.13s/it] 34%|█████████████████████████████████▌                                                                | 2448/7135 [2:13:47<4:05:16,  3.14s/it] 34%|█████████████████████████████████▋                                                                | 2449/7135 [2:13:50<4:04:28,  3.13s/it] 34%|█████████████████████████████████▋                                                                | 2450/7135 [2:13:53<3:59:21,  3.07s/it]                                                                                                                                               {'loss': 0.6751, 'grad_norm': 5.25, 'learning_rate': 3.746130631801025e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 404.23, 'epoch': 3.43}
 34%|█████████████████████████████████▋                                                                | 2450/7135 [2:13:53<3:59:21,  3.07s/it] 34%|█████████████████████████████████▋                                                                | 2451/7135 [2:13:56<3:56:14,  3.03s/it] 34%|█████████████████████████████████▋                                                                | 2452/7135 [2:13:59<4:04:28,  3.13s/it] 34%|█████████████████████████████████▋                                                                | 2453/7135 [2:14:02<3:58:55,  3.06s/it] 34%|█████████████████████████████████▋                                                                | 2454/7135 [2:14:05<3:55:01,  3.01s/it] 34%|█████████████████████████████████▋                                                                | 2455/7135 [2:14:08<4:06:28,  3.16s/it] 34%|█████████████████████████████████▋                                                                | 2456/7135 [2:14:11<4:00:56,  3.09s/it] 34%|█████████████████████████████████▋                                                                | 2457/7135 [2:14:14<3:59:57,  3.08s/it] 34%|█████████████████████████████████▊                                                                | 2458/7135 [2:14:17<3:59:22,  3.07s/it] 34%|█████████████████████████████████▊                                                                | 2459/7135 [2:14:20<3:54:02,  3.00s/it] 34%|█████████████████████████████████▊                                                                | 2460/7135 [2:14:23<4:03:03,  3.12s/it]                                                                                                                                               {'loss': 0.6748, 'grad_norm': 5.25, 'learning_rate': 3.736439842997329e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 356.25, 'epoch': 3.45}
 34%|█████████████████████████████████▊                                                                | 2460/7135 [2:14:24<4:03:03,  3.12s/it] 34%|█████████████████████████████████▊                                                                | 2461/7135 [2:14:27<4:01:28,  3.10s/it] 35%|█████████████████████████████████▊                                                                | 2462/7135 [2:14:30<4:01:26,  3.10s/it] 35%|█████████████████████████████████▊                                                                | 2463/7135 [2:14:34<4:20:11,  3.34s/it] 35%|█████████████████████████████████▊                                                                | 2464/7135 [2:14:37<4:11:03,  3.22s/it] 35%|█████████████████████████████████▊                                                                | 2465/7135 [2:14:40<4:12:47,  3.25s/it] 35%|█████████████████████████████████▊                                                                | 2466/7135 [2:14:43<4:05:15,  3.15s/it] 35%|█████████████████████████████████▉                                                                | 2467/7135 [2:14:46<3:57:55,  3.06s/it] 35%|█████████████████████████████████▉                                                                | 2468/7135 [2:14:49<4:07:05,  3.18s/it] 35%|█████████████████████████████████▉                                                                | 2469/7135 [2:14:53<4:15:58,  3.29s/it] 35%|█████████████████████████████████▉                                                                | 2470/7135 [2:14:56<4:20:53,  3.36s/it]                                                                                                                                               {'loss': 0.7504, 'grad_norm': 4.8125, 'learning_rate': 3.726724396990591e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 326.82, 'epoch': 3.46}
 35%|█████████████████████████████████▉                                                                | 2470/7135 [2:14:56<4:20:53,  3.36s/it] 35%|█████████████████████████████████▉                                                                | 2471/7135 [2:14:59<4:11:26,  3.23s/it] 35%|█████████████████████████████████▉                                                                | 2472/7135 [2:15:03<4:19:30,  3.34s/it] 35%|█████████████████████████████████▉                                                                | 2473/7135 [2:15:06<4:18:41,  3.33s/it] 35%|█████████████████████████████████▉                                                                | 2474/7135 [2:15:09<4:10:02,  3.22s/it] 35%|█████████████████████████████████▉                                                                | 2475/7135 [2:15:12<4:06:58,  3.18s/it] 35%|██████████████████████████████████                                                                | 2476/7135 [2:15:15<4:05:59,  3.17s/it] 35%|██████████████████████████████████                                                                | 2477/7135 [2:15:18<3:58:31,  3.07s/it] 35%|██████████████████████████████████                                                                | 2478/7135 [2:15:21<3:52:29,  3.00s/it] 35%|██████████████████████████████████                                                                | 2479/7135 [2:15:23<3:44:09,  2.89s/it] 35%|██████████████████████████████████                                                                | 2480/7135 [2:15:27<3:55:12,  3.03s/it]                                                                                                                                               {'loss': 0.8318, 'grad_norm': 5.28125, 'learning_rate': 3.716984487527174e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 349.18, 'epoch': 3.47}
 35%|██████████████████████████████████                                                                | 2480/7135 [2:15:27<3:55:12,  3.03s/it] 35%|██████████████████████████████████                                                                | 2481/7135 [2:15:31<4:26:30,  3.44s/it] 35%|██████████████████████████████████                                                                | 2482/7135 [2:15:35<4:32:09,  3.51s/it] 35%|██████████████████████████████████                                                                | 2483/7135 [2:15:38<4:15:56,  3.30s/it] 35%|██████████████████████████████████                                                                | 2484/7135 [2:15:41<4:17:48,  3.33s/it] 35%|██████████████████████████████████▏                                                               | 2485/7135 [2:15:45<4:21:12,  3.37s/it] 35%|██████████████████████████████████▏                                                               | 2486/7135 [2:15:47<4:11:21,  3.24s/it] 35%|██████████████████████████████████▏                                                               | 2487/7135 [2:15:51<4:11:46,  3.25s/it] 35%|██████████████████████████████████▏                                                               | 2488/7135 [2:15:54<4:16:08,  3.31s/it] 35%|██████████████████████████████████▏                                                               | 2489/7135 [2:15:57<4:14:54,  3.29s/it] 35%|██████████████████████████████████▏                                                               | 2490/7135 [2:16:00<4:05:07,  3.17s/it]                                                                                                                                               {'loss': 0.7672, 'grad_norm': 4.9375, 'learning_rate': 3.7072203088412988e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 389.93, 'epoch': 3.49}
 35%|██████████████████████████████████▏                                                               | 2490/7135 [2:16:00<4:05:07,  3.17s/it] 35%|██████████████████████████████████▏                                                               | 2491/7135 [2:16:04<4:09:28,  3.22s/it] 35%|██████████████████████████████████▏                                                               | 2492/7135 [2:16:07<4:16:29,  3.31s/it] 35%|██████████████████████████████████▏                                                               | 2493/7135 [2:16:10<4:01:18,  3.12s/it] 35%|██████████████████████████████████▎                                                               | 2494/7135 [2:16:13<4:05:28,  3.17s/it] 35%|██████████████████████████████████▎                                                               | 2495/7135 [2:16:16<3:59:37,  3.10s/it] 35%|██████████████████████████████████▎                                                               | 2496/7135 [2:16:19<3:59:19,  3.10s/it] 35%|██████████████████████████████████▎                                                               | 2497/7135 [2:16:22<4:04:37,  3.16s/it] 35%|██████████████████████████████████▎                                                               | 2498/7135 [2:16:26<4:08:22,  3.21s/it] 35%|██████████████████████████████████▎                                                               | 2499/7135 [2:16:29<3:57:46,  3.08s/it] 35%|██████████████████████████████████▎                                                               | 2500/7135 [2:16:32<3:59:02,  3.09s/it]                                                                                                                                               {'loss': 0.7897, 'grad_norm': 4.75, 'learning_rate': 3.6974320556511594e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 398.02, 'epoch': 3.5}
 35%|██████████████████████████████████▎                                                               | 2500/7135 [2:16:32<3:59:02,  3.09s/it] 35%|██████████████████████████████████▎                                                               | 2501/7135 [2:16:35<4:02:38,  3.14s/it] 35%|██████████████████████████████████▎                                                               | 2502/7135 [2:16:38<4:07:28,  3.20s/it] 35%|██████████████████████████████████▍                                                               | 2503/7135 [2:16:42<4:16:14,  3.32s/it] 35%|██████████████████████████████████▍                                                               | 2504/7135 [2:16:46<4:29:03,  3.49s/it] 35%|██████████████████████████████████▍                                                               | 2505/7135 [2:16:49<4:16:13,  3.32s/it] 35%|██████████████████████████████████▍                                                               | 2506/7135 [2:16:52<4:06:36,  3.20s/it] 35%|██████████████████████████████████▍                                                               | 2507/7135 [2:16:55<4:06:14,  3.19s/it] 35%|██████████████████████████████████▍                                                               | 2508/7135 [2:16:58<4:00:07,  3.11s/it] 35%|██████████████████████████████████▍                                                               | 2509/7135 [2:17:02<4:21:49,  3.40s/it] 35%|██████████████████████████████████▍                                                               | 2510/7135 [2:17:05<4:15:49,  3.32s/it]                                                                                                                                               {'loss': 0.689, 'grad_norm': 3.625, 'learning_rate': 3.6876199231550486e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 352.86, 'epoch': 3.52}
 35%|██████████████████████████████████▍                                                               | 2510/7135 [2:17:05<4:15:49,  3.32s/it] 35%|██████████████████████████████████▍                                                               | 2511/7135 [2:17:08<4:14:49,  3.31s/it] 35%|██████████████████████████████████▌                                                               | 2512/7135 [2:17:11<4:13:34,  3.29s/it] 35%|██████████████████████████████████▌                                                               | 2513/7135 [2:17:15<4:18:03,  3.35s/it] 35%|██████████████████████████████████▌                                                               | 2514/7135 [2:17:18<4:16:51,  3.34s/it] 35%|██████████████████████████████████▌                                                               | 2515/7135 [2:17:21<4:03:36,  3.16s/it] 35%|██████████████████████████████████▌                                                               | 2516/7135 [2:17:25<4:13:42,  3.30s/it] 35%|██████████████████████████████████▌                                                               | 2517/7135 [2:17:28<4:06:17,  3.20s/it] 35%|██████████████████████████████████▌                                                               | 2518/7135 [2:17:31<4:02:03,  3.15s/it] 35%|██████████████████████████████████▌                                                               | 2519/7135 [2:17:34<4:06:32,  3.20s/it] 35%|██████████████████████████████████▌                                                               | 2520/7135 [2:17:37<3:52:17,  3.02s/it]                                                                                                                                               {'loss': 0.7005, 'grad_norm': 5.78125, 'learning_rate': 3.677784107027464e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 474.52, 'epoch': 3.53}
 35%|██████████████████████████████████▌                                                               | 2520/7135 [2:17:37<3:52:17,  3.02s/it] 35%|██████████████████████████████████▋                                                               | 2521/7135 [2:17:40<3:59:21,  3.11s/it] 35%|██████████████████████████████████▋                                                               | 2522/7135 [2:17:44<4:19:33,  3.38s/it] 35%|██████████████████████████████████▋                                                               | 2523/7135 [2:17:47<4:08:35,  3.23s/it] 35%|██████████████████████████████████▋                                                               | 2524/7135 [2:17:50<4:05:19,  3.19s/it] 35%|██████████████████████████████████▋                                                               | 2525/7135 [2:17:53<4:05:10,  3.19s/it] 35%|██████████████████████████████████▋                                                               | 2526/7135 [2:17:56<4:02:46,  3.16s/it] 35%|██████████████████████████████████▋                                                               | 2527/7135 [2:17:59<3:55:21,  3.06s/it] 35%|██████████████████████████████████▋                                                               | 2528/7135 [2:18:02<3:50:37,  3.00s/it] 35%|██████████████████████████████████▋                                                               | 2529/7135 [2:18:05<3:49:03,  2.98s/it] 35%|██████████████████████████████████▋                                                               | 2530/7135 [2:18:08<3:50:20,  3.00s/it]                                                                                                                                               {'loss': 0.6681, 'grad_norm': 4.75, 'learning_rate': 3.667924803415201e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 430.8, 'epoch': 3.54}
 35%|██████████████████████████████████▋                                                               | 2530/7135 [2:18:08<3:50:20,  3.00s/it] 35%|██████████████████████████████████▊                                                               | 2531/7135 [2:18:11<4:01:45,  3.15s/it] 35%|██████████████████████████████████▊                                                               | 2532/7135 [2:18:14<3:58:14,  3.11s/it] 36%|██████████████████████████████████▊                                                               | 2533/7135 [2:18:17<3:54:20,  3.06s/it] 36%|██████████████████████████████████▊                                                               | 2534/7135 [2:18:20<3:55:13,  3.07s/it] 36%|██████████████████████████████████▊                                                               | 2535/7135 [2:18:24<4:02:26,  3.16s/it] 36%|██████████████████████████████████▊                                                               | 2536/7135 [2:18:27<4:07:32,  3.23s/it] 36%|██████████████████████████████████▊                                                               | 2537/7135 [2:18:31<4:22:09,  3.42s/it] 36%|██████████████████████████████████▊                                                               | 2538/7135 [2:18:34<4:22:06,  3.42s/it] 36%|██████████████████████████████████▊                                                               | 2539/7135 [2:18:38<4:16:36,  3.35s/it] 36%|██████████████████████████████████▉                                                               | 2540/7135 [2:18:40<4:06:01,  3.21s/it]                                                                                                                                               {'loss': 1.1154, 'grad_norm': 5.8125, 'learning_rate': 3.658042208933448e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 553.21, 'epoch': 3.56}
 36%|██████████████████████████████████▉                                                               | 2540/7135 [2:18:41<4:06:01,  3.21s/it] 36%|██████████████████████████████████▉                                                               | 2541/7135 [2:18:44<4:06:40,  3.22s/it] 36%|██████████████████████████████████▉                                                               | 2542/7135 [2:18:47<4:00:47,  3.15s/it] 36%|██████████████████████████████████▉                                                               | 2543/7135 [2:18:50<3:57:37,  3.10s/it] 36%|██████████████████████████████████▉                                                               | 2544/7135 [2:18:53<3:55:39,  3.08s/it] 36%|██████████████████████████████████▉                                                               | 2545/7135 [2:18:56<4:09:05,  3.26s/it] 36%|██████████████████████████████████▉                                                               | 2546/7135 [2:19:01<4:32:28,  3.56s/it] 36%|██████████████████████████████████▉                                                               | 2547/7135 [2:19:04<4:26:58,  3.49s/it] 36%|██████████████████████████████████▉                                                               | 2548/7135 [2:19:07<4:17:56,  3.37s/it] 36%|███████████████████████████████████                                                               | 2549/7135 [2:19:11<4:20:30,  3.41s/it] 36%|███████████████████████████████████                                                               | 2550/7135 [2:19:13<4:08:19,  3.25s/it]                                                                                                                                               {'loss': 0.7898, 'grad_norm': 4.5, 'learning_rate': 3.6481365206618603e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 422.77, 'epoch': 3.57}
 36%|███████████████████████████████████                                                               | 2550/7135 [2:19:14<4:08:19,  3.25s/it] 36%|███████████████████████████████████                                                               | 2551/7135 [2:19:16<3:57:20,  3.11s/it] 36%|███████████████████████████████████                                                               | 2552/7135 [2:19:19<3:50:43,  3.02s/it] 36%|███████████████████████████████████                                                               | 2553/7135 [2:19:22<3:58:52,  3.13s/it] 36%|███████████████████████████████████                                                               | 2554/7135 [2:19:26<3:59:31,  3.14s/it] 36%|███████████████████████████████████                                                               | 2555/7135 [2:19:28<3:49:09,  3.00s/it] 36%|███████████████████████████████████                                                               | 2556/7135 [2:19:32<3:55:35,  3.09s/it] 36%|███████████████████████████████████                                                               | 2557/7135 [2:19:35<3:53:44,  3.06s/it] 36%|███████████████████████████████████▏                                                              | 2558/7135 [2:19:38<3:54:22,  3.07s/it] 36%|███████████████████████████████████▏                                                              | 2559/7135 [2:19:41<4:00:59,  3.16s/it] 36%|███████████████████████████████████▏                                                              | 2560/7135 [2:19:44<3:56:24,  3.10s/it]                                                                                                                                               {'loss': 0.6766, 'grad_norm': 3.359375, 'learning_rate': 3.6382079361406326e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 377.54, 'epoch': 3.59}
 36%|███████████████████████████████████▏                                                              | 2560/7135 [2:19:44<3:56:24,  3.10s/it] 36%|███████████████████████████████████▏                                                              | 2561/7135 [2:19:47<4:00:26,  3.15s/it] 36%|███████████████████████████████████▏                                                              | 2562/7135 [2:19:51<4:02:57,  3.19s/it] 36%|███████████████████████████████████▏                                                              | 2563/7135 [2:19:54<4:11:02,  3.29s/it] 36%|███████████████████████████████████▏                                                              | 2564/7135 [2:19:57<4:11:28,  3.30s/it] 36%|███████████████████████████████████▏                                                              | 2565/7135 [2:20:01<4:08:26,  3.26s/it] 36%|███████████████████████████████████▏                                                              | 2566/7135 [2:20:04<4:03:58,  3.20s/it] 36%|███████████████████████████████████▎                                                              | 2567/7135 [2:20:07<4:02:09,  3.18s/it] 36%|███████████████████████████████████▎                                                              | 2568/7135 [2:20:10<3:59:30,  3.15s/it] 36%|███████████████████████████████████▎                                                              | 2569/7135 [2:20:14<4:14:22,  3.34s/it] 36%|███████████████████████████████████▎                                                              | 2570/7135 [2:20:17<4:18:08,  3.39s/it]                                                                                                                                               {'loss': 0.8287, 'grad_norm': 3.875, 'learning_rate': 3.628256653366558e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 430.98, 'epoch': 3.6}
 36%|███████████████████████████████████▎                                                              | 2570/7135 [2:20:17<4:18:08,  3.39s/it] 36%|███████████████████████████████████▎                                                              | 2571/7135 [2:20:20<4:06:53,  3.25s/it] 36%|███████████████████████████████████▎                                                              | 2572/7135 [2:20:23<4:05:41,  3.23s/it] 36%|███████████████████████████████████▎                                                              | 2573/7135 [2:20:27<4:06:30,  3.24s/it] 36%|███████████████████████████████████▎                                                              | 2574/7135 [2:20:30<4:06:33,  3.24s/it] 36%|███████████████████████████████████▎                                                              | 2575/7135 [2:20:33<4:06:18,  3.24s/it] 36%|███████████████████████████████████▍                                                              | 2576/7135 [2:20:37<4:29:09,  3.54s/it] 36%|███████████████████████████████████▍                                                              | 2577/7135 [2:20:41<4:24:34,  3.48s/it] 36%|███████████████████████████████████▍                                                              | 2578/7135 [2:20:44<4:20:05,  3.42s/it] 36%|███████████████████████████████████▍                                                              | 2579/7135 [2:20:47<4:14:37,  3.35s/it] 36%|███████████████████████████████████▍                                                              | 2580/7135 [2:20:50<4:00:00,  3.16s/it]                                                                                                                                               {'loss': 0.6857, 'grad_norm': 6.34375, 'learning_rate': 3.6182828707890816e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 525.87, 'epoch': 3.61}
 36%|███████████████████████████████████▍                                                              | 2580/7135 [2:20:50<4:00:00,  3.16s/it] 36%|███████████████████████████████████▍                                                              | 2581/7135 [2:20:53<4:02:39,  3.20s/it] 36%|███████████████████████████████████▍                                                              | 2582/7135 [2:20:56<4:04:31,  3.22s/it] 36%|███████████████████████████████████▍                                                              | 2583/7135 [2:21:00<4:06:11,  3.25s/it] 36%|███████████████████████████████████▍                                                              | 2584/7135 [2:21:03<3:59:29,  3.16s/it] 36%|███████████████████████████████████▌                                                              | 2585/7135 [2:21:07<4:16:54,  3.39s/it] 36%|███████████████████████████████████▌                                                              | 2586/7135 [2:21:10<4:22:11,  3.46s/it] 36%|███████████████████████████████████▌                                                              | 2587/7135 [2:21:13<4:07:33,  3.27s/it] 36%|███████████████████████████████████▌                                                              | 2588/7135 [2:21:16<4:05:52,  3.24s/it] 36%|███████████████████████████████████▌                                                              | 2589/7135 [2:21:19<4:08:11,  3.28s/it] 36%|███████████████████████████████████▌                                                              | 2590/7135 [2:21:22<4:00:44,  3.18s/it]                                                                                                                                               {'loss': 0.6252, 'grad_norm': 6.5, 'learning_rate': 3.6082867873063416e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 461.75, 'epoch': 3.63}
 36%|███████████████████████████████████▌                                                              | 2590/7135 [2:21:22<4:00:44,  3.18s/it] 36%|███████████████████████████████████▌                                                              | 2591/7135 [2:21:25<3:54:05,  3.09s/it] 36%|███████████████████████████████████▌                                                              | 2592/7135 [2:21:29<4:05:48,  3.25s/it] 36%|███████████████████████████████████▌                                                              | 2593/7135 [2:21:32<4:03:57,  3.22s/it] 36%|███████████████████████████████████▋                                                              | 2594/7135 [2:21:36<4:13:29,  3.35s/it] 36%|███████████████████████████████████▋                                                              | 2595/7135 [2:21:39<4:11:20,  3.32s/it] 36%|███████████████████████████████████▋                                                              | 2596/7135 [2:21:42<4:14:57,  3.37s/it] 36%|███████████████████████████████████▋                                                              | 2597/7135 [2:21:45<4:03:44,  3.22s/it] 36%|███████████████████████████████████▋                                                              | 2598/7135 [2:21:48<4:01:08,  3.19s/it] 36%|███████████████████████████████████▋                                                              | 2599/7135 [2:21:52<4:05:15,  3.24s/it] 36%|███████████████████████████████████▋                                                              | 2600/7135 [2:21:55<3:55:57,  3.12s/it]                                                                                                                                               {'loss': 0.8556, 'grad_norm': 6.09375, 'learning_rate': 3.5982686022612006e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 416.18, 'epoch': 3.64}
 36%|███████████████████████████████████▋                                                              | 2600/7135 [2:21:55<3:55:57,  3.12s/it] 36%|███████████████████████████████████▋                                                              | 2601/7135 [2:21:58<4:06:40,  3.26s/it] 36%|███████████████████████████████████▋                                                              | 2602/7135 [2:22:02<4:18:57,  3.43s/it] 36%|███████████████████████████████████▊                                                              | 2603/7135 [2:22:05<4:02:40,  3.21s/it] 36%|███████████████████████████████████▊                                                              | 2604/7135 [2:22:08<3:55:54,  3.12s/it] 37%|███████████████████████████████████▊                                                              | 2605/7135 [2:22:11<3:50:20,  3.05s/it] 37%|███████████████████████████████████▊                                                              | 2606/7135 [2:22:14<3:48:28,  3.03s/it] 37%|███████████████████████████████████▊                                                              | 2607/7135 [2:22:17<3:48:52,  3.03s/it] 37%|███████████████████████████████████▊                                                              | 2608/7135 [2:22:20<3:48:39,  3.03s/it] 37%|███████████████████████████████████▊                                                              | 2609/7135 [2:22:23<3:51:32,  3.07s/it] 37%|███████████████████████████████████▊                                                              | 2610/7135 [2:22:26<3:44:51,  2.98s/it]                                                                                                                                               {'loss': 1.0843, 'grad_norm': 5.09375, 'learning_rate': 3.5882285154372765e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 501.65, 'epoch': 3.66}
 37%|███████████████████████████████████▊                                                              | 2610/7135 [2:22:26<3:44:51,  2.98s/it] 37%|███████████████████████████████████▊                                                              | 2611/7135 [2:22:29<3:51:32,  3.07s/it] 37%|███████████████████████████████████▉                                                              | 2612/7135 [2:22:32<3:55:58,  3.13s/it] 37%|███████████████████████████████████▉                                                              | 2613/7135 [2:22:36<4:04:15,  3.24s/it] 37%|███████████████████████████████████▉                                                              | 2614/7135 [2:22:39<4:00:32,  3.19s/it] 37%|███████████████████████████████████▉                                                              | 2615/7135 [2:22:42<3:57:09,  3.15s/it] 37%|███████████████████████████████████▉                                                              | 2616/7135 [2:22:44<3:45:28,  2.99s/it] 37%|███████████████████████████████████▉                                                              | 2617/7135 [2:22:48<3:51:51,  3.08s/it] 37%|███████████████████████████████████▉                                                              | 2618/7135 [2:22:52<4:10:33,  3.33s/it] 37%|███████████████████████████████████▉                                                              | 2619/7135 [2:22:54<4:00:50,  3.20s/it] 37%|███████████████████████████████████▉                                                              | 2620/7135 [2:22:58<4:15:36,  3.40s/it]                                                                                                                                               {'loss': 0.7563, 'grad_norm': 4.5, 'learning_rate': 3.578166727054952e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 364.24, 'epoch': 3.67}
 37%|███████████████████████████████████▉                                                              | 2620/7135 [2:22:58<4:15:36,  3.40s/it] 37%|███████████████████████████████████▉                                                              | 2621/7135 [2:23:02<4:20:01,  3.46s/it] 37%|████████████████████████████████████                                                              | 2622/7135 [2:23:05<4:14:48,  3.39s/it] 37%|████████████████████████████████████                                                              | 2623/7135 [2:23:09<4:14:16,  3.38s/it] 37%|████████████████████████████████████                                                              | 2624/7135 [2:23:11<4:04:01,  3.25s/it] 37%|████████████████████████████████████                                                              | 2625/7135 [2:23:14<3:50:34,  3.07s/it] 37%|████████████████████████████████████                                                              | 2626/7135 [2:23:18<4:02:04,  3.22s/it] 37%|████████████████████████████████████                                                              | 2627/7135 [2:23:20<3:52:43,  3.10s/it] 37%|████████████████████████████████████                                                              | 2628/7135 [2:23:24<3:52:00,  3.09s/it] 37%|████████████████████████████████████                                                              | 2629/7135 [2:23:27<3:52:55,  3.10s/it] 37%|████████████████████████████████████                                                              | 2630/7135 [2:23:30<3:51:26,  3.08s/it]                                                                                                                                               {'loss': 0.7402, 'grad_norm': 5.8125, 'learning_rate': 3.5680834377673845e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 376.75, 'epoch': 3.68}
 37%|████████████████████████████████████                                                              | 2630/7135 [2:23:30<3:51:26,  3.08s/it] 37%|████████████████████████████████████▏                                                             | 2631/7135 [2:23:33<3:55:40,  3.14s/it] 37%|████████████████████████████████████▏                                                             | 2632/7135 [2:23:37<4:05:47,  3.27s/it] 37%|████████████████████████████████████▏                                                             | 2633/7135 [2:23:40<4:03:53,  3.25s/it] 37%|████████████████████████████████████▏                                                             | 2634/7135 [2:23:43<3:54:15,  3.12s/it] 37%|████████████████████████████████████▏                                                             | 2635/7135 [2:23:45<3:47:08,  3.03s/it] 37%|████████████████████████████████████▏                                                             | 2636/7135 [2:23:49<3:50:19,  3.07s/it] 37%|████████████████████████████████████▏                                                             | 2637/7135 [2:23:52<3:53:18,  3.11s/it] 37%|████████████████████████████████████▏                                                             | 2638/7135 [2:23:55<3:49:38,  3.06s/it] 37%|████████████████████████████████████▏                                                             | 2639/7135 [2:23:58<3:50:11,  3.07s/it] 37%|████████████████████████████████████▎                                                             | 2640/7135 [2:24:01<3:54:12,  3.13s/it]                                                                                                                                               {'loss': 0.7214, 'grad_norm': 4.375, 'learning_rate': 3.5579788486565047e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 353.18, 'epoch': 3.7}
 37%|████████████████████████████████████▎                                                             | 2640/7135 [2:24:01<3:54:12,  3.13s/it] 37%|████████████████████████████████████▎                                                             | 2641/7135 [2:24:04<3:58:57,  3.19s/it] 37%|████████████████████████████████████▎                                                             | 2642/7135 [2:24:08<4:14:03,  3.39s/it] 37%|████████████████████████████████████▎                                                             | 2643/7135 [2:24:11<4:04:44,  3.27s/it] 37%|████████████████████████████████████▎                                                             | 2644/7135 [2:24:14<3:56:53,  3.16s/it] 37%|████████████████████████████████████▎                                                             | 2645/7135 [2:24:17<3:55:42,  3.15s/it] 37%|████████████████████████████████████▎                                                             | 2646/7135 [2:24:21<4:03:21,  3.25s/it] 37%|████████████████████████████████████▎                                                             | 2647/7135 [2:24:24<4:00:50,  3.22s/it] 37%|████████████████████████████████████▎                                                             | 2648/7135 [2:24:27<3:47:35,  3.04s/it] 37%|████████████████████████████████████▍                                                             | 2649/7135 [2:24:30<3:51:01,  3.09s/it] 37%|████████████████████████████████████▍                                                             | 2650/7135 [2:24:33<3:54:54,  3.14s/it]                                                                                                                                               {'loss': 0.9151, 'grad_norm': 4.8125, 'learning_rate': 3.547853161229009e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 389.73, 'epoch': 3.71}
 37%|████████████████████████████████████▍                                                             | 2650/7135 [2:24:33<3:54:54,  3.14s/it] 37%|████████████████████████████████████▍                                                             | 2651/7135 [2:24:37<4:05:41,  3.29s/it] 37%|████████████████████████████████████▍                                                             | 2652/7135 [2:24:40<4:14:20,  3.40s/it] 37%|████████████████████████████████████▍                                                             | 2653/7135 [2:24:43<4:07:38,  3.32s/it] 37%|████████████████████████████████████▍                                                             | 2654/7135 [2:24:46<3:56:30,  3.17s/it] 37%|████████████████████████████████████▍                                                             | 2655/7135 [2:24:50<4:02:49,  3.25s/it] 37%|████████████████████████████████████▍                                                             | 2656/7135 [2:24:53<4:07:07,  3.31s/it] 37%|████████████████████████████████████▍                                                             | 2657/7135 [2:24:56<4:00:06,  3.22s/it] 37%|████████████████████████████████████▌                                                             | 2658/7135 [2:24:59<4:00:12,  3.22s/it] 37%|████████████████████████████████████▌                                                             | 2659/7135 [2:25:02<3:50:40,  3.09s/it] 37%|████████████████████████████████████▌                                                             | 2660/7135 [2:25:05<3:45:35,  3.02s/it]                                                                                                                                               {'loss': 0.7484, 'grad_norm': 4.5625, 'learning_rate': 3.5377065774123344e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 464.97, 'epoch': 3.73}
 37%|████████████████████████████████████▌                                                             | 2660/7135 [2:25:05<3:45:35,  3.02s/it] 37%|████████████████████████████████████▌                                                             | 2661/7135 [2:25:08<3:37:05,  2.91s/it] 37%|████████████████████████████████████▌                                                             | 2662/7135 [2:25:11<3:40:15,  2.95s/it] 37%|████████████████████████████████████▌                                                             | 2663/7135 [2:25:14<3:37:18,  2.92s/it] 37%|████████████████████████████████████▌                                                             | 2664/7135 [2:25:17<3:46:30,  3.04s/it] 37%|████████████████████████████████████▌                                                             | 2665/7135 [2:25:20<3:45:10,  3.02s/it] 37%|████████████████████████████████████▌                                                             | 2666/7135 [2:25:23<3:44:11,  3.01s/it] 37%|████████████████████████████████████▋                                                             | 2667/7135 [2:25:26<3:46:27,  3.04s/it] 37%|████████████████████████████████████▋                                                             | 2668/7135 [2:25:29<3:39:53,  2.95s/it] 37%|████████████████████████████████████▋                                                             | 2669/7135 [2:25:32<3:40:30,  2.96s/it] 37%|████████████████████████████████████▋                                                             | 2670/7135 [2:25:35<3:37:50,  2.93s/it]                                                                                                                                               {'loss': 0.7568, 'grad_norm': 7.90625, 'learning_rate': 3.5275392995506375e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 378.64, 'epoch': 3.74}
 37%|████████████████████████████████████▋                                                             | 2670/7135 [2:25:35<3:37:50,  2.93s/it] 37%|████████████████████████████████████▋                                                             | 2671/7135 [2:25:38<3:41:25,  2.98s/it] 37%|████████████████████████████████████▋                                                             | 2672/7135 [2:25:40<3:32:53,  2.86s/it] 37%|████████████████████████████████████▋                                                             | 2673/7135 [2:25:43<3:35:21,  2.90s/it] 37%|████████████████████████████████████▋                                                             | 2674/7135 [2:25:46<3:26:29,  2.78s/it] 37%|████████████████████████████████████▋                                                             | 2675/7135 [2:25:49<3:34:21,  2.88s/it] 38%|████████████████████████████████████▊                                                             | 2676/7135 [2:25:52<3:43:46,  3.01s/it] 38%|████████████████████████████████████▊                                                             | 2677/7135 [2:25:55<3:42:06,  2.99s/it] 38%|████████████████████████████████████▊                                                             | 2678/7135 [2:25:58<3:49:19,  3.09s/it] 38%|████████████████████████████████████▊                                                             | 2679/7135 [2:26:02<3:49:45,  3.09s/it] 38%|████████████████████████████████████▊                                                             | 2680/7135 [2:26:04<3:45:52,  3.04s/it]                                                                                                                                               {'loss': 0.7354, 'grad_norm': 6.125, 'learning_rate': 3.517351530400759e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 350.91, 'epoch': 3.75}
 38%|████████████████████████████████████▊                                                             | 2680/7135 [2:26:05<3:45:52,  3.04s/it] 38%|████████████████████████████████████▊                                                             | 2681/7135 [2:26:08<3:57:48,  3.20s/it] 38%|████████████████████████████████████▊                                                             | 2682/7135 [2:26:11<3:56:17,  3.18s/it] 38%|████████████████████████████████████▊                                                             | 2683/7135 [2:26:15<3:59:50,  3.23s/it] 38%|████████████████████████████████████▊                                                             | 2684/7135 [2:26:18<4:00:41,  3.24s/it] 38%|████████████████████████████████████▉                                                             | 2685/7135 [2:26:21<4:05:39,  3.31s/it] 38%|████████████████████████████████████▉                                                             | 2686/7135 [2:26:24<3:52:02,  3.13s/it] 38%|████████████████████████████████████▉                                                             | 2687/7135 [2:26:28<4:00:53,  3.25s/it] 38%|████████████████████████████████████▉                                                             | 2688/7135 [2:26:31<3:58:13,  3.21s/it] 38%|████████████████████████████████████▉                                                             | 2689/7135 [2:26:33<3:45:52,  3.05s/it] 38%|████████████████████████████████████▉                                                             | 2690/7135 [2:26:36<3:44:28,  3.03s/it]                                                                                                                                               {'loss': 0.7423, 'grad_norm': 3.8125, 'learning_rate': 3.507143473128177e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 442.98, 'epoch': 3.77}
 38%|████████████████████████████████████▉                                                             | 2690/7135 [2:26:36<3:44:28,  3.03s/it] 38%|████████████████████████████████████▉                                                             | 2691/7135 [2:26:39<3:46:06,  3.05s/it] 38%|████████████████████████████████████▉                                                             | 2692/7135 [2:26:43<3:51:48,  3.13s/it] 38%|████████████████████████████████████▉                                                             | 2693/7135 [2:26:46<3:53:04,  3.15s/it] 38%|█████████████████████████████████████                                                             | 2694/7135 [2:26:49<3:52:36,  3.14s/it] 38%|█████████████████████████████████████                                                             | 2695/7135 [2:26:52<3:49:38,  3.10s/it] 38%|█████████████████████████████████████                                                             | 2696/7135 [2:26:55<3:50:53,  3.12s/it] 38%|█████████████████████████████████████                                                             | 2697/7135 [2:26:58<3:45:26,  3.05s/it] 38%|█████████████████████████████████████                                                             | 2698/7135 [2:27:01<3:47:49,  3.08s/it] 38%|█████████████████████████████████████                                                             | 2699/7135 [2:27:04<3:46:34,  3.06s/it] 38%|█████████████████████████████████████                                                             | 2700/7135 [2:27:07<3:37:13,  2.94s/it]                                                                                                                                               {'loss': 0.7364, 'grad_norm': 5.03125, 'learning_rate': 3.4969153313029567e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 415.3, 'epoch': 3.78}
 38%|█████████████████████████████████████                                                             | 2700/7135 [2:27:07<3:37:13,  2.94s/it] 38%|█████████████████████████████████████                                                             | 2701/7135 [2:27:10<3:36:16,  2.93s/it] 38%|█████████████████████████████████████                                                             | 2702/7135 [2:27:13<3:46:56,  3.07s/it] 38%|█████████████████████████████████████▏                                                            | 2703/7135 [2:27:16<3:51:06,  3.13s/it] 38%|█████████████████████████████████████▏                                                            | 2704/7135 [2:27:20<3:52:49,  3.15s/it] 38%|█████████████████████████████████████▏                                                            | 2705/7135 [2:27:23<3:59:05,  3.24s/it] 38%|█████████████████████████████████████▏                                                            | 2706/7135 [2:27:26<3:46:05,  3.06s/it] 38%|█████████████████████████████████████▏                                                            | 2707/7135 [2:27:28<3:37:00,  2.94s/it] 38%|█████████████████████████████████████▏                                                            | 2708/7135 [2:27:31<3:34:18,  2.90s/it] 38%|█████████████████████████████████████▏                                                            | 2709/7135 [2:27:35<3:41:57,  3.01s/it] 38%|█████████████████████████████████████▏                                                            | 2710/7135 [2:27:38<3:57:30,  3.22s/it]                                                                                                                                               {'loss': 0.7416, 'grad_norm': 5.6875, 'learning_rate': 3.486667308895695e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 308.79, 'epoch': 3.8}
 38%|█████████████████████████████████████▏                                                            | 2710/7135 [2:27:38<3:57:30,  3.22s/it] 38%|█████████████████████████████████████▏                                                            | 2711/7135 [2:27:41<3:54:48,  3.18s/it] 38%|█████████████████████████████████████▏                                                            | 2712/7135 [2:27:45<4:07:05,  3.35s/it] 38%|█████████████████████████████████████▎                                                            | 2713/7135 [2:27:48<4:04:59,  3.32s/it] 38%|█████████████████████████████████████▎                                                            | 2714/7135 [2:27:52<4:02:03,  3.29s/it] 38%|█████████████████████████████████████▎                                                            | 2715/7135 [2:27:55<4:03:27,  3.30s/it] 38%|█████████████████████████████████████▎                                                            | 2716/7135 [2:27:58<4:02:18,  3.29s/it] 38%|█████████████████████████████████████▎                                                            | 2717/7135 [2:28:02<4:04:40,  3.32s/it] 38%|█████████████████████████████████████▎                                                            | 2718/7135 [2:28:04<3:49:40,  3.12s/it] 38%|█████████████████████████████████████▎                                                            | 2719/7135 [2:28:07<3:47:58,  3.10s/it] 38%|█████████████████████████████████████▎                                                            | 2720/7135 [2:28:11<3:59:41,  3.26s/it]                                                                                                                                               {'loss': 0.8566, 'grad_norm': 5.4375, 'learning_rate': 3.4763996102734433e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 372.43, 'epoch': 3.81}
 38%|█████████████████████████████████████▎                                                            | 2720/7135 [2:28:11<3:59:41,  3.26s/it] 38%|█████████████████████████████████████▎                                                            | 2721/7135 [2:28:15<4:09:18,  3.39s/it] 38%|█████████████████████████████████████▍                                                            | 2722/7135 [2:28:18<4:02:07,  3.29s/it] 38%|█████████████████████████████████████▍                                                            | 2723/7135 [2:28:21<4:02:46,  3.30s/it] 38%|█████████████████████████████████████▍                                                            | 2724/7135 [2:28:24<4:07:32,  3.37s/it] 38%|█████████████████████████████████████▍                                                            | 2725/7135 [2:28:28<4:07:57,  3.37s/it] 38%|█████████████████████████████████████▍                                                            | 2726/7135 [2:28:31<3:57:38,  3.23s/it] 38%|█████████████████████████████████████▍                                                            | 2727/7135 [2:28:34<3:53:10,  3.17s/it] 38%|█████████████████████████████████████▍                                                            | 2728/7135 [2:28:38<4:05:50,  3.35s/it] 38%|█████████████████████████████████████▍                                                            | 2729/7135 [2:28:41<4:05:25,  3.34s/it] 38%|█████████████████████████████████████▍                                                            | 2730/7135 [2:28:44<4:00:29,  3.28s/it]                                                                                                                                               {'loss': 0.7297, 'grad_norm': 3.921875, 'learning_rate': 3.4661124401956442e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 431.34, 'epoch': 3.82}
 38%|█████████████████████████████████████▍                                                            | 2730/7135 [2:28:44<4:00:29,  3.28s/it] 38%|█████████████████████████████████████▌                                                            | 2731/7135 [2:28:47<3:59:36,  3.26s/it] 38%|█████████████████████████████████████▌                                                            | 2732/7135 [2:28:50<3:52:13,  3.16s/it] 38%|█████████████████████████████████████▌                                                            | 2733/7135 [2:28:53<3:44:10,  3.06s/it] 38%|█████████████████████████████████████▌                                                            | 2734/7135 [2:28:56<3:44:57,  3.07s/it] 38%|█████████████████████████████████████▌                                                            | 2735/7135 [2:29:00<3:58:32,  3.25s/it] 38%|█████████████████████████████████████▌                                                            | 2736/7135 [2:29:03<3:57:38,  3.24s/it] 38%|█████████████████████████████████████▌                                                            | 2737/7135 [2:29:06<3:53:34,  3.19s/it] 38%|█████████████████████████████████████▌                                                            | 2738/7135 [2:29:09<3:51:19,  3.16s/it] 38%|█████████████████████████████████████▌                                                            | 2739/7135 [2:29:12<3:54:32,  3.20s/it] 38%|█████████████████████████████████████▋                                                            | 2740/7135 [2:29:15<3:42:04,  3.03s/it]                                                                                                                                               {'loss': 0.7251, 'grad_norm': 5.5, 'learning_rate': 3.4558060038100387e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 475.25, 'epoch': 3.84}
 38%|█████████████████████████████████████▋                                                            | 2740/7135 [2:29:15<3:42:04,  3.03s/it] 38%|█████████████████████████████████████▋                                                            | 2741/7135 [2:29:18<3:49:10,  3.13s/it] 38%|█████████████████████████████████████▋                                                            | 2742/7135 [2:29:22<3:51:17,  3.16s/it] 38%|█████████████████████████████████████▋                                                            | 2743/7135 [2:29:25<3:50:30,  3.15s/it] 38%|█████████████████████████████████████▋                                                            | 2744/7135 [2:29:28<3:58:03,  3.25s/it] 38%|█████████████████████████████████████▋                                                            | 2745/7135 [2:29:31<3:56:05,  3.23s/it] 38%|█████████████████████████████████████▋                                                            | 2746/7135 [2:29:35<3:59:13,  3.27s/it] 39%|█████████████████████████████████████▋                                                            | 2747/7135 [2:29:38<3:53:01,  3.19s/it] 39%|█████████████████████████████████████▋                                                            | 2748/7135 [2:29:41<3:49:12,  3.13s/it] 39%|█████████████████████████████████████▊                                                            | 2749/7135 [2:29:43<3:38:44,  2.99s/it] 39%|█████████████████████████████████████▊                                                            | 2750/7135 [2:29:47<3:47:15,  3.11s/it]                                                                                                                                               {'loss': 0.7414, 'grad_norm': 6.59375, 'learning_rate': 3.4454805066485787e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 321.56, 'epoch': 3.85}
 39%|█████████████████████████████████████▊                                                            | 2750/7135 [2:29:47<3:47:15,  3.11s/it] 39%|█████████████████████████████████████▊                                                            | 2751/7135 [2:29:52<4:23:07,  3.60s/it] 39%|█████████████████████████████████████▊                                                            | 2752/7135 [2:29:55<4:18:37,  3.54s/it] 39%|█████████████████████████████████████▊                                                            | 2753/7135 [2:29:58<4:05:04,  3.36s/it] 39%|█████████████████████████████████████▊                                                            | 2754/7135 [2:30:01<4:09:30,  3.42s/it] 39%|█████████████████████████████████████▊                                                            | 2755/7135 [2:30:05<4:04:46,  3.35s/it] 39%|█████████████████████████████████████▊                                                            | 2756/7135 [2:30:08<3:55:31,  3.23s/it] 39%|█████████████████████████████████████▊                                                            | 2757/7135 [2:30:11<3:53:13,  3.20s/it] 39%|█████████████████████████████████████▉                                                            | 2758/7135 [2:30:14<3:54:47,  3.22s/it] 39%|█████████████████████████████████████▉                                                            | 2759/7135 [2:30:18<4:03:59,  3.35s/it] 39%|█████████████████████████████████████▉                                                            | 2760/7135 [2:30:21<3:56:37,  3.25s/it]                                                                                                                                               {'loss': 0.6902, 'grad_norm': 5.3125, 'learning_rate': 3.4351361546233273e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 387.23, 'epoch': 3.87}
 39%|█████████████████████████████████████▉                                                            | 2760/7135 [2:30:21<3:56:37,  3.25s/it] 39%|█████████████████████████████████████▉                                                            | 2761/7135 [2:30:24<3:48:17,  3.13s/it] 39%|█████████████████████████████████████▉                                                            | 2762/7135 [2:30:27<3:51:18,  3.17s/it] 39%|█████████████████████████████████████▉                                                            | 2763/7135 [2:30:30<3:53:06,  3.20s/it] 39%|█████████████████████████████████████▉                                                            | 2764/7135 [2:30:34<4:01:04,  3.31s/it] 39%|█████████████████████████████████████▉                                                            | 2765/7135 [2:30:37<3:54:59,  3.23s/it] 39%|█████████████████████████████████████▉                                                            | 2766/7135 [2:30:40<3:56:47,  3.25s/it] 39%|██████████████████████████████████████                                                            | 2767/7135 [2:30:43<3:55:40,  3.24s/it] 39%|██████████████████████████████████████                                                            | 2768/7135 [2:30:46<3:51:43,  3.18s/it] 39%|██████████████████████████████████████                                                            | 2769/7135 [2:30:50<3:55:29,  3.24s/it] 39%|██████████████████████████████████████                                                            | 2770/7135 [2:30:53<4:00:16,  3.30s/it]                                                                                                                                               {'loss': 0.9034, 'grad_norm': 4.75, 'learning_rate': 3.4247731540223554e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 375.28, 'epoch': 3.88}
 39%|██████████████████████████████████████                                                            | 2770/7135 [2:30:53<4:00:16,  3.30s/it] 39%|██████████████████████████████████████                                                            | 2771/7135 [2:30:57<4:05:15,  3.37s/it] 39%|██████████████████████████████████████                                                            | 2772/7135 [2:31:00<3:58:25,  3.28s/it] 39%|██████████████████████████████████████                                                            | 2773/7135 [2:31:03<3:54:22,  3.22s/it] 39%|██████████████████████████████████████                                                            | 2774/7135 [2:31:06<3:47:28,  3.13s/it] 39%|██████████████████████████████████████                                                            | 2775/7135 [2:31:09<4:00:46,  3.31s/it] 39%|██████████████████████████████████████▏                                                           | 2776/7135 [2:31:13<4:04:36,  3.37s/it] 39%|██████████████████████████████████████▏                                                           | 2777/7135 [2:31:16<4:00:16,  3.31s/it] 39%|██████████████████████████████████████▏                                                           | 2778/7135 [2:31:19<3:52:44,  3.21s/it] 39%|██████████████████████████████████████▏                                                           | 2779/7135 [2:31:22<3:54:51,  3.23s/it] 39%|██████████████████████████████████████▏                                                           | 2780/7135 [2:31:26<4:00:45,  3.32s/it]                                                                                                                                               {'loss': 0.7192, 'grad_norm': 4.03125, 'learning_rate': 3.414391711505624e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 370.17, 'epoch': 3.89}
 39%|██████████████████████████████████████▏                                                           | 2780/7135 [2:31:26<4:00:45,  3.32s/it] 39%|██████████████████████████████████████▏                                                           | 2781/7135 [2:31:29<4:03:32,  3.36s/it] 39%|██████████████████████████████████████▏                                                           | 2782/7135 [2:31:32<3:55:06,  3.24s/it] 39%|██████████████████████████████████████▏                                                           | 2783/7135 [2:31:35<3:45:16,  3.11s/it] 39%|██████████████████████████████████████▏                                                           | 2784/7135 [2:31:38<3:49:58,  3.17s/it] 39%|██████████████████████████████████████▎                                                           | 2785/7135 [2:31:42<4:08:52,  3.43s/it] 39%|██████████████████████████████████████▎                                                           | 2786/7135 [2:31:46<4:19:25,  3.58s/it] 39%|██████████████████████████████████████▎                                                           | 2787/7135 [2:31:49<4:05:16,  3.38s/it] 39%|██████████████████████████████████████▎                                                           | 2788/7135 [2:31:53<4:13:08,  3.49s/it] 39%|██████████████████████████████████████▎                                                           | 2789/7135 [2:31:56<4:12:57,  3.49s/it] 39%|██████████████████████████████████████▎                                                           | 2790/7135 [2:32:00<4:05:02,  3.38s/it]                                                                                                                                               {'loss': 0.8287, 'grad_norm': 6.5625, 'learning_rate': 3.4039920341008635e-06, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 571.95, 'epoch': 3.91}
 39%|██████████████████████████████████████▎                                                           | 2790/7135 [2:32:00<4:05:02,  3.38s/it] 39%|██████████████████████████████████████▎                                                           | 2791/7135 [2:32:03<4:02:40,  3.35s/it] 39%|██████████████████████████████████████▎                                                           | 2792/7135 [2:32:06<4:03:02,  3.36s/it] 39%|██████████████████████████████████████▎                                                           | 2793/7135 [2:32:09<3:55:39,  3.26s/it] 39%|██████████████████████████████████████▍                                                           | 2794/7135 [2:32:12<3:45:49,  3.12s/it] 39%|██████████████████████████████████████▍                                                           | 2795/7135 [2:32:15<3:45:06,  3.11s/it] 39%|██████████████████████████████████████▍                                                           | 2796/7135 [2:32:18<3:48:59,  3.17s/it] 39%|██████████████████████████████████████▍                                                           | 2797/7135 [2:32:21<3:38:50,  3.03s/it] 39%|██████████████████████████████████████▍                                                           | 2798/7135 [2:32:24<3:38:18,  3.02s/it] 39%|██████████████████████████████████████▍                                                           | 2799/7135 [2:32:27<3:42:55,  3.08s/it] 39%|██████████████████████████████████████▍                                                           | 2800/7135 [2:32:31<3:43:12,  3.09s/it]                                                                                                                                               {'loss': 0.8662, 'grad_norm': 5.59375, 'learning_rate': 3.3935743291994487e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 404.6, 'epoch': 3.92}
 39%|██████████████████████████████████████▍                                                           | 2800/7135 [2:32:31<3:43:12,  3.09s/it] 39%|██████████████████████████████████████▍                                                           | 2801/7135 [2:32:34<3:44:01,  3.10s/it] 39%|██████████████████████████████████████▍                                                           | 2802/7135 [2:32:37<3:57:28,  3.29s/it] 39%|██████████████████████████████████████▍                                                           | 2803/7135 [2:32:40<3:47:57,  3.16s/it] 39%|██████████████████████████████████████▌                                                           | 2804/7135 [2:32:44<3:55:24,  3.26s/it] 39%|██████████████████████████████████████▌                                                           | 2805/7135 [2:32:47<4:02:28,  3.36s/it] 39%|██████████████████████████████████████▌                                                           | 2806/7135 [2:32:51<4:00:41,  3.34s/it] 39%|██████████████████████████████████████▌                                                           | 2807/7135 [2:32:54<4:02:33,  3.36s/it] 39%|██████████████████████████████████████▌                                                           | 2808/7135 [2:32:57<3:48:32,  3.17s/it] 39%|██████████████████████████████████████▌                                                           | 2809/7135 [2:33:00<3:44:08,  3.11s/it] 39%|██████████████████████████████████████▌                                                           | 2810/7135 [2:33:03<3:39:52,  3.05s/it]                                                                                                                                               {'loss': 0.8707, 'grad_norm': 12.5, 'learning_rate': 3.383138804552259e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 557.45, 'epoch': 3.94}
 39%|██████████████████████████████████████▌                                                           | 2810/7135 [2:33:03<3:39:52,  3.05s/it] 39%|██████████████████████████████████████▌                                                           | 2811/7135 [2:33:06<3:37:17,  3.02s/it] 39%|██████████████████████████████████████▌                                                           | 2812/7135 [2:33:09<3:40:31,  3.06s/it] 39%|██████████████████████████████████████▋                                                           | 2813/7135 [2:33:12<3:41:01,  3.07s/it] 39%|██████████████████████████████████████▋                                                           | 2814/7135 [2:33:15<3:43:35,  3.10s/it] 39%|██████████████████████████████████████▋                                                           | 2815/7135 [2:33:18<3:49:56,  3.19s/it] 39%|██████████████████████████████████████▋                                                           | 2816/7135 [2:33:22<3:51:54,  3.22s/it] 39%|██████████████████████████████████████▋                                                           | 2817/7135 [2:33:25<3:53:26,  3.24s/it] 39%|██████████████████████████████████████▋                                                           | 2818/7135 [2:33:28<3:48:26,  3.18s/it] 40%|██████████████████████████████████████▋                                                           | 2819/7135 [2:33:32<3:57:35,  3.30s/it] 40%|██████████████████████████████████████▋                                                           | 2820/7135 [2:33:35<3:56:07,  3.28s/it]                                                                                                                                               {'loss': 0.7947, 'grad_norm': 2.8125, 'learning_rate': 3.3726856682655364e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 452.17, 'epoch': 3.95}
 40%|██████████████████████████████████████▋                                                           | 2820/7135 [2:33:35<3:56:07,  3.28s/it] 40%|██████████████████████████████████████▋                                                           | 2821/7135 [2:33:38<4:02:49,  3.38s/it] 40%|██████████████████████████████████████▊                                                           | 2822/7135 [2:33:41<3:51:35,  3.22s/it] 40%|██████████████████████████████████████▊                                                           | 2823/7135 [2:33:44<3:51:03,  3.22s/it] 40%|██████████████████████████████████████▊                                                           | 2824/7135 [2:33:48<3:47:34,  3.17s/it] 40%|██████████████████████████████████████▊                                                           | 2825/7135 [2:33:50<3:37:32,  3.03s/it] 40%|██████████████████████████████████████▊                                                           | 2826/7135 [2:33:54<3:59:11,  3.33s/it] 40%|██████████████████████████████████████▊                                                           | 2827/7135 [2:33:57<3:54:52,  3.27s/it] 40%|██████████████████████████████████████▊                                                           | 2828/7135 [2:34:02<4:14:20,  3.54s/it] 40%|██████████████████████████████████████▊                                                           | 2829/7135 [2:34:04<3:59:39,  3.34s/it] 40%|██████████████████████████████████████▊                                                           | 2830/7135 [2:34:07<3:43:55,  3.12s/it]                                                                                                                                               {'loss': 0.9051, 'grad_norm': 5.84375, 'learning_rate': 3.362215128796737e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 623.54, 'epoch': 3.96}
 40%|██████████████████████████████████████▊                                                           | 2830/7135 [2:34:07<3:43:55,  3.12s/it] 40%|██████████████████████████████████████▉                                                           | 2831/7135 [2:34:11<3:53:56,  3.26s/it] 40%|██████████████████████████████████████▉                                                           | 2832/7135 [2:34:14<3:46:31,  3.16s/it] 40%|██████████████████████████████████████▉                                                           | 2833/7135 [2:34:17<3:43:27,  3.12s/it] 40%|██████████████████████████████████████▉                                                           | 2834/7135 [2:34:20<3:51:12,  3.23s/it] 40%|██████████████████████████████████████▉                                                           | 2835/7135 [2:34:23<3:53:11,  3.25s/it] 40%|██████████████████████████████████████▉                                                           | 2836/7135 [2:34:26<3:43:08,  3.11s/it] 40%|██████████████████████████████████████▉                                                           | 2837/7135 [2:34:30<4:05:08,  3.42s/it] 40%|██████████████████████████████████████▉                                                           | 2838/7135 [2:34:34<4:02:22,  3.38s/it] 40%|██████████████████████████████████████▉                                                           | 2839/7135 [2:34:37<4:03:32,  3.40s/it] 40%|███████████████████████████████████████                                                           | 2840/7135 [2:34:40<3:55:13,  3.29s/it]                                                                                                                                               {'loss': 0.7915, 'grad_norm': 4.4375, 'learning_rate': 3.351727394950373e-06, 'memory/max_active (GiB)': 44.58, 'memory/max_allocated (GiB)': 44.58, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 543.77, 'epoch': 3.98}
 40%|███████████████████████████████████████                                                           | 2840/7135 [2:34:40<3:55:13,  3.29s/it] 40%|███████████████████████████████████████                                                           | 2841/7135 [2:34:45<4:22:45,  3.67s/it] 40%|███████████████████████████████████████                                                           | 2842/7135 [2:34:48<4:08:03,  3.47s/it] 40%|███████████████████████████████████████                                                           | 2843/7135 [2:34:51<3:56:47,  3.31s/it] 40%|███████████████████████████████████████                                                           | 2844/7135 [2:34:54<3:55:25,  3.29s/it] 40%|███████████████████████████████████████                                                           | 2845/7135 [2:34:57<3:48:16,  3.19s/it] 40%|███████████████████████████████████████                                                           | 2846/7135 [2:35:00<3:49:33,  3.21s/it] 40%|███████████████████████████████████████                                                           | 2847/7135 [2:35:03<3:54:38,  3.28s/it] 40%|███████████████████████████████████████                                                           | 2848/7135 [2:35:07<3:56:53,  3.32s/it] 40%|███████████████████████████████████████▏                                                          | 2849/7135 [2:35:10<3:56:38,  3.31s/it] 40%|███████████████████████████████████████▏                                                          | 2850/7135 [2:35:14<4:05:33,  3.44s/it]                                                                                                                                               {'loss': 0.7365, 'grad_norm': 4.65625, 'learning_rate': 3.3412226758738475e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 348.11, 'epoch': 3.99}
 40%|███████████████████████████████████████▏                                                          | 2850/7135 [2:35:14<4:05:33,  3.44s/it] 40%|███████████████████████████████████████▏                                                          | 2851/7135 [2:35:17<3:50:37,  3.23s/it] 40%|███████████████████████████████████████▏                                                          | 2852/7135 [2:35:20<3:51:13,  3.24s/it] 40%|███████████████████████████████████████▏                                                          | 2853/7135 [2:35:23<3:41:38,  3.11s/it] 40%|███████████████████████████████████████▏                                                          | 2854/7135 [2:35:26<3:40:31,  3.09s/it] 40%|███████████████████████████████████████▏                                                          | 2855/7135 [2:35:29<3:46:22,  3.17s/it] 40%|███████████████████████████████████████▏                                                          | 2856/7135 [2:35:31<3:10:59,  2.68s/it][2025-12-23 16:59:36,819] [INFO] [axolotl.core.trainers.base._save:671] [PID:5064] Saving model checkpoint to ./outputs/qwen3-4b-instruct-abd-full-train/checkpoint-2856
 40%|██████████████████████████████████████▊                                                          | 2857/7135 [2:36:33<24:18:17, 20.45s/it] 40%|██████████████████████████████████████▊                                                          | 2858/7135 [2:36:35<18:02:17, 15.18s/it] 40%|██████████████████████████████████████▊                                                          | 2859/7135 [2:36:38<13:35:18, 11.44s/it] 40%|██████████████████████████████████████▉                                                          | 2860/7135 [2:36:41<10:35:59,  8.93s/it]                                                                                                                                               {'loss': 0.7066, 'grad_norm': 3.328125, 'learning_rate': 3.3307011810532852e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 381.53, 'epoch': 4.01}
 40%|██████████████████████████████████████▉                                                          | 2860/7135 [2:36:41<10:35:59,  8.93s/it] 40%|███████████████████████████████████████▎                                                          | 2861/7135 [2:36:45<8:42:49,  7.34s/it] 40%|███████████████████████████████████████▎                                                          | 2862/7135 [2:36:48<7:10:01,  6.04s/it] 40%|███████████████████████████████████████▎                                                          | 2863/7135 [2:36:51<6:03:15,  5.10s/it] 40%|███████████████████████████████████████▎                                                          | 2864/7135 [2:36:54<5:19:41,  4.49s/it] 40%|███████████████████████████████████████▎                                                          | 2865/7135 [2:36:57<4:41:06,  3.95s/it] 40%|███████████████████████████████████████▎                                                          | 2866/7135 [2:36:59<4:19:06,  3.64s/it] 40%|███████████████████████████████████████▍                                                          | 2867/7135 [2:37:02<4:03:57,  3.43s/it] 40%|███████████████████████████████████████▍                                                          | 2868/7135 [2:37:05<3:54:51,  3.30s/it] 40%|███████████████████████████████████████▍                                                          | 2869/7135 [2:37:08<3:46:04,  3.18s/it] 40%|███████████████████████████████████████▍                                                          | 2870/7135 [2:37:11<3:46:02,  3.18s/it]                                                                                                                                               {'loss': 0.7359, 'grad_norm': 4.375, 'learning_rate': 3.3201631203093547e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 345.67, 'epoch': 4.02}
 40%|███████████████████████████████████████▍                                                          | 2870/7135 [2:37:12<3:46:02,  3.18s/it] 40%|███████████████████████████████████████▍                                                          | 2871/7135 [2:37:14<3:39:55,  3.09s/it] 40%|███████████████████████████████████████▍                                                          | 2872/7135 [2:37:18<3:41:45,  3.12s/it] 40%|███████████████████████████████████████▍                                                          | 2873/7135 [2:37:20<3:35:52,  3.04s/it] 40%|███████████████████████████████████████▍                                                          | 2874/7135 [2:37:24<3:37:54,  3.07s/it] 40%|███████████████████████████████████████▍                                                          | 2875/7135 [2:37:27<3:41:21,  3.12s/it] 40%|███████████████████████████████████████▌                                                          | 2876/7135 [2:37:29<3:32:30,  2.99s/it] 40%|███████████████████████████████████████▌                                                          | 2877/7135 [2:37:33<3:33:07,  3.00s/it] 40%|███████████████████████████████████████▌                                                          | 2878/7135 [2:37:36<3:35:06,  3.03s/it] 40%|███████████████████████████████████████▌                                                          | 2879/7135 [2:37:39<3:34:20,  3.02s/it] 40%|███████████████████████████████████████▌                                                          | 2880/7135 [2:37:42<3:34:08,  3.02s/it]                                                                                                                                               {'loss': 0.6713, 'grad_norm': 5.5625, 'learning_rate': 3.3096087037930837e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 386.54, 'epoch': 4.03}
 40%|███████████████████████████████████████▌                                                          | 2880/7135 [2:37:42<3:34:08,  3.02s/it] 40%|███████████████████████████████████████▌                                                          | 2881/7135 [2:37:45<3:40:00,  3.10s/it] 40%|███████████████████████████████████████▌                                                          | 2882/7135 [2:37:48<3:44:58,  3.17s/it] 40%|███████████████████████████████████████▌                                                          | 2883/7135 [2:37:51<3:42:20,  3.14s/it] 40%|███████████████████████████████████████▌                                                          | 2884/7135 [2:37:54<3:41:26,  3.13s/it] 40%|███████████████████████████████████████▋                                                          | 2885/7135 [2:37:57<3:37:36,  3.07s/it] 40%|███████████████████████████████████████▋                                                          | 2886/7135 [2:38:01<3:39:12,  3.10s/it] 40%|███████████████████████████████████████▋                                                          | 2887/7135 [2:38:04<3:43:20,  3.15s/it] 40%|███████████████████████████████████████▋                                                          | 2888/7135 [2:38:07<3:36:10,  3.05s/it] 40%|███████████████████████████████████████▋                                                          | 2889/7135 [2:38:10<3:51:12,  3.27s/it] 41%|███████████████████████████████████████▋                                                          | 2890/7135 [2:38:14<3:50:08,  3.25s/it]                                                                                                                                               {'loss': 0.7432, 'grad_norm': 4.53125, 'learning_rate': 3.299038141981667e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 343.89, 'epoch': 4.05}
 41%|███████████████████████████████████████▋                                                          | 2890/7135 [2:38:14<3:50:08,  3.25s/it] 41%|███████████████████████████████████████▋                                                          | 2891/7135 [2:38:17<3:46:58,  3.21s/it] 41%|███████████████████████████████████████▋                                                          | 2892/7135 [2:38:20<3:42:59,  3.15s/it] 41%|███████████████████████████████████████▋                                                          | 2893/7135 [2:38:23<3:35:12,  3.04s/it] 41%|███████████████████████████████████████▋                                                          | 2894/7135 [2:38:25<3:31:09,  2.99s/it] 41%|███████████████████████████████████████▊                                                          | 2895/7135 [2:38:29<3:42:52,  3.15s/it] 41%|███████████████████████████████████████▊                                                          | 2896/7135 [2:38:32<3:47:17,  3.22s/it] 41%|███████████████████████████████████████▊                                                          | 2897/7135 [2:38:35<3:38:09,  3.09s/it] 41%|███████████████████████████████████████▊                                                          | 2898/7135 [2:38:38<3:36:05,  3.06s/it] 41%|███████████████████████████████████████▊                                                          | 2899/7135 [2:38:42<3:56:33,  3.35s/it] 41%|███████████████████████████████████████▊                                                          | 2900/7135 [2:38:46<4:02:58,  3.44s/it]                                                                                                                                               {'loss': 1.0014, 'grad_norm': 4.96875, 'learning_rate': 3.2884516456742723e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 377.01, 'epoch': 4.06}
 41%|███████████████████████████████████████▊                                                          | 2900/7135 [2:38:46<4:02:58,  3.44s/it] 41%|███████████████████████████████████████▊                                                          | 2901/7135 [2:38:49<3:53:36,  3.31s/it] 41%|███████████████████████████████████████▊                                                          | 2902/7135 [2:38:52<3:55:53,  3.34s/it] 41%|███████████████████████████████████████▊                                                          | 2903/7135 [2:38:55<3:46:57,  3.22s/it] 41%|███████████████████████████████████████▉                                                          | 2904/7135 [2:38:58<3:46:30,  3.21s/it] 41%|███████████████████████████████████████▉                                                          | 2905/7135 [2:39:02<3:54:17,  3.32s/it] 41%|███████████████████████████████████████▉                                                          | 2906/7135 [2:39:06<4:02:05,  3.43s/it] 41%|███████████████████████████████████████▉                                                          | 2907/7135 [2:39:09<3:55:36,  3.34s/it] 41%|███████████████████████████████████████▉                                                          | 2908/7135 [2:39:12<3:48:59,  3.25s/it] 41%|███████████████████████████████████████▉                                                          | 2909/7135 [2:39:15<3:47:23,  3.23s/it] 41%|███████████████████████████████████████▉                                                          | 2910/7135 [2:39:18<3:44:26,  3.19s/it]                                                                                                                                               {'loss': 0.7683, 'grad_norm': 5.9375, 'learning_rate': 3.277849425987834e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 434.65, 'epoch': 4.08}
 41%|███████████████████████████████████████▉                                                          | 2910/7135 [2:39:18<3:44:26,  3.19s/it] 41%|███████████████████████████████████████▉                                                          | 2911/7135 [2:39:21<3:49:39,  3.26s/it] 41%|███████████████████████████████████████▉                                                          | 2912/7135 [2:39:24<3:39:46,  3.12s/it] 41%|████████████████████████████████████████                                                          | 2913/7135 [2:39:28<3:51:10,  3.29s/it] 41%|████████████████████████████████████████                                                          | 2914/7135 [2:39:32<3:59:21,  3.40s/it] 41%|████████████████████████████████████████                                                          | 2915/7135 [2:39:35<4:05:29,  3.49s/it] 41%|████████████████████████████████████████                                                          | 2916/7135 [2:39:38<3:55:08,  3.34s/it] 41%|████████████████████████████████████████                                                          | 2917/7135 [2:39:42<3:55:37,  3.35s/it] 41%|████████████████████████████████████████                                                          | 2918/7135 [2:39:45<3:50:10,  3.27s/it] 41%|████████████████████████████████████████                                                          | 2919/7135 [2:39:48<3:39:24,  3.12s/it] 41%|████████████████████████████████████████                                                          | 2920/7135 [2:39:50<3:34:13,  3.05s/it]                                                                                                                                               {'loss': 0.8906, 'grad_norm': 4.96875, 'learning_rate': 3.2672316943528432e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 460.15, 'epoch': 4.09}
 41%|████████████████████████████████████████                                                          | 2920/7135 [2:39:50<3:34:13,  3.05s/it] 41%|████████████████████████████████████████                                                          | 2921/7135 [2:39:54<3:43:53,  3.19s/it] 41%|████████████████████████████████████████▏                                                         | 2922/7135 [2:39:57<3:45:54,  3.22s/it] 41%|████████████████████████████████████████▏                                                         | 2923/7135 [2:40:01<3:53:45,  3.33s/it] 41%|████████████████████████████████████████▏                                                         | 2924/7135 [2:40:04<3:56:36,  3.37s/it] 41%|████████████████████████████████████████▏                                                         | 2925/7135 [2:40:07<3:48:21,  3.25s/it] 41%|████████████████████████████████████████▏                                                         | 2926/7135 [2:40:11<3:55:57,  3.36s/it] 41%|████████████████████████████████████████▏                                                         | 2927/7135 [2:40:15<4:03:06,  3.47s/it] 41%|████████████████████████████████████████▏                                                         | 2928/7135 [2:40:18<3:54:37,  3.35s/it] 41%|████████████████████████████████████████▏                                                         | 2929/7135 [2:40:21<3:47:54,  3.25s/it] 41%|████████████████████████████████████████▏                                                         | 2930/7135 [2:40:24<3:53:24,  3.33s/it]                                                                                                                                               {'loss': 0.7114, 'grad_norm': 4.28125, 'learning_rate': 3.256598662509132e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 399.0, 'epoch': 4.1}
 41%|████████████████████████████████████████▏                                                         | 2930/7135 [2:40:24<3:53:24,  3.33s/it] 41%|████████████████████████████████████████▎                                                         | 2931/7135 [2:40:28<3:53:53,  3.34s/it] 41%|████████████████████████████████████████▎                                                         | 2932/7135 [2:40:30<3:46:07,  3.23s/it] 41%|████████████████████████████████████████▎                                                         | 2933/7135 [2:40:34<3:44:08,  3.20s/it] 41%|████████████████████████████████████████▎                                                         | 2934/7135 [2:40:37<3:48:38,  3.27s/it] 41%|████████████████████████████████████████▎                                                         | 2935/7135 [2:40:41<3:53:25,  3.33s/it] 41%|████████████████████████████████████████▎                                                         | 2936/7135 [2:40:44<3:47:40,  3.25s/it] 41%|████████████████████████████████████████▎                                                         | 2937/7135 [2:40:47<3:47:16,  3.25s/it] 41%|████████████████████████████████████████▎                                                         | 2938/7135 [2:40:50<3:37:29,  3.11s/it] 41%|████████████████████████████████████████▎                                                         | 2939/7135 [2:40:52<3:30:19,  3.01s/it] 41%|████████████████████████████████████████▍                                                         | 2940/7135 [2:40:56<3:41:16,  3.16s/it]                                                                                                                                               {'loss': 0.8068, 'grad_norm': 2.984375, 'learning_rate': 3.24595054250165e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 378.68, 'epoch': 4.12}
 41%|████████████████████████████████████████▍                                                         | 2940/7135 [2:40:56<3:41:16,  3.16s/it] 41%|████████████████████████████████████████▍                                                         | 2941/7135 [2:40:59<3:33:00,  3.05s/it] 41%|████████████████████████████████████████▍                                                         | 2942/7135 [2:41:02<3:29:27,  3.00s/it] 41%|████████████████████████████████████████▍                                                         | 2943/7135 [2:41:06<3:55:01,  3.36s/it] 41%|████████████████████████████████████████▍                                                         | 2944/7135 [2:41:09<3:49:50,  3.29s/it] 41%|████████████████████████████████████████▍                                                         | 2945/7135 [2:41:12<3:52:18,  3.33s/it] 41%|████████████████████████████████████████▍                                                         | 2946/7135 [2:41:15<3:35:07,  3.08s/it] 41%|████████████████████████████████████████▍                                                         | 2947/7135 [2:41:18<3:31:46,  3.03s/it] 41%|████████████████████████████████████████▍                                                         | 2948/7135 [2:41:22<3:52:29,  3.33s/it] 41%|████████████████████████████████████████▌                                                         | 2949/7135 [2:41:25<3:46:39,  3.25s/it] 41%|████████████████████████████████████████▌                                                         | 2950/7135 [2:41:28<3:48:57,  3.28s/it]                                                                                                                                               {'loss': 0.6748, 'grad_norm': 4.40625, 'learning_rate': 3.2352875466762386e-06, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 347.76, 'epoch': 4.13}
 41%|████████████████████████████████████████▌                                                         | 2950/7135 [2:41:28<3:48:57,  3.28s/it] 41%|████████████████████████████████████████▌                                                         | 2951/7135 [2:41:31<3:44:44,  3.22s/it] 41%|████████████████████████████████████████▌                                                         | 2952/7135 [2:41:34<3:42:57,  3.20s/it] 41%|████████████████████████████████████████▌                                                         | 2953/7135 [2:41:37<3:37:44,  3.12s/it] 41%|████████████████████████████████████████▌                                                         | 2954/7135 [2:41:41<3:49:25,  3.29s/it] 41%|████████████████████████████████████████▌                                                         | 2955/7135 [2:41:44<3:43:53,  3.21s/it] 41%|████████████████████████████████████████▌                                                         | 2956/7135 [2:41:47<3:36:20,  3.11s/it] 41%|████████████████████████████████████████▌                                                         | 2957/7135 [2:41:50<3:25:55,  2.96s/it] 41%|████████████████████████████████████████▋                                                         | 2958/7135 [2:41:53<3:30:35,  3.02s/it] 41%|████████████████████████████████████████▋                                                         | 2959/7135 [2:41:56<3:30:26,  3.02s/it] 41%|████████████████████████████████████████▋                                                         | 2960/7135 [2:41:59<3:28:07,  2.99s/it]                                                                                                                                               {'loss': 0.7354, 'grad_norm': 5.09375, 'learning_rate': 3.224609887675392e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 412.52, 'epoch': 4.15}
 41%|████████████████████████████████████████▋                                                         | 2960/7135 [2:41:59<3:28:07,  2.99s/it] 41%|████████████████████████████████████████▋                                                         | 2961/7135 [2:42:02<3:38:07,  3.14s/it] 42%|████████████████████████████████████████▋                                                         | 2962/7135 [2:42:05<3:34:57,  3.09s/it] 42%|████████████████████████████████████████▋                                                         | 2963/7135 [2:42:09<3:42:44,  3.20s/it] 42%|████████████████████████████████████████▋                                                         | 2964/7135 [2:42:12<3:44:44,  3.23s/it] 42%|████████████████████████████████████████▋                                                         | 2965/7135 [2:42:15<3:51:57,  3.34s/it] 42%|████████████████████████████████████████▋                                                         | 2966/7135 [2:42:19<3:50:08,  3.31s/it] 42%|████████████████████████████████████████▊                                                         | 2967/7135 [2:42:22<3:49:15,  3.30s/it] 42%|████████████████████████████████████████▊                                                         | 2968/7135 [2:42:25<3:50:19,  3.32s/it] 42%|████████████████████████████████████████▊                                                         | 2969/7135 [2:42:29<3:48:09,  3.29s/it] 42%|████████████████████████████████████████▊                                                         | 2970/7135 [2:42:32<3:43:36,  3.22s/it]                                                                                                                                               {'loss': 0.767, 'grad_norm': 5.03125, 'learning_rate': 3.213917778434019e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 446.27, 'epoch': 4.16}
 42%|████████████████████████████████████████▊                                                         | 2970/7135 [2:42:32<3:43:36,  3.22s/it] 42%|████████████████████████████████████████▊                                                         | 2971/7135 [2:42:35<3:53:30,  3.36s/it] 42%|████████████████████████████████████████▊                                                         | 2972/7135 [2:42:39<3:49:41,  3.31s/it] 42%|████████████████████████████████████████▊                                                         | 2973/7135 [2:42:42<3:52:08,  3.35s/it] 42%|████████████████████████████████████████▊                                                         | 2974/7135 [2:42:45<3:47:49,  3.29s/it] 42%|████████████████████████████████████████▊                                                         | 2975/7135 [2:42:49<3:57:02,  3.42s/it] 42%|████████████████████████████████████████▉                                                         | 2976/7135 [2:42:52<3:56:28,  3.41s/it] 42%|████████████████████████████████████████▉                                                         | 2977/7135 [2:42:56<3:57:05,  3.42s/it] 42%|████████████████████████████████████████▉                                                         | 2978/7135 [2:42:59<3:58:51,  3.45s/it] 42%|████████████████████████████████████████▉                                                         | 2979/7135 [2:43:02<3:40:40,  3.19s/it] 42%|████████████████████████████████████████▉                                                         | 2980/7135 [2:43:05<3:42:47,  3.22s/it]                                                                                                                                               {'loss': 0.7931, 'grad_norm': 4.9375, 'learning_rate': 3.203211432175199e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 464.98, 'epoch': 4.17}
 42%|████████████████████████████████████████▉                                                         | 2980/7135 [2:43:05<3:42:47,  3.22s/it] 42%|████████████████████████████████████████▉                                                         | 2981/7135 [2:43:09<4:03:53,  3.52s/it] 42%|████████████████████████████████████████▉                                                         | 2982/7135 [2:43:12<3:45:15,  3.25s/it] 42%|████████████████████████████████████████▉                                                         | 2983/7135 [2:43:16<3:53:03,  3.37s/it] 42%|████████████████████████████████████████▉                                                         | 2984/7135 [2:43:19<3:45:36,  3.26s/it] 42%|████████████████████████████████████████▉                                                         | 2985/7135 [2:43:22<3:42:49,  3.22s/it] 42%|█████████████████████████████████████████                                                         | 2986/7135 [2:43:25<3:42:43,  3.22s/it] 42%|█████████████████████████████████████████                                                         | 2987/7135 [2:43:28<3:37:15,  3.14s/it] 42%|█████████████████████████████████████████                                                         | 2988/7135 [2:43:31<3:45:51,  3.27s/it] 42%|█████████████████████████████████████████                                                         | 2989/7135 [2:43:35<3:43:04,  3.23s/it] 42%|█████████████████████████████████████████                                                         | 2990/7135 [2:43:38<3:50:42,  3.34s/it]                                                                                                                                               {'loss': 0.6778, 'grad_norm': 4.9375, 'learning_rate': 3.1924910624059235e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 395.32, 'epoch': 4.19}
 42%|█████████████████████████████████████████                                                         | 2990/7135 [2:43:38<3:50:42,  3.34s/it] 42%|█████████████████████████████████████████                                                         | 2991/7135 [2:43:41<3:35:59,  3.13s/it] 42%|█████████████████████████████████████████                                                         | 2992/7135 [2:43:45<3:52:40,  3.37s/it] 42%|█████████████████████████████████████████                                                         | 2993/7135 [2:43:48<3:58:50,  3.46s/it] 42%|█████████████████████████████████████████                                                         | 2994/7135 [2:43:51<3:49:40,  3.33s/it] 42%|█████████████████████████████████████████▏                                                        | 2995/7135 [2:43:55<3:55:33,  3.41s/it] 42%|█████████████████████████████████████████▏                                                        | 2996/7135 [2:43:58<3:50:34,  3.34s/it] 42%|█████████████████████████████████████████▏                                                        | 2997/7135 [2:44:01<3:46:56,  3.29s/it] 42%|█████████████████████████████████████████▏                                                        | 2998/7135 [2:44:05<3:52:06,  3.37s/it] 42%|█████████████████████████████████████████▏                                                        | 2999/7135 [2:44:08<3:48:37,  3.32s/it] 42%|█████████████████████████████████████████▏                                                        | 3000/7135 [2:44:11<3:39:32,  3.19s/it]                                                                                                                                               {'loss': 0.7223, 'grad_norm': 6.71875, 'learning_rate': 3.1817568829128456e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 408.47, 'epoch': 4.2}
 42%|█████████████████████████████████████████▏                                                        | 3000/7135 [2:44:11<3:39:32,  3.19s/it] 42%|█████████████████████████████████████████▏                                                        | 3001/7135 [2:44:14<3:35:45,  3.13s/it] 42%|█████████████████████████████████████████▏                                                        | 3002/7135 [2:44:17<3:31:44,  3.07s/it] 42%|█████████████████████████████████████████▏                                                        | 3003/7135 [2:44:20<3:34:24,  3.11s/it] 42%|█████████████████████████████████████████▎                                                        | 3004/7135 [2:44:23<3:35:23,  3.13s/it] 42%|█████████████████████████████████████████▎                                                        | 3005/7135 [2:44:27<3:36:29,  3.15s/it] 42%|█████████████████████████████████████████▎                                                        | 3006/7135 [2:44:30<3:38:44,  3.18s/it] 42%|█████████████████████████████████████████▎                                                        | 3007/7135 [2:44:33<3:43:15,  3.25s/it] 42%|█████████████████████████████████████████▎                                                        | 3008/7135 [2:44:37<3:46:06,  3.29s/it] 42%|█████████████████████████████████████████▎                                                        | 3009/7135 [2:44:40<3:46:56,  3.30s/it] 42%|█████████████████████████████████████████▎                                                        | 3010/7135 [2:44:44<3:56:50,  3.45s/it]                                                                                                                                               {'loss': 0.7275, 'grad_norm': 5.09375, 'learning_rate': 3.1710091077580105e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 329.2, 'epoch': 4.22}
 42%|█████████████████████████████████████████▎                                                        | 3010/7135 [2:44:44<3:56:50,  3.45s/it] 42%|█████████████████████████████████████████▎                                                        | 3011/7135 [2:44:46<3:41:44,  3.23s/it] 42%|█████████████████████████████████████████▎                                                        | 3012/7135 [2:44:49<3:29:40,  3.05s/it] 42%|█████████████████████████████████████████▍                                                        | 3013/7135 [2:44:53<3:56:50,  3.45s/it] 42%|█████████████████████████████████████████▍                                                        | 3014/7135 [2:44:57<4:01:11,  3.51s/it] 42%|█████████████████████████████████████████▍                                                        | 3015/7135 [2:45:01<4:03:54,  3.55s/it] 42%|█████████████████████████████████████████▍                                                        | 3016/7135 [2:45:04<3:56:27,  3.44s/it] 42%|█████████████████████████████████████████▍                                                        | 3017/7135 [2:45:07<3:50:15,  3.35s/it] 42%|█████████████████████████████████████████▍                                                        | 3018/7135 [2:45:10<3:45:53,  3.29s/it] 42%|█████████████████████████████████████████▍                                                        | 3019/7135 [2:45:13<3:43:24,  3.26s/it] 42%|█████████████████████████████████████████▍                                                        | 3020/7135 [2:45:16<3:40:30,  3.22s/it]                                                                                                                                               {'loss': 0.8518, 'grad_norm': 4.25, 'learning_rate': 3.1602479512745922e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 434.55, 'epoch': 4.23}
 42%|█████████████████████████████████████████▍                                                        | 3020/7135 [2:45:17<3:40:30,  3.22s/it] 42%|█████████████████████████████████████████▍                                                        | 3021/7135 [2:45:20<3:38:57,  3.19s/it] 42%|█████████████████████████████████████████▌                                                        | 3022/7135 [2:45:23<3:40:01,  3.21s/it] 42%|█████████████████████████████████████████▌                                                        | 3023/7135 [2:45:26<3:36:41,  3.16s/it] 42%|█████████████████████████████████████████▌                                                        | 3024/7135 [2:45:29<3:39:10,  3.20s/it] 42%|█████████████████████████████████████████▌                                                        | 3025/7135 [2:45:32<3:34:12,  3.13s/it] 42%|█████████████████████████████████████████▌                                                        | 3026/7135 [2:45:35<3:34:41,  3.13s/it] 42%|█████████████████████████████████████████▌                                                        | 3027/7135 [2:45:39<3:48:34,  3.34s/it] 42%|█████████████████████████████████████████▌                                                        | 3028/7135 [2:45:42<3:37:06,  3.17s/it] 42%|█████████████████████████████████████████▌                                                        | 3029/7135 [2:45:45<3:43:39,  3.27s/it] 42%|█████████████████████████████████████████▌                                                        | 3030/7135 [2:45:49<3:54:07,  3.42s/it]                                                                                                                                               {'loss': 0.8061, 'grad_norm': 4.78125, 'learning_rate': 3.149473628062615e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 320.4, 'epoch': 4.24}
 42%|█████████████████████████████████████████▌                                                        | 3030/7135 [2:45:49<3:54:07,  3.42s/it] 42%|█████████████████████████████████████████▋                                                        | 3031/7135 [2:45:53<4:00:38,  3.52s/it] 42%|█████████████████████████████████████████▋                                                        | 3032/7135 [2:45:56<3:55:08,  3.44s/it] 43%|█████████████████████████████████████████▋                                                        | 3033/7135 [2:45:59<3:50:45,  3.38s/it] 43%|█████████████████████████████████████████▋                                                        | 3034/7135 [2:46:03<3:52:34,  3.40s/it] 43%|█████████████████████████████████████████▋                                                        | 3035/7135 [2:46:06<3:44:48,  3.29s/it] 43%|█████████████████████████████████████████▋                                                        | 3036/7135 [2:46:09<3:49:20,  3.36s/it] 43%|█████████████████████████████████████████▋                                                        | 3037/7135 [2:46:13<3:46:18,  3.31s/it] 43%|█████████████████████████████████████████▋                                                        | 3038/7135 [2:46:16<3:52:48,  3.41s/it] 43%|█████████████████████████████████████████▋                                                        | 3039/7135 [2:46:19<3:43:51,  3.28s/it] 43%|█████████████████████████████████████████▊                                                        | 3040/7135 [2:46:22<3:40:48,  3.24s/it]                                                                                                                                               {'loss': 0.7926, 'grad_norm': 4.6875, 'learning_rate': 3.138686352984674e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 418.41, 'epoch': 4.26}
 43%|█████████████████████████████████████████▊                                                        | 3040/7135 [2:46:22<3:40:48,  3.24s/it] 43%|█████████████████████████████████████████▊                                                        | 3041/7135 [2:46:26<3:46:25,  3.32s/it] 43%|█████████████████████████████████████████▊                                                        | 3042/7135 [2:46:29<3:45:37,  3.31s/it] 43%|█████████████████████████████████████████▊                                                        | 3043/7135 [2:46:32<3:35:20,  3.16s/it] 43%|█████████████████████████████████████████▊                                                        | 3044/7135 [2:46:35<3:36:49,  3.18s/it] 43%|█████████████████████████████████████████▊                                                        | 3045/7135 [2:46:39<3:41:48,  3.25s/it] 43%|█████████████████████████████████████████▊                                                        | 3046/7135 [2:46:42<3:42:33,  3.27s/it] 43%|█████████████████████████████████████████▊                                                        | 3047/7135 [2:46:45<3:39:56,  3.23s/it] 43%|█████████████████████████████████████████▊                                                        | 3048/7135 [2:46:49<3:45:17,  3.31s/it] 43%|█████████████████████████████████████████▉                                                        | 3049/7135 [2:46:51<3:33:55,  3.14s/it] 43%|█████████████████████████████████████████▉                                                        | 3050/7135 [2:46:54<3:28:22,  3.06s/it]                                                                                                                                               {'loss': 0.7185, 'grad_norm': 4.4375, 'learning_rate': 3.1278863411616538e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 366.25, 'epoch': 4.27}
 43%|█████████████████████████████████████████▉                                                        | 3050/7135 [2:46:54<3:28:22,  3.06s/it] 43%|█████████████████████████████████████████▉                                                        | 3051/7135 [2:46:58<3:37:00,  3.19s/it] 43%|█████████████████████████████████████████▉                                                        | 3052/7135 [2:47:01<3:30:52,  3.10s/it] 43%|█████████████████████████████████████████▉                                                        | 3053/7135 [2:47:04<3:32:57,  3.13s/it] 43%|█████████████████████████████████████████▉                                                        | 3054/7135 [2:47:07<3:35:48,  3.17s/it] 43%|█████████████████████████████████████████▉                                                        | 3055/7135 [2:47:10<3:33:37,  3.14s/it] 43%|█████████████████████████████████████████▉                                                        | 3056/7135 [2:47:14<3:41:36,  3.26s/it] 43%|█████████████████████████████████████████▉                                                        | 3057/7135 [2:47:17<3:45:57,  3.32s/it] 43%|██████████████████████████████████████████                                                        | 3058/7135 [2:47:21<3:53:31,  3.44s/it] 43%|██████████████████████████████████████████                                                        | 3059/7135 [2:47:25<4:08:24,  3.66s/it] 43%|██████████████████████████████████████████                                                        | 3060/7135 [2:47:28<3:56:54,  3.49s/it]                                                                                                                                               {'loss': 1.068, 'grad_norm': 5.65625, 'learning_rate': 3.117073807968436e-06, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 478.0, 'epoch': 4.29}
 43%|██████████████████████████████████████████                                                        | 3060/7135 [2:47:28<3:56:54,  3.49s/it] 43%|██████████████████████████████████████████                                                        | 3061/7135 [2:47:32<3:55:55,  3.47s/it] 43%|██████████████████████████████████████████                                                        | 3062/7135 [2:47:35<4:02:14,  3.57s/it] 43%|██████████████████████████████████████████                                                        | 3063/7135 [2:47:39<3:58:33,  3.52s/it] 43%|██████████████████████████████████████████                                                        | 3064/7135 [2:47:42<3:51:33,  3.41s/it] 43%|██████████████████████████████████████████                                                        | 3065/7135 [2:47:45<3:45:11,  3.32s/it] 43%|██████████████████████████████████████████                                                        | 3066/7135 [2:47:48<3:38:19,  3.22s/it] 43%|██████████████████████████████████████████▏                                                       | 3067/7135 [2:47:51<3:37:44,  3.21s/it] 43%|██████████████████████████████████████████▏                                                       | 3068/7135 [2:47:55<3:42:41,  3.29s/it] 43%|██████████████████████████████████████████▏                                                       | 3069/7135 [2:47:58<3:35:29,  3.18s/it] 43%|██████████████████████████████████████████▏                                                       | 3070/7135 [2:48:01<3:37:36,  3.21s/it]                                                                                                                                               {'loss': 0.7739, 'grad_norm': 4.1875, 'learning_rate': 3.1062489690296043e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 391.64, 'epoch': 4.3}
 43%|██████████████████████████████████████████▏                                                       | 3070/7135 [2:48:01<3:37:36,  3.21s/it] 43%|██████████████████████████████████████████▏                                                       | 3071/7135 [2:48:04<3:27:46,  3.07s/it] 43%|██████████████████████████████████████████▏                                                       | 3072/7135 [2:48:07<3:32:31,  3.14s/it] 43%|██████████████████████████████████████████▏                                                       | 3073/7135 [2:48:10<3:23:55,  3.01s/it] 43%|██████████████████████████████████████████▏                                                       | 3074/7135 [2:48:13<3:23:22,  3.00s/it] 43%|██████████████████████████████████████████▏                                                       | 3075/7135 [2:48:15<3:19:47,  2.95s/it] 43%|██████████████████████████████████████████▏                                                       | 3076/7135 [2:48:18<3:15:51,  2.90s/it] 43%|██████████████████████████████████████████▎                                                       | 3077/7135 [2:48:21<3:14:38,  2.88s/it] 43%|██████████████████████████████████████████▎                                                       | 3078/7135 [2:48:24<3:16:41,  2.91s/it] 43%|██████████████████████████████████████████▎                                                       | 3079/7135 [2:48:27<3:13:32,  2.86s/it] 43%|██████████████████████████████████████████▎                                                       | 3080/7135 [2:48:30<3:19:19,  2.95s/it]                                                                                                                                               {'loss': 0.6646, 'grad_norm': 5.0625, 'learning_rate': 3.0954120402151443e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 347.71, 'epoch': 4.31}
 43%|██████████████████████████████████████████▎                                                       | 3080/7135 [2:48:30<3:19:19,  2.95s/it] 43%|██████████████████████████████████████████▎                                                       | 3081/7135 [2:48:33<3:19:05,  2.95s/it] 43%|██████████████████████████████████████████▎                                                       | 3082/7135 [2:48:36<3:24:50,  3.03s/it] 43%|██████████████████████████████████████████▎                                                       | 3083/7135 [2:48:39<3:25:02,  3.04s/it] 43%|██████████████████████████████████████████▎                                                       | 3084/7135 [2:48:42<3:25:58,  3.05s/it] 43%|██████████████████████████████████████████▎                                                       | 3085/7135 [2:48:46<3:43:37,  3.31s/it] 43%|██████████████████████████████████████████▍                                                       | 3086/7135 [2:48:49<3:42:19,  3.29s/it] 43%|██████████████████████████████████████████▍                                                       | 3087/7135 [2:48:53<3:41:41,  3.29s/it] 43%|██████████████████████████████████████████▍                                                       | 3088/7135 [2:48:56<3:36:01,  3.20s/it] 43%|██████████████████████████████████████████▍                                                       | 3089/7135 [2:48:59<3:38:35,  3.24s/it] 43%|██████████████████████████████████████████▍                                                       | 3090/7135 [2:49:02<3:33:58,  3.17s/it]                                                                                                                                               {'loss': 0.8175, 'grad_norm': 5.4375, 'learning_rate': 3.08456323763614e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 418.84, 'epoch': 4.33}
 43%|██████████████████████████████████████████▍                                                       | 3090/7135 [2:49:02<3:33:58,  3.17s/it] 43%|██████████████████████████████████████████▍                                                       | 3091/7135 [2:49:06<3:45:13,  3.34s/it] 43%|██████████████████████████████████████████▍                                                       | 3092/7135 [2:49:09<3:34:26,  3.18s/it] 43%|██████████████████████████████████████████▍                                                       | 3093/7135 [2:49:12<3:33:42,  3.17s/it] 43%|██████████████████████████████████████████▍                                                       | 3094/7135 [2:49:15<3:40:29,  3.27s/it] 43%|██████████████████████████████████████████▌                                                       | 3095/7135 [2:49:18<3:38:04,  3.24s/it] 43%|██████████████████████████████████████████▌                                                       | 3096/7135 [2:49:22<3:42:28,  3.30s/it] 43%|██████████████████████████████████████████▌                                                       | 3097/7135 [2:49:25<3:39:39,  3.26s/it] 43%|██████████████████████████████████████████▌                                                       | 3098/7135 [2:49:28<3:41:00,  3.28s/it] 43%|██████████████████████████████████████████▌                                                       | 3099/7135 [2:49:31<3:34:35,  3.19s/it] 43%|██████████████████████████████████████████▌                                                       | 3100/7135 [2:49:35<3:39:03,  3.26s/it]                                                                                                                                               {'loss': 0.7486, 'grad_norm': 5.03125, 'learning_rate': 3.073702777640462e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 365.7, 'epoch': 4.34}
 43%|██████████████████████████████████████████▌                                                       | 3100/7135 [2:49:35<3:39:03,  3.26s/it] 43%|██████████████████████████████████████████▌                                                       | 3101/7135 [2:49:38<3:33:41,  3.18s/it] 43%|██████████████████████████████████████████▌                                                       | 3102/7135 [2:49:42<3:47:57,  3.39s/it] 43%|██████████████████████████████████████████▌                                                       | 3103/7135 [2:49:44<3:34:39,  3.19s/it] 44%|██████████████████████████████████████████▋                                                       | 3104/7135 [2:49:49<3:57:42,  3.54s/it] 44%|██████████████████████████████████████████▋                                                       | 3105/7135 [2:49:52<3:51:26,  3.45s/it] 44%|██████████████████████████████████████████▋                                                       | 3106/7135 [2:49:56<4:03:23,  3.62s/it] 44%|██████████████████████████████████████████▋                                                       | 3107/7135 [2:49:59<3:53:07,  3.47s/it] 44%|██████████████████████████████████████████▋                                                       | 3108/7135 [2:50:03<3:52:58,  3.47s/it] 44%|██████████████████████████████████████████▋                                                       | 3109/7135 [2:50:05<3:42:07,  3.31s/it] 44%|██████████████████████████████████████████▋                                                       | 3110/7135 [2:50:09<3:37:45,  3.25s/it]                                                                                                                                               {'loss': 0.7936, 'grad_norm': 6.125, 'learning_rate': 3.0628308768084547e-06, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 583.2, 'epoch': 4.36}
 44%|██████████████████████████████████████████▋                                                       | 3110/7135 [2:50:09<3:37:45,  3.25s/it] 44%|██████████████████████████████████████████▋                                                       | 3111/7135 [2:50:12<3:47:39,  3.39s/it] 44%|██████████████████████████████████████████▋                                                       | 3112/7135 [2:50:15<3:35:53,  3.22s/it] 44%|██████████████████████████████████████████▊                                                       | 3113/7135 [2:50:18<3:33:53,  3.19s/it] 44%|██████████████████████████████████████████▊                                                       | 3114/7135 [2:50:22<3:37:43,  3.25s/it] 44%|██████████████████████████████████████████▊                                                       | 3115/7135 [2:50:25<3:30:40,  3.14s/it] 44%|██████████████████████████████████████████▊                                                       | 3116/7135 [2:50:28<3:29:27,  3.13s/it] 44%|██████████████████████████████████████████▊                                                       | 3117/7135 [2:50:31<3:36:52,  3.24s/it] 44%|██████████████████████████████████████████▊                                                       | 3118/7135 [2:50:34<3:33:08,  3.18s/it] 44%|██████████████████████████████████████████▊                                                       | 3119/7135 [2:50:37<3:36:08,  3.23s/it] 44%|██████████████████████████████████████████▊                                                       | 3120/7135 [2:50:40<3:24:49,  3.06s/it]                                                                                                                                               {'loss': 0.8324, 'grad_norm': 5.5625, 'learning_rate': 3.0519477519486172e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 426.58, 'epoch': 4.37}
 44%|██████████████████████████████████████████▊                                                       | 3120/7135 [2:50:40<3:24:49,  3.06s/it] 44%|██████████████████████████████████████████▊                                                       | 3121/7135 [2:50:43<3:28:16,  3.11s/it] 44%|██████████████████████████████████████████▉                                                       | 3122/7135 [2:50:47<3:32:06,  3.17s/it] 44%|██████████████████████████████████████████▉                                                       | 3123/7135 [2:50:50<3:43:37,  3.34s/it] 44%|██████████████████████████████████████████▉                                                       | 3124/7135 [2:50:54<3:43:12,  3.34s/it] 44%|██████████████████████████████████████████▉                                                       | 3125/7135 [2:50:57<3:48:16,  3.42s/it] 44%|██████████████████████████████████████████▉                                                       | 3126/7135 [2:51:00<3:38:40,  3.27s/it] 44%|██████████████████████████████████████████▉                                                       | 3127/7135 [2:51:03<3:29:19,  3.13s/it] 44%|██████████████████████████████████████████▉                                                       | 3128/7135 [2:51:07<3:47:18,  3.40s/it] 44%|██████████████████████████████████████████▉                                                       | 3129/7135 [2:51:10<3:40:37,  3.30s/it] 44%|██████████████████████████████████████████▉                                                       | 3130/7135 [2:51:14<3:45:09,  3.37s/it]                                                                                                                                               {'loss': 0.7494, 'grad_norm': 3.5625, 'learning_rate': 3.04105362009328e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 410.19, 'epoch': 4.38}
 44%|██████████████████████████████████████████▉                                                       | 3130/7135 [2:51:14<3:45:09,  3.37s/it] 44%|███████████████████████████████████████████                                                       | 3131/7135 [2:51:17<3:37:42,  3.26s/it] 44%|███████████████████████████████████████████                                                       | 3132/7135 [2:51:20<3:36:28,  3.24s/it] 44%|███████████████████████████████████████████                                                       | 3133/7135 [2:51:23<3:24:50,  3.07s/it] 44%|███████████████████████████████████████████                                                       | 3134/7135 [2:51:26<3:24:18,  3.06s/it] 44%|███████████████████████████████████████████                                                       | 3135/7135 [2:51:29<3:24:57,  3.07s/it] 44%|███████████████████████████████████████████                                                       | 3136/7135 [2:51:32<3:23:00,  3.05s/it] 44%|███████████████████████████████████████████                                                       | 3137/7135 [2:51:35<3:33:52,  3.21s/it] 44%|███████████████████████████████████████████                                                       | 3138/7135 [2:51:38<3:29:26,  3.14s/it] 44%|███████████████████████████████████████████                                                       | 3139/7135 [2:51:42<3:44:59,  3.38s/it] 44%|███████████████████████████████████████████▏                                                      | 3140/7135 [2:51:45<3:36:58,  3.26s/it]                                                                                                                                               {'loss': 0.7183, 'grad_norm': 6.21875, 'learning_rate': 3.030148698494274e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 401.05, 'epoch': 4.4}
 44%|███████████████████████████████████████████▏                                                      | 3140/7135 [2:51:45<3:36:58,  3.26s/it] 44%|███████████████████████████████████████████▏                                                      | 3141/7135 [2:51:48<3:35:05,  3.23s/it] 44%|███████████████████████████████████████████▏                                                      | 3142/7135 [2:51:52<3:42:06,  3.34s/it] 44%|███████████████████████████████████████████▏                                                      | 3143/7135 [2:51:55<3:42:46,  3.35s/it] 44%|███████████████████████████████████████████▏                                                      | 3144/7135 [2:51:59<3:43:57,  3.37s/it] 44%|███████████████████████████████████████████▏                                                      | 3145/7135 [2:52:02<3:46:34,  3.41s/it] 44%|███████████████████████████████████████████▏                                                      | 3146/7135 [2:52:06<3:44:37,  3.38s/it] 44%|███████████████████████████████████████████▏                                                      | 3147/7135 [2:52:08<3:34:26,  3.23s/it] 44%|███████████████████████████████████████████▏                                                      | 3148/7135 [2:52:11<3:28:15,  3.13s/it] 44%|███████████████████████████████████████████▎                                                      | 3149/7135 [2:52:14<3:22:04,  3.04s/it] 44%|███████████████████████████████████████████▎                                                      | 3150/7135 [2:52:18<3:28:21,  3.14s/it]                                                                                                                                               {'loss': 0.6325, 'grad_norm': 4.84375, 'learning_rate': 3.0192332046186017e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 354.04, 'epoch': 4.41}
 44%|███████████████████████████████████████████▎                                                      | 3150/7135 [2:52:18<3:28:21,  3.14s/it] 44%|███████████████████████████████████████████▎                                                      | 3151/7135 [2:52:21<3:31:50,  3.19s/it] 44%|███████████████████████████████████████████▎                                                      | 3152/7135 [2:52:24<3:27:14,  3.12s/it] 44%|███████████████████████████████████████████▎                                                      | 3153/7135 [2:52:27<3:29:26,  3.16s/it] 44%|███████████████████████████████████████████▎                                                      | 3154/7135 [2:52:30<3:20:32,  3.02s/it] 44%|███████████████████████████████████████████▎                                                      | 3155/7135 [2:52:33<3:16:53,  2.97s/it] 44%|███████████████████████████████████████████▎                                                      | 3156/7135 [2:52:36<3:27:21,  3.13s/it] 44%|███████████████████████████████████████████▎                                                      | 3157/7135 [2:52:40<3:34:33,  3.24s/it] 44%|███████████████████████████████████████████▍                                                      | 3158/7135 [2:52:42<3:22:09,  3.05s/it] 44%|███████████████████████████████████████████▍                                                      | 3159/7135 [2:52:46<3:28:55,  3.15s/it] 44%|███████████████████████████████████████████▍                                                      | 3160/7135 [2:52:49<3:36:13,  3.26s/it]                                                                                                                                               {'loss': 0.6088, 'grad_norm': 4.90625, 'learning_rate': 3.008307356144099e-06, 'memory/max_active (GiB)': 37.88, 'memory/max_allocated (GiB)': 37.88, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 344.29, 'epoch': 4.43}
 44%|███████████████████████████████████████████▍                                                      | 3160/7135 [2:52:49<3:36:13,  3.26s/it] 44%|███████████████████████████████████████████▍                                                      | 3161/7135 [2:52:53<3:38:18,  3.30s/it] 44%|███████████████████████████████████████████▍                                                      | 3162/7135 [2:52:55<3:23:50,  3.08s/it] 44%|███████████████████████████████████████████▍                                                      | 3163/7135 [2:52:58<3:21:02,  3.04s/it] 44%|███████████████████████████████████████████▍                                                      | 3164/7135 [2:53:01<3:29:27,  3.16s/it] 44%|███████████████████████████████████████████▍                                                      | 3165/7135 [2:53:05<3:37:20,  3.28s/it] 44%|███████████████████████████████████████████▍                                                      | 3166/7135 [2:53:08<3:31:41,  3.20s/it] 44%|███████████████████████████████████████████▍                                                      | 3167/7135 [2:53:11<3:33:42,  3.23s/it] 44%|███████████████████████████████████████████▌                                                      | 3168/7135 [2:53:15<3:37:35,  3.29s/it] 44%|███████████████████████████████████████████▌                                                      | 3169/7135 [2:53:18<3:40:27,  3.34s/it] 44%|███████████████████████████████████████████▌                                                      | 3170/7135 [2:53:21<3:34:46,  3.25s/it]                                                                                                                                               {'loss': 0.7166, 'grad_norm': 4.9375, 'learning_rate': 2.997371370955093e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 388.65, 'epoch': 4.44}
 44%|███████████████████████████████████████████▌                                                      | 3170/7135 [2:53:21<3:34:46,  3.25s/it] 44%|███████████████████████████████████████████▌                                                      | 3171/7135 [2:53:24<3:27:06,  3.13s/it] 44%|███████████████████████████████████████████▌                                                      | 3172/7135 [2:53:27<3:20:33,  3.04s/it] 44%|███████████████████████████████████████████▌                                                      | 3173/7135 [2:53:30<3:11:46,  2.90s/it] 44%|███████████████████████████████████████████▌                                                      | 3174/7135 [2:53:32<3:08:28,  2.86s/it] 44%|███████████████████████████████████████████▌                                                      | 3175/7135 [2:53:35<3:12:29,  2.92s/it] 45%|███████████████████████████████████████████▌                                                      | 3176/7135 [2:53:39<3:21:26,  3.05s/it] 45%|███████████████████████████████████████████▋                                                      | 3177/7135 [2:53:42<3:25:32,  3.12s/it] 45%|███████████████████████████████████████████▋                                                      | 3178/7135 [2:53:45<3:22:56,  3.08s/it] 45%|███████████████████████████████████████████▋                                                      | 3179/7135 [2:53:48<3:23:54,  3.09s/it] 45%|███████████████████████████████████████████▋                                                      | 3180/7135 [2:53:51<3:22:34,  3.07s/it]                                                                                                                                               {'loss': 0.6826, 'grad_norm': 5.96875, 'learning_rate': 2.9864254671380592e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 389.21, 'epoch': 4.45}
 45%|███████████████████████████████████████████▋                                                      | 3180/7135 [2:53:51<3:22:34,  3.07s/it] 45%|███████████████████████████████████████████▋                                                      | 3181/7135 [2:53:54<3:21:10,  3.05s/it] 45%|███████████████████████████████████████████▋                                                      | 3182/7135 [2:53:58<3:40:28,  3.35s/it] 45%|███████████████████████████████████████████▋                                                      | 3183/7135 [2:54:01<3:33:52,  3.25s/it] 45%|███████████████████████████████████████████▋                                                      | 3184/7135 [2:54:05<3:37:10,  3.30s/it] 45%|███████████████████████████████████████████▋                                                      | 3185/7135 [2:54:08<3:34:23,  3.26s/it] 45%|███████████████████████████████████████████▊                                                      | 3186/7135 [2:54:11<3:35:36,  3.28s/it] 45%|███████████████████████████████████████████▊                                                      | 3187/7135 [2:54:15<3:40:47,  3.36s/it] 45%|███████████████████████████████████████████▊                                                      | 3188/7135 [2:54:18<3:37:39,  3.31s/it] 45%|███████████████████████████████████████████▊                                                      | 3189/7135 [2:54:21<3:41:24,  3.37s/it] 45%|███████████████████████████████████████████▊                                                      | 3190/7135 [2:54:24<3:33:44,  3.25s/it]                                                                                                                                               {'loss': 0.7232, 'grad_norm': 5.125, 'learning_rate': 2.975469862977272e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 378.89, 'epoch': 4.47}
 45%|███████████████████████████████████████████▊                                                      | 3190/7135 [2:54:24<3:33:44,  3.25s/it] 45%|███████████████████████████████████████████▊                                                      | 3191/7135 [2:54:27<3:26:10,  3.14s/it] 45%|███████████████████████████████████████████▊                                                      | 3192/7135 [2:54:30<3:17:19,  3.00s/it] 45%|███████████████████████████████████████████▊                                                      | 3193/7135 [2:54:33<3:24:44,  3.12s/it] 45%|███████████████████████████████████████████▊                                                      | 3194/7135 [2:54:36<3:23:21,  3.10s/it] 45%|███████████████████████████████████████████▉                                                      | 3195/7135 [2:54:40<3:35:05,  3.28s/it] 45%|███████████████████████████████████████████▉                                                      | 3196/7135 [2:54:44<3:52:27,  3.54s/it] 45%|███████████████████████████████████████████▉                                                      | 3197/7135 [2:54:48<3:51:01,  3.52s/it] 45%|███████████████████████████████████████████▉                                                      | 3198/7135 [2:54:50<3:36:39,  3.30s/it] 45%|███████████████████████████████████████████▉                                                      | 3199/7135 [2:54:54<3:39:25,  3.34s/it] 45%|███████████████████████████████████████████▉                                                      | 3200/7135 [2:54:57<3:38:34,  3.33s/it]                                                                                                                                               {'loss': 0.7364, 'grad_norm': 7.03125, 'learning_rate': 2.96450477695045e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 429.62, 'epoch': 4.48}
 45%|███████████████████████████████████████████▉                                                      | 3200/7135 [2:54:57<3:38:34,  3.33s/it] 45%|███████████████████████████████████████████▉                                                      | 3201/7135 [2:55:00<3:33:17,  3.25s/it] 45%|███████████████████████████████████████████▉                                                      | 3202/7135 [2:55:03<3:32:23,  3.24s/it] 45%|███████████████████████████████████████████▉                                                      | 3203/7135 [2:55:07<3:39:26,  3.35s/it] 45%|████████████████████████████████████████████                                                      | 3204/7135 [2:55:10<3:40:43,  3.37s/it] 45%|████████████████████████████████████████████                                                      | 3205/7135 [2:55:14<3:37:16,  3.32s/it] 45%|████████████████████████████████████████████                                                      | 3206/7135 [2:55:17<3:35:48,  3.30s/it] 45%|████████████████████████████████████████████                                                      | 3207/7135 [2:55:20<3:29:13,  3.20s/it] 45%|████████████████████████████████████████████                                                      | 3208/7135 [2:55:23<3:24:36,  3.13s/it] 45%|████████████████████████████████████████████                                                      | 3209/7135 [2:55:26<3:19:21,  3.05s/it] 45%|████████████████████████████████████████████                                                      | 3210/7135 [2:55:29<3:19:15,  3.05s/it]                                                                                                                                               {'loss': 0.7746, 'grad_norm': 5.46875, 'learning_rate': 2.9535304277243992e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 388.71, 'epoch': 4.5}
 45%|████████████████████████████████████████████                                                      | 3210/7135 [2:55:29<3:19:15,  3.05s/it] 45%|████████████████████████████████████████████                                                      | 3211/7135 [2:55:32<3:15:51,  2.99s/it] 45%|████████████████████████████████████████████                                                      | 3212/7135 [2:55:34<3:12:41,  2.95s/it] 45%|████████████████████████████████████████████▏                                                     | 3213/7135 [2:55:37<3:13:26,  2.96s/it] 45%|████████████████████████████████████████████▏                                                     | 3214/7135 [2:55:40<3:14:18,  2.97s/it] 45%|████████████████████████████████████████████▏                                                     | 3215/7135 [2:55:43<3:14:42,  2.98s/it] 45%|████████████████████████████████████████████▏                                                     | 3216/7135 [2:55:46<3:06:15,  2.85s/it] 45%|████████████████████████████████████████████▏                                                     | 3217/7135 [2:55:49<3:08:35,  2.89s/it] 45%|████████████████████████████████████████████▏                                                     | 3218/7135 [2:55:52<3:11:26,  2.93s/it] 45%|████████████████████████████████████████████▏                                                     | 3219/7135 [2:55:55<3:18:29,  3.04s/it] 45%|████████████████████████████████████████████▏                                                     | 3220/7135 [2:55:59<3:23:17,  3.12s/it]                                                                                                                                               {'loss': 0.7076, 'grad_norm': 5.875, 'learning_rate': 2.9425470341506545e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 314.71, 'epoch': 4.51}
 45%|████████████████████████████████████████████▏                                                     | 3220/7135 [2:55:59<3:23:17,  3.12s/it] 45%|████████████████████████████████████████████▏                                                     | 3221/7135 [2:56:02<3:23:41,  3.12s/it] 45%|████████████████████████████████████████████▎                                                     | 3222/7135 [2:56:05<3:30:09,  3.22s/it] 45%|████████████████████████████████████████████▎                                                     | 3223/7135 [2:56:08<3:31:47,  3.25s/it] 45%|████████████████████████████████████████████▎                                                     | 3224/7135 [2:56:11<3:25:24,  3.15s/it] 45%|████████████████████████████████████████████▎                                                     | 3225/7135 [2:56:15<3:25:42,  3.16s/it] 45%|████████████████████████████████████████████▎                                                     | 3226/7135 [2:56:18<3:31:12,  3.24s/it] 45%|████████████████████████████████████████████▎                                                     | 3227/7135 [2:56:21<3:34:52,  3.30s/it] 45%|████████████████████████████████████████████▎                                                     | 3228/7135 [2:56:25<3:34:00,  3.29s/it] 45%|████████████████████████████████████████████▎                                                     | 3229/7135 [2:56:28<3:32:24,  3.26s/it] 45%|████████████████████████████████████████████▎                                                     | 3230/7135 [2:56:32<3:41:22,  3.40s/it]                                                                                                                                               {'loss': 0.6724, 'grad_norm': 6.6875, 'learning_rate': 2.931554815261115e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 300.68, 'epoch': 4.52}
 45%|████████████████████████████████████████████▎                                                     | 3230/7135 [2:56:32<3:41:22,  3.40s/it] 45%|████████████████████████████████████████████▍                                                     | 3231/7135 [2:56:35<3:32:42,  3.27s/it] 45%|████████████████████████████████████████████▍                                                     | 3232/7135 [2:56:38<3:26:56,  3.18s/it] 45%|████████████████████████████████████████████▍                                                     | 3233/7135 [2:56:41<3:22:27,  3.11s/it] 45%|████████████████████████████████████████████▍                                                     | 3234/7135 [2:56:44<3:22:14,  3.11s/it] 45%|████████████████████████████████████████████▍                                                     | 3235/7135 [2:56:47<3:18:36,  3.06s/it] 45%|████████████████████████████████████████████▍                                                     | 3236/7135 [2:56:50<3:21:58,  3.11s/it] 45%|████████████████████████████████████████████▍                                                     | 3237/7135 [2:56:53<3:25:31,  3.16s/it] 45%|████████████████████████████████████████████▍                                                     | 3238/7135 [2:56:57<3:34:06,  3.30s/it] 45%|████████████████████████████████████████████▍                                                     | 3239/7135 [2:57:00<3:25:38,  3.17s/it] 45%|████████████████████████████████████████████▌                                                     | 3240/7135 [2:57:03<3:26:11,  3.18s/it]                                                                                                                                               {'loss': 0.7356, 'grad_norm': 4.4375, 'learning_rate': 2.9205539902636727e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 419.71, 'epoch': 4.54}
 45%|████████████████████████████████████████████▌                                                     | 3240/7135 [2:57:03<3:26:11,  3.18s/it] 45%|████████████████████████████████████████████▌                                                     | 3241/7135 [2:57:06<3:28:46,  3.22s/it] 45%|████████████████████████████████████████████▌                                                     | 3242/7135 [2:57:09<3:23:07,  3.13s/it] 45%|████████████████████████████████████████████▌                                                     | 3243/7135 [2:57:12<3:24:39,  3.16s/it] 45%|████████████████████████████████████████████▌                                                     | 3244/7135 [2:57:16<3:31:19,  3.26s/it] 45%|████████████████████████████████████████████▌                                                     | 3245/7135 [2:57:19<3:29:20,  3.23s/it] 45%|████████████████████████████████████████████▌                                                     | 3246/7135 [2:57:22<3:26:48,  3.19s/it] 46%|████████████████████████████████████████████▌                                                     | 3247/7135 [2:57:26<3:37:32,  3.36s/it] 46%|████████████████████████████████████████████▌                                                     | 3248/7135 [2:57:29<3:40:30,  3.40s/it] 46%|████████████████████████████████████████████▋                                                     | 3249/7135 [2:57:33<3:38:02,  3.37s/it] 46%|████████████████████████████████████████████▋                                                     | 3250/7135 [2:57:35<3:23:56,  3.15s/it]                                                                                                                                               {'loss': 0.8385, 'grad_norm': 4.875, 'learning_rate': 2.9095447785378446e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 430.03, 'epoch': 4.55}
 46%|████████████████████████████████████████████▋                                                     | 3250/7135 [2:57:35<3:23:56,  3.15s/it] 46%|████████████████████████████████████████████▋                                                     | 3251/7135 [2:57:38<3:21:42,  3.12s/it] 46%|████████████████████████████████████████████▋                                                     | 3252/7135 [2:57:41<3:22:24,  3.13s/it] 46%|████████████████████████████████████████████▋                                                     | 3253/7135 [2:57:44<3:20:00,  3.09s/it] 46%|████████████████████████████████████████████▋                                                     | 3254/7135 [2:57:48<3:23:44,  3.15s/it] 46%|████████████████████████████████████████████▋                                                     | 3255/7135 [2:57:51<3:21:01,  3.11s/it] 46%|████████████████████████████████████████████▋                                                     | 3256/7135 [2:57:53<3:15:45,  3.03s/it] 46%|████████████████████████████████████████████▋                                                     | 3257/7135 [2:57:56<3:11:03,  2.96s/it] 46%|████████████████████████████████████████████▋                                                     | 3258/7135 [2:58:00<3:24:01,  3.16s/it] 46%|████████████████████████████████████████████▊                                                     | 3259/7135 [2:58:03<3:21:45,  3.12s/it] 46%|████████████████████████████████████████████▊                                                     | 3260/7135 [2:58:06<3:27:56,  3.22s/it]                                                                                                                                               {'loss': 0.8351, 'grad_norm': 3.796875, 'learning_rate': 2.898527399630397e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 346.0, 'epoch': 4.57}
 46%|████████████████████████████████████████████▊                                                     | 3260/7135 [2:58:06<3:27:56,  3.22s/it] 46%|████████████████████████████████████████████▊                                                     | 3261/7135 [2:58:10<3:31:48,  3.28s/it] 46%|████████████████████████████████████████████▊                                                     | 3262/7135 [2:58:13<3:31:09,  3.27s/it] 46%|████████████████████████████████████████████▊                                                     | 3263/7135 [2:58:16<3:30:13,  3.26s/it] 46%|████████████████████████████████████████████▊                                                     | 3264/7135 [2:58:20<3:35:13,  3.34s/it] 46%|████████████████████████████████████████████▊                                                     | 3265/7135 [2:58:23<3:28:13,  3.23s/it] 46%|████████████████████████████████████████████▊                                                     | 3266/7135 [2:58:26<3:18:36,  3.08s/it] 46%|████████████████████████████████████████████▊                                                     | 3267/7135 [2:58:29<3:20:30,  3.11s/it] 46%|████████████████████████████████████████████▉                                                     | 3268/7135 [2:58:32<3:19:48,  3.10s/it] 46%|████████████████████████████████████████████▉                                                     | 3269/7135 [2:58:36<3:32:42,  3.30s/it] 46%|████████████████████████████████████████████▉                                                     | 3270/7135 [2:58:38<3:25:20,  3.19s/it]                                                                                                                                               {'loss': 0.7697, 'grad_norm': 4.59375, 'learning_rate': 2.8875020732509675e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 403.76, 'epoch': 4.58}
 46%|████████████████████████████████████████████▉                                                     | 3270/7135 [2:58:39<3:25:20,  3.19s/it] 46%|████████████████████████████████████████████▉                                                     | 3271/7135 [2:58:41<3:17:06,  3.06s/it] 46%|████████████████████████████████████████████▉                                                     | 3272/7135 [2:58:44<3:11:00,  2.97s/it] 46%|████████████████████████████████████████████▉                                                     | 3273/7135 [2:58:47<3:12:31,  2.99s/it] 46%|████████████████████████████████████████████▉                                                     | 3274/7135 [2:58:50<3:13:17,  3.00s/it] 46%|████████████████████████████████████████████▉                                                     | 3275/7135 [2:58:54<3:22:12,  3.14s/it] 46%|████████████████████████████████████████████▉                                                     | 3276/7135 [2:58:57<3:21:06,  3.13s/it] 46%|█████████████████████████████████████████████                                                     | 3277/7135 [2:59:00<3:21:43,  3.14s/it] 46%|█████████████████████████████████████████████                                                     | 3278/7135 [2:59:03<3:17:20,  3.07s/it] 46%|█████████████████████████████████████████████                                                     | 3279/7135 [2:59:06<3:17:32,  3.07s/it] 46%|█████████████████████████████████████████████                                                     | 3280/7135 [2:59:09<3:20:21,  3.12s/it]                                                                                                                                               {'loss': 0.7257, 'grad_norm': 4.875, 'learning_rate': 2.8764690192676796e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 358.83, 'epoch': 4.59}
 46%|█████████████████████████████████████████████                                                     | 3280/7135 [2:59:09<3:20:21,  3.12s/it] 46%|█████████████████████████████████████████████                                                     | 3281/7135 [2:59:12<3:25:58,  3.21s/it] 46%|█████████████████████████████████████████████                                                     | 3282/7135 [2:59:15<3:21:04,  3.13s/it] 46%|█████████████████████████████████████████████                                                     | 3283/7135 [2:59:19<3:24:12,  3.18s/it] 46%|█████████████████████████████████████████████                                                     | 3284/7135 [2:59:21<3:16:01,  3.05s/it] 46%|█████████████████████████████████████████████                                                     | 3285/7135 [2:59:25<3:16:28,  3.06s/it] 46%|█████████████████████████████████████████████▏                                                    | 3286/7135 [2:59:28<3:20:15,  3.12s/it] 46%|█████████████████████████████████████████████▏                                                    | 3287/7135 [2:59:31<3:25:08,  3.20s/it] 46%|█████████████████████████████████████████████▏                                                    | 3288/7135 [2:59:35<3:29:28,  3.27s/it] 46%|█████████████████████████████████████████████▏                                                    | 3289/7135 [2:59:38<3:26:10,  3.22s/it] 46%|█████████████████████████████████████████████▏                                                    | 3290/7135 [2:59:41<3:22:17,  3.16s/it]                                                                                                                                               {'loss': 0.8332, 'grad_norm': 5.3125, 'learning_rate': 2.865428457702767e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 440.19, 'epoch': 4.61}
 46%|█████████████████████████████████████████████▏                                                    | 3290/7135 [2:59:41<3:22:17,  3.16s/it] 46%|█████████████████████████████████████████████▏                                                    | 3291/7135 [2:59:44<3:25:06,  3.20s/it] 46%|█████████████████████████████████████████████▏                                                    | 3292/7135 [2:59:47<3:20:59,  3.14s/it] 46%|█████████████████████████████████████████████▏                                                    | 3293/7135 [2:59:50<3:12:06,  3.00s/it] 46%|█████████████████████████████████████████████▏                                                    | 3294/7135 [2:59:53<3:09:48,  2.97s/it] 46%|█████████████████████████████████████████████▎                                                    | 3295/7135 [2:59:55<3:07:36,  2.93s/it] 46%|█████████████████████████████████████████████▎                                                    | 3296/7135 [2:59:58<3:06:46,  2.92s/it] 46%|█████████████████████████████████████████████▎                                                    | 3297/7135 [3:00:01<3:06:27,  2.91s/it] 46%|█████████████████████████████████████████████▎                                                    | 3298/7135 [3:00:04<3:10:46,  2.98s/it] 46%|█████████████████████████████████████████████▎                                                    | 3299/7135 [3:00:08<3:23:25,  3.18s/it] 46%|█████████████████████████████████████████████▎                                                    | 3300/7135 [3:00:11<3:28:45,  3.27s/it]                                                                                                                                               {'loss': 0.6761, 'grad_norm': 5.28125, 'learning_rate': 2.854380608728175e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 343.09, 'epoch': 4.62}
 46%|█████████████████████████████████████████████▎                                                    | 3300/7135 [3:00:11<3:28:45,  3.27s/it] 46%|█████████████████████████████████████████████▎                                                    | 3301/7135 [3:00:15<3:28:36,  3.26s/it] 46%|█████████████████████████████████████████████▎                                                    | 3302/7135 [3:00:18<3:28:31,  3.26s/it] 46%|█████████████████████████████████████████████▎                                                    | 3303/7135 [3:00:21<3:22:12,  3.17s/it] 46%|█████████████████████████████████████████████▍                                                    | 3304/7135 [3:00:24<3:20:39,  3.14s/it] 46%|█████████████████████████████████████████████▍                                                    | 3305/7135 [3:00:28<3:29:01,  3.27s/it] 46%|█████████████████████████████████████████████▍                                                    | 3306/7135 [3:00:30<3:20:40,  3.14s/it] 46%|█████████████████████████████████████████████▍                                                    | 3307/7135 [3:00:34<3:20:26,  3.14s/it] 46%|█████████████████████████████████████████████▍                                                    | 3308/7135 [3:00:37<3:32:10,  3.33s/it] 46%|█████████████████████████████████████████████▍                                                    | 3309/7135 [3:00:42<3:51:26,  3.63s/it] 46%|█████████████████████████████████████████████▍                                                    | 3310/7135 [3:00:44<3:33:42,  3.35s/it]                                                                                                                                               {'loss': 0.7146, 'grad_norm': 5.90625, 'learning_rate': 2.8433256926611774e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 437.56, 'epoch': 4.64}
 46%|█████████████████████████████████████████████▍                                                    | 3310/7135 [3:00:44<3:33:42,  3.35s/it] 46%|█████████████████████████████████████████████▍                                                    | 3311/7135 [3:00:47<3:27:10,  3.25s/it] 46%|█████████████████████████████████████████████▍                                                    | 3312/7135 [3:00:51<3:25:58,  3.23s/it] 46%|█████████████████████████████████████████████▌                                                    | 3313/7135 [3:00:54<3:30:55,  3.31s/it] 46%|█████████████████████████████████████████████▌                                                    | 3314/7135 [3:00:57<3:21:19,  3.16s/it] 46%|█████████████████████████████████████████████▌                                                    | 3315/7135 [3:01:00<3:23:36,  3.20s/it] 46%|█████████████████████████████████████████████▌                                                    | 3316/7135 [3:01:04<3:28:12,  3.27s/it] 46%|█████████████████████████████████████████████▌                                                    | 3317/7135 [3:01:07<3:35:03,  3.38s/it] 47%|█████████████████████████████████████████████▌                                                    | 3318/7135 [3:01:11<3:42:52,  3.50s/it] 47%|█████████████████████████████████████████████▌                                                    | 3319/7135 [3:01:15<3:49:28,  3.61s/it] 47%|█████████████████████████████████████████████▌                                                    | 3320/7135 [3:01:18<3:36:04,  3.40s/it]                                                                                                                                               {'loss': 0.7424, 'grad_norm': 4.84375, 'learning_rate': 2.8322639299599826e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 470.04, 'epoch': 4.65}
 47%|█████████████████████████████████████████████▌                                                    | 3320/7135 [3:01:18<3:36:04,  3.40s/it] 47%|█████████████████████████████████████████████▌                                                    | 3321/7135 [3:01:21<3:39:43,  3.46s/it] 47%|█████████████████████████████████████████████▋                                                    | 3322/7135 [3:01:25<3:35:40,  3.39s/it] 47%|█████████████████████████████████████████████▋                                                    | 3323/7135 [3:01:27<3:22:04,  3.18s/it] 47%|█████████████████████████████████████████████▋                                                    | 3324/7135 [3:01:30<3:14:27,  3.06s/it] 47%|█████████████████████████████████████████████▋                                                    | 3325/7135 [3:01:33<3:10:43,  3.00s/it] 47%|█████████████████████████████████████████████▋                                                    | 3326/7135 [3:01:36<3:15:17,  3.08s/it] 47%|█████████████████████████████████████████████▋                                                    | 3327/7135 [3:01:39<3:11:47,  3.02s/it] 47%|█████████████████████████████████████████████▋                                                    | 3328/7135 [3:01:42<3:12:25,  3.03s/it] 47%|█████████████████████████████████████████████▋                                                    | 3329/7135 [3:01:45<3:17:29,  3.11s/it] 47%|█████████████████████████████████████████████▋                                                    | 3330/7135 [3:01:49<3:19:17,  3.14s/it]                                                                                                                                               {'loss': 0.6841, 'grad_norm': 4.5625, 'learning_rate': 2.8211955412193307e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 370.79, 'epoch': 4.66}
 47%|█████████████████████████████████████████████▋                                                    | 3330/7135 [3:01:49<3:19:17,  3.14s/it] 47%|█████████████████████████████████████████████▊                                                    | 3331/7135 [3:01:52<3:17:42,  3.12s/it] 47%|█████████████████████████████████████████████▊                                                    | 3332/7135 [3:01:54<3:09:48,  2.99s/it] 47%|█████████████████████████████████████████████▊                                                    | 3333/7135 [3:01:58<3:17:02,  3.11s/it] 47%|█████████████████████████████████████████████▊                                                    | 3334/7135 [3:02:01<3:19:55,  3.16s/it] 47%|█████████████████████████████████████████████▊                                                    | 3335/7135 [3:02:04<3:22:25,  3.20s/it] 47%|█████████████████████████████████████████████▊                                                    | 3336/7135 [3:02:08<3:22:03,  3.19s/it] 47%|█████████████████████████████████████████████▊                                                    | 3337/7135 [3:02:11<3:26:55,  3.27s/it] 47%|█████████████████████████████████████████████▊                                                    | 3338/7135 [3:02:14<3:22:17,  3.20s/it] 47%|█████████████████████████████████████████████▊                                                    | 3339/7135 [3:02:17<3:17:43,  3.13s/it] 47%|█████████████████████████████████████████████▉                                                    | 3340/7135 [3:02:20<3:12:43,  3.05s/it]                                                                                                                                               {'loss': 0.6508, 'grad_norm': 4.8125, 'learning_rate': 2.810120747166103e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 401.71, 'epoch': 4.68}
 47%|█████████████████████████████████████████████▉                                                    | 3340/7135 [3:02:20<3:12:43,  3.05s/it] 47%|█████████████████████████████████████████████▉                                                    | 3341/7135 [3:02:23<3:13:12,  3.06s/it] 47%|█████████████████████████████████████████████▉                                                    | 3342/7135 [3:02:26<3:20:49,  3.18s/it] 47%|█████████████████████████████████████████████▉                                                    | 3343/7135 [3:02:30<3:25:20,  3.25s/it] 47%|█████████████████████████████████████████████▉                                                    | 3344/7135 [3:02:33<3:22:14,  3.20s/it] 47%|█████████████████████████████████████████████▉                                                    | 3345/7135 [3:02:36<3:21:26,  3.19s/it] 47%|█████████████████████████████████████████████▉                                                    | 3346/7135 [3:02:39<3:23:41,  3.23s/it] 47%|█████████████████████████████████████████████▉                                                    | 3347/7135 [3:02:43<3:35:40,  3.42s/it] 47%|█████████████████████████████████████████████▉                                                    | 3348/7135 [3:02:46<3:28:23,  3.30s/it] 47%|█████████████████████████████████████████████▉                                                    | 3349/7135 [3:02:49<3:22:44,  3.21s/it] 47%|██████████████████████████████████████████████                                                    | 3350/7135 [3:02:52<3:22:02,  3.20s/it]                                                                                                                                               {'loss': 0.7942, 'grad_norm': 5.0625, 'learning_rate': 2.7990397686549137e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 374.72, 'epoch': 4.69}
 47%|██████████████████████████████████████████████                                                    | 3350/7135 [3:02:52<3:22:02,  3.20s/it] 47%|██████████████████████████████████████████████                                                    | 3351/7135 [3:02:56<3:24:53,  3.25s/it] 47%|██████████████████████████████████████████████                                                    | 3352/7135 [3:02:59<3:24:47,  3.25s/it] 47%|██████████████████████████████████████████████                                                    | 3353/7135 [3:03:03<3:31:02,  3.35s/it] 47%|██████████████████████████████████████████████                                                    | 3354/7135 [3:03:07<3:55:26,  3.74s/it] 47%|██████████████████████████████████████████████                                                    | 3355/7135 [3:03:10<3:45:54,  3.59s/it] 47%|██████████████████████████████████████████████                                                    | 3356/7135 [3:03:14<3:34:55,  3.41s/it] 47%|██████████████████████████████████████████████                                                    | 3357/7135 [3:03:17<3:34:01,  3.40s/it] 47%|██████████████████████████████████████████████                                                    | 3358/7135 [3:03:20<3:32:02,  3.37s/it] 47%|██████████████████████████████████████████████▏                                                   | 3359/7135 [3:03:23<3:28:25,  3.31s/it] 47%|██████████████████████████████████████████████▏                                                   | 3360/7135 [3:03:26<3:19:37,  3.17s/it]                                                                                                                                               {'loss': 0.6974, 'grad_norm': 4.0625, 'learning_rate': 2.78795282666371e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 474.15, 'epoch': 4.71}
 47%|██████████████████████████████████████████████▏                                                   | 3360/7135 [3:03:26<3:19:37,  3.17s/it] 47%|██████████████████████████████████████████████▏                                                   | 3361/7135 [3:03:29<3:14:11,  3.09s/it] 47%|██████████████████████████████████████████████▏                                                   | 3362/7135 [3:03:32<3:12:16,  3.06s/it] 47%|██████████████████████████████████████████████▏                                                   | 3363/7135 [3:03:35<3:13:30,  3.08s/it] 47%|██████████████████████████████████████████████▏                                                   | 3364/7135 [3:03:38<3:12:41,  3.07s/it] 47%|██████████████████████████████████████████████▏                                                   | 3365/7135 [3:03:42<3:22:58,  3.23s/it] 47%|██████████████████████████████████████████████▏                                                   | 3366/7135 [3:03:45<3:22:46,  3.23s/it] 47%|██████████████████████████████████████████████▏                                                   | 3367/7135 [3:03:48<3:26:19,  3.29s/it] 47%|██████████████████████████████████████████████▎                                                   | 3368/7135 [3:03:52<3:28:14,  3.32s/it] 47%|██████████████████████████████████████████████▎                                                   | 3369/7135 [3:03:55<3:29:29,  3.34s/it] 47%|██████████████████████████████████████████████▎                                                   | 3370/7135 [3:03:58<3:19:43,  3.18s/it]                                                                                                                                               {'loss': 0.8723, 'grad_norm': 6.0625, 'learning_rate': 2.7768601422893614e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 465.21, 'epoch': 4.72}
 47%|██████████████████████████████████████████████▎                                                   | 3370/7135 [3:03:58<3:19:43,  3.18s/it] 47%|██████████████████████████████████████████████▎                                                   | 3371/7135 [3:04:01<3:17:24,  3.15s/it] 47%|██████████████████████████████████████████████▎                                                   | 3372/7135 [3:04:05<3:24:15,  3.26s/it] 47%|██████████████████████████████████████████████▎                                                   | 3373/7135 [3:04:08<3:22:31,  3.23s/it] 47%|██████████████████████████████████████████████▎                                                   | 3374/7135 [3:04:11<3:15:43,  3.12s/it] 47%|██████████████████████████████████████████████▎                                                   | 3375/7135 [3:04:14<3:18:35,  3.17s/it] 47%|██████████████████████████████████████████████▎                                                   | 3376/7135 [3:04:17<3:17:23,  3.15s/it] 47%|██████████████████████████████████████████████▍                                                   | 3377/7135 [3:04:20<3:16:15,  3.13s/it] 47%|██████████████████████████████████████████████▍                                                   | 3378/7135 [3:04:23<3:15:05,  3.12s/it] 47%|██████████████████████████████████████████████▍                                                   | 3379/7135 [3:04:26<3:14:51,  3.11s/it] 47%|██████████████████████████████████████████████▍                                                   | 3380/7135 [3:04:31<3:49:16,  3.66s/it]                                                                                                                                               {'loss': 0.8186, 'grad_norm': 2.421875, 'learning_rate': 2.7657619367432547e-06, 'memory/max_active (GiB)': 42.47, 'memory/max_allocated (GiB)': 42.47, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 320.78, 'epoch': 4.73}
 47%|██████████████████████████████████████████████▍                                                   | 3380/7135 [3:04:31<3:49:16,  3.66s/it] 47%|██████████████████████████████████████████████▍                                                   | 3381/7135 [3:04:34<3:38:03,  3.49s/it] 47%|██████████████████████████████████████████████▍                                                   | 3382/7135 [3:04:38<3:45:05,  3.60s/it] 47%|██████████████████████████████████████████████▍                                                   | 3383/7135 [3:04:41<3:38:37,  3.50s/it] 47%|██████████████████████████████████████████████▍                                                   | 3384/7135 [3:04:45<3:31:32,  3.38s/it] 47%|██████████████████████████████████████████████▍                                                   | 3385/7135 [3:04:48<3:23:06,  3.25s/it] 47%|██████████████████████████████████████████████▌                                                   | 3386/7135 [3:04:51<3:22:21,  3.24s/it] 47%|██████████████████████████████████████████████▌                                                   | 3387/7135 [3:04:54<3:28:49,  3.34s/it] 47%|██████████████████████████████████████████████▌                                                   | 3388/7135 [3:04:58<3:31:54,  3.39s/it] 47%|██████████████████████████████████████████████▌                                                   | 3389/7135 [3:05:01<3:29:35,  3.36s/it] 48%|██████████████████████████████████████████████▌                                                   | 3390/7135 [3:05:05<3:30:26,  3.37s/it]                                                                                                                                               {'loss': 0.7658, 'grad_norm': 6.03125, 'learning_rate': 2.7546584313468775e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 324.82, 'epoch': 4.75}
 48%|██████████████████████████████████████████████▌                                                   | 3390/7135 [3:05:05<3:30:26,  3.37s/it] 48%|██████████████████████████████████████████████▌                                                   | 3391/7135 [3:05:07<3:18:56,  3.19s/it] 48%|██████████████████████████████████████████████▌                                                   | 3392/7135 [3:05:11<3:20:16,  3.21s/it] 48%|██████████████████████████████████████████████▌                                                   | 3393/7135 [3:05:13<3:12:43,  3.09s/it] 48%|██████████████████████████████████████████████▌                                                   | 3394/7135 [3:05:17<3:31:09,  3.39s/it] 48%|██████████████████████████████████████████████▋                                                   | 3395/7135 [3:05:20<3:22:26,  3.25s/it] 48%|██████████████████████████████████████████████▋                                                   | 3396/7135 [3:05:24<3:35:59,  3.47s/it] 48%|██████████████████████████████████████████████▋                                                   | 3397/7135 [3:05:28<3:35:23,  3.46s/it] 48%|██████████████████████████████████████████████▋                                                   | 3398/7135 [3:05:31<3:30:40,  3.38s/it] 48%|██████████████████████████████████████████████▋                                                   | 3399/7135 [3:05:34<3:28:39,  3.35s/it] 48%|██████████████████████████████████████████████▋                                                   | 3400/7135 [3:05:37<3:20:42,  3.22s/it]                                                                                                                                               {'loss': 0.799, 'grad_norm': 5.5, 'learning_rate': 2.7435498475274107e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 474.53, 'epoch': 4.76}
 48%|██████████████████████████████████████████████▋                                                   | 3400/7135 [3:05:37<3:20:42,  3.22s/it] 48%|██████████████████████████████████████████████▋                                                   | 3401/7135 [3:05:40<3:17:24,  3.17s/it] 48%|██████████████████████████████████████████████▋                                                   | 3402/7135 [3:05:43<3:13:39,  3.11s/it] 48%|██████████████████████████████████████████████▋                                                   | 3403/7135 [3:05:46<3:12:50,  3.10s/it] 48%|██████████████████████████████████████████████▊                                                   | 3404/7135 [3:05:49<3:09:01,  3.04s/it] 48%|██████████████████████████████████████████████▊                                                   | 3405/7135 [3:05:52<3:08:42,  3.04s/it] 48%|██████████████████████████████████████████████▊                                                   | 3406/7135 [3:05:56<3:23:57,  3.28s/it] 48%|██████████████████████████████████████████████▊                                                   | 3407/7135 [3:05:59<3:26:20,  3.32s/it] 48%|██████████████████████████████████████████████▊                                                   | 3408/7135 [3:06:02<3:16:00,  3.16s/it] 48%|██████████████████████████████████████████████▊                                                   | 3409/7135 [3:06:05<3:16:22,  3.16s/it] 48%|██████████████████████████████████████████████▊                                                   | 3410/7135 [3:06:09<3:20:51,  3.24s/it]                                                                                                                                               {'loss': 0.7004, 'grad_norm': 4.96875, 'learning_rate': 2.7324364068133075e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 350.84, 'epoch': 4.78}
 48%|██████████████████████████████████████████████▊                                                   | 3410/7135 [3:06:09<3:20:51,  3.24s/it] 48%|██████████████████████████████████████████████▊                                                   | 3411/7135 [3:06:12<3:17:15,  3.18s/it] 48%|██████████████████████████████████████████████▊                                                   | 3412/7135 [3:06:16<3:27:36,  3.35s/it] 48%|██████████████████████████████████████████████▉                                                   | 3413/7135 [3:06:18<3:17:04,  3.18s/it] 48%|██████████████████████████████████████████████▉                                                   | 3414/7135 [3:06:21<3:12:46,  3.11s/it] 48%|██████████████████████████████████████████████▉                                                   | 3415/7135 [3:06:25<3:18:44,  3.21s/it] 48%|██████████████████████████████████████████████▉                                                   | 3416/7135 [3:06:28<3:12:52,  3.11s/it] 48%|██████████████████████████████████████████████▉                                                   | 3417/7135 [3:06:31<3:22:05,  3.26s/it] 48%|██████████████████████████████████████████████▉                                                   | 3418/7135 [3:06:35<3:24:11,  3.30s/it] 48%|██████████████████████████████████████████████▉                                                   | 3419/7135 [3:06:38<3:27:48,  3.36s/it] 48%|██████████████████████████████████████████████▉                                                   | 3420/7135 [3:06:41<3:25:13,  3.31s/it]                                                                                                                                               {'loss': 1.0262, 'grad_norm': 4.1875, 'learning_rate': 2.721318330829879e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 476.64, 'epoch': 4.79}
 48%|██████████████████████████████████████████████▉                                                   | 3420/7135 [3:06:41<3:25:13,  3.31s/it] 48%|██████████████████████████████████████████████▉                                                   | 3421/7135 [3:06:44<3:17:38,  3.19s/it] 48%|███████████████████████████████████████████████                                                   | 3422/7135 [3:06:47<3:16:22,  3.17s/it] 48%|███████████████████████████████████████████████                                                   | 3423/7135 [3:06:51<3:23:22,  3.29s/it] 48%|███████████████████████████████████████████████                                                   | 3424/7135 [3:06:54<3:21:48,  3.26s/it] 48%|███████████████████████████████████████████████                                                   | 3425/7135 [3:06:57<3:12:23,  3.11s/it] 48%|███████████████████████████████████████████████                                                   | 3426/7135 [3:07:00<3:15:09,  3.16s/it] 48%|███████████████████████████████████████████████                                                   | 3427/7135 [3:07:03<3:16:12,  3.17s/it] 48%|███████████████████████████████████████████████                                                   | 3428/7135 [3:07:06<3:11:32,  3.10s/it] 48%|███████████████████████████████████████████████                                                   | 3429/7135 [3:07:10<3:29:47,  3.40s/it] 48%|███████████████████████████████████████████████                                                   | 3430/7135 [3:07:14<3:28:30,  3.38s/it]                                                                                                                                               {'loss': 0.7515, 'grad_norm': 3.859375, 'learning_rate': 2.710195841294872e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 379.58, 'epoch': 4.8}
 48%|███████████████████████████████████████████████                                                   | 3430/7135 [3:07:14<3:28:30,  3.38s/it] 48%|███████████████████████████████████████████████▏                                                  | 3431/7135 [3:07:17<3:18:17,  3.21s/it] 48%|███████████████████████████████████████████████▏                                                  | 3432/7135 [3:07:19<3:11:19,  3.10s/it] 48%|███████████████████████████████████████████████▏                                                  | 3433/7135 [3:07:23<3:20:28,  3.25s/it] 48%|███████████████████████████████████████████████▏                                                  | 3434/7135 [3:07:26<3:14:48,  3.16s/it] 48%|███████████████████████████████████████████████▏                                                  | 3435/7135 [3:07:29<3:21:00,  3.26s/it] 48%|███████████████████████████████████████████████▏                                                  | 3436/7135 [3:07:33<3:23:27,  3.30s/it] 48%|███████████████████████████████████████████████▏                                                  | 3437/7135 [3:07:36<3:21:10,  3.26s/it] 48%|███████████████████████████████████████████████▏                                                  | 3438/7135 [3:07:39<3:16:53,  3.20s/it] 48%|███████████████████████████████████████████████▏                                                  | 3439/7135 [3:07:43<3:23:01,  3.30s/it] 48%|███████████████████████████████████████████████▏                                                  | 3440/7135 [3:07:46<3:25:40,  3.34s/it]                                                                                                                                               {'loss': 0.7936, 'grad_norm': 5.15625, 'learning_rate': 2.6990691600140502e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 348.0, 'epoch': 4.82}
 48%|███████████████████████████████████████████████▏                                                  | 3440/7135 [3:07:46<3:25:40,  3.34s/it] 48%|███████████████████████████████████████████████▎                                                  | 3441/7135 [3:07:49<3:19:14,  3.24s/it] 48%|███████████████████████████████████████████████▎                                                  | 3442/7135 [3:07:52<3:11:40,  3.11s/it] 48%|███████████████████████████████████████████████▎                                                  | 3443/7135 [3:07:56<3:27:31,  3.37s/it] 48%|███████████████████████████████████████████████▎                                                  | 3444/7135 [3:08:00<3:39:18,  3.57s/it] 48%|███████████████████████████████████████████████▎                                                  | 3445/7135 [3:08:03<3:32:58,  3.46s/it] 48%|███████████████████████████████████████████████▎                                                  | 3446/7135 [3:08:06<3:26:57,  3.37s/it] 48%|███████████████████████████████████████████████▎                                                  | 3447/7135 [3:08:10<3:25:44,  3.35s/it] 48%|███████████████████████████████████████████████▎                                                  | 3448/7135 [3:08:13<3:28:52,  3.40s/it] 48%|███████████████████████████████████████████████▎                                                  | 3449/7135 [3:08:16<3:20:19,  3.26s/it] 48%|███████████████████████████████████████████████▍                                                  | 3450/7135 [3:08:19<3:17:35,  3.22s/it]                                                                                                                                               {'loss': 0.7063, 'grad_norm': 4.9375, 'learning_rate': 2.687938508876769e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 548.93, 'epoch': 4.83}
 48%|███████████████████████████████████████████████▍                                                  | 3450/7135 [3:08:19<3:17:35,  3.22s/it] 48%|███████████████████████████████████████████████▍                                                  | 3451/7135 [3:08:22<3:18:19,  3.23s/it] 48%|███████████████████████████████████████████████▍                                                  | 3452/7135 [3:08:26<3:23:34,  3.32s/it] 48%|███████████████████████████████████████████████▍                                                  | 3453/7135 [3:08:30<3:36:52,  3.53s/it] 48%|███████████████████████████████████████████████▍                                                  | 3454/7135 [3:08:33<3:25:49,  3.36s/it] 48%|███████████████████████████████████████████████▍                                                  | 3455/7135 [3:08:36<3:13:26,  3.15s/it] 48%|███████████████████████████████████████████████▍                                                  | 3456/7135 [3:08:39<3:12:48,  3.14s/it] 48%|███████████████████████████████████████████████▍                                                  | 3457/7135 [3:08:42<3:08:24,  3.07s/it] 48%|███████████████████████████████████████████████▍                                                  | 3458/7135 [3:08:45<3:09:08,  3.09s/it] 48%|███████████████████████████████████████████████▌                                                  | 3459/7135 [3:08:47<3:03:45,  3.00s/it] 48%|███████████████████████████████████████████████▌                                                  | 3460/7135 [3:08:50<2:59:31,  2.93s/it]                                                                                                                                               {'loss': 0.7844, 'grad_norm': 4.6875, 'learning_rate': 2.6768041098515497e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 456.56, 'epoch': 4.85}
 48%|███████████████████████████████████████████████▌                                                  | 3460/7135 [3:08:50<2:59:31,  2.93s/it] 49%|███████████████████████████████████████████████▌                                                  | 3461/7135 [3:08:53<2:59:27,  2.93s/it] 49%|███████████████████████████████████████████████▌                                                  | 3462/7135 [3:08:56<3:01:05,  2.96s/it] 49%|███████████████████████████████████████████████▌                                                  | 3463/7135 [3:08:59<3:04:40,  3.02s/it] 49%|███████████████████████████████████████████████▌                                                  | 3464/7135 [3:09:02<3:03:12,  2.99s/it] 49%|███████████████████████████████████████████████▌                                                  | 3465/7135 [3:09:06<3:08:28,  3.08s/it] 49%|███████████████████████████████████████████████▌                                                  | 3466/7135 [3:09:09<3:10:31,  3.12s/it] 49%|███████████████████████████████████████████████▌                                                  | 3467/7135 [3:09:12<3:17:28,  3.23s/it] 49%|███████████████████████████████████████████████▋                                                  | 3468/7135 [3:09:15<3:09:46,  3.11s/it] 49%|███████████████████████████████████████████████▋                                                  | 3469/7135 [3:09:19<3:19:13,  3.26s/it] 49%|███████████████████████████████████████████████▋                                                  | 3470/7135 [3:09:22<3:19:30,  3.27s/it]                                                                                                                                               {'loss': 0.7102, 'grad_norm': 3.59375, 'learning_rate': 2.6656661849816556e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 372.18, 'epoch': 4.86}
 49%|███████████████████████████████████████████████▋                                                  | 3470/7135 [3:09:22<3:19:30,  3.27s/it] 49%|███████████████████████████████████████████████▋                                                  | 3471/7135 [3:09:25<3:23:13,  3.33s/it] 49%|███████████████████████████████████████████████▋                                                  | 3472/7135 [3:09:29<3:19:34,  3.27s/it] 49%|███████████████████████████████████████████████▋                                                  | 3473/7135 [3:09:32<3:27:10,  3.39s/it] 49%|███████████████████████████████████████████████▋                                                  | 3474/7135 [3:09:36<3:25:51,  3.37s/it] 49%|███████████████████████████████████████████████▋                                                  | 3475/7135 [3:09:39<3:24:19,  3.35s/it] 49%|███████████████████████████████████████████████▋                                                  | 3476/7135 [3:09:42<3:17:11,  3.23s/it] 49%|███████████████████████████████████████████████▊                                                  | 3477/7135 [3:09:45<3:12:20,  3.15s/it] 49%|███████████████████████████████████████████████▊                                                  | 3478/7135 [3:09:48<3:16:13,  3.22s/it] 49%|███████████████████████████████████████████████▊                                                  | 3479/7135 [3:09:52<3:22:48,  3.33s/it] 49%|███████████████████████████████████████████████▊                                                  | 3480/7135 [3:09:54<3:10:32,  3.13s/it]                                                                                                                                               {'loss': 0.7327, 'grad_norm': 4.1875, 'learning_rate': 2.6545249563806647e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 448.98, 'epoch': 4.87}
 49%|███████████████████████████████████████████████▊                                                  | 3480/7135 [3:09:55<3:10:32,  3.13s/it] 49%|███████████████████████████████████████████████▊                                                  | 3481/7135 [3:09:58<3:17:52,  3.25s/it] 49%|███████████████████████████████████████████████▊                                                  | 3482/7135 [3:10:01<3:20:36,  3.29s/it] 49%|███████████████████████████████████████████████▊                                                  | 3483/7135 [3:10:04<3:11:58,  3.15s/it] 49%|███████████████████████████████████████████████▊                                                  | 3484/7135 [3:10:07<3:08:02,  3.09s/it] 49%|███████████████████████████████████████████████▊                                                  | 3485/7135 [3:10:11<3:19:48,  3.28s/it] 49%|███████████████████████████████████████████████▉                                                  | 3486/7135 [3:10:14<3:20:41,  3.30s/it] 49%|███████████████████████████████████████████████▉                                                  | 3487/7135 [3:10:17<3:17:39,  3.25s/it] 49%|███████████████████████████████████████████████▉                                                  | 3488/7135 [3:10:21<3:16:10,  3.23s/it] 49%|███████████████████████████████████████████████▉                                                  | 3489/7135 [3:10:24<3:17:18,  3.25s/it] 49%|███████████████████████████████████████████████▉                                                  | 3490/7135 [3:10:27<3:14:38,  3.20s/it]                                                                                                                                               {'loss': 0.8074, 'grad_norm': 5.5, 'learning_rate': 2.6433806462280343e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 438.21, 'epoch': 4.89}
 49%|███████████████████████████████████████████████▉                                                  | 3490/7135 [3:10:27<3:14:38,  3.20s/it] 49%|███████████████████████████████████████████████▉                                                  | 3491/7135 [3:10:30<3:14:06,  3.20s/it] 49%|███████████████████████████████████████████████▉                                                  | 3492/7135 [3:10:33<3:08:53,  3.11s/it] 49%|███████████████████████████████████████████████▉                                                  | 3493/7135 [3:10:36<2:59:48,  2.96s/it] 49%|███████████████████████████████████████████████▉                                                  | 3494/7135 [3:10:39<3:02:21,  3.00s/it] 49%|████████████████████████████████████████████████                                                  | 3495/7135 [3:10:42<3:01:03,  2.98s/it] 49%|████████████████████████████████████████████████                                                  | 3496/7135 [3:10:44<2:55:45,  2.90s/it] 49%|████████████████████████████████████████████████                                                  | 3497/7135 [3:10:47<2:54:58,  2.89s/it] 49%|████████████████████████████████████████████████                                                  | 3498/7135 [3:10:50<2:58:27,  2.94s/it] 49%|████████████████████████████████████████████████                                                  | 3499/7135 [3:10:55<3:27:18,  3.42s/it] 49%|████████████████████████████████████████████████                                                  | 3500/7135 [3:10:58<3:23:32,  3.36s/it]                                                                                                                                               {'loss': 0.6736, 'grad_norm': 4.25, 'learning_rate': 2.6322334767646775e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 373.39, 'epoch': 4.9}
 49%|████████████████████████████████████████████████                                                  | 3500/7135 [3:10:58<3:23:32,  3.36s/it] 49%|████████████████████████████████████████████████                                                  | 3501/7135 [3:11:02<3:25:28,  3.39s/it] 49%|████████████████████████████████████████████████                                                  | 3502/7135 [3:11:04<3:16:08,  3.24s/it] 49%|████████████████████████████████████████████████                                                  | 3503/7135 [3:11:08<3:15:08,  3.22s/it] 49%|████████████████████████████████████████████████▏                                                 | 3504/7135 [3:11:11<3:12:12,  3.18s/it] 49%|████████████████████████████████████████████████▏                                                 | 3505/7135 [3:11:13<3:02:32,  3.02s/it] 49%|████████████████████████████████████████████████▏                                                 | 3506/7135 [3:11:17<3:05:58,  3.07s/it] 49%|████████████████████████████████████████████████▏                                                 | 3507/7135 [3:11:20<3:12:03,  3.18s/it] 49%|████████████████████████████████████████████████▏                                                 | 3508/7135 [3:11:23<3:14:29,  3.22s/it] 49%|████████████████████████████████████████████████▏                                                 | 3509/7135 [3:11:26<3:13:08,  3.20s/it] 49%|████████████████████████████████████████████████▏                                                 | 3510/7135 [3:11:29<3:07:48,  3.11s/it]                                                                                                                                               {'loss': 0.7016, 'grad_norm': 5.96875, 'learning_rate': 2.621083670288525e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 421.16, 'epoch': 4.92}
 49%|████████████████████████████████████████████████▏                                                 | 3510/7135 [3:11:29<3:07:48,  3.11s/it] 49%|████████████████████████████████████████████████▏                                                 | 3511/7135 [3:11:32<2:58:33,  2.96s/it] 49%|████████████████████████████████████████████████▏                                                 | 3512/7135 [3:11:35<3:07:29,  3.11s/it] 49%|████████████████████████████████████████████████▎                                                 | 3513/7135 [3:11:39<3:10:19,  3.15s/it] 49%|████████████████████████████████████████████████▎                                                 | 3514/7135 [3:11:41<3:04:50,  3.06s/it] 49%|████████████████████████████████████████████████▎                                                 | 3515/7135 [3:11:44<3:01:28,  3.01s/it] 49%|████████████████████████████████████████████████▎                                                 | 3516/7135 [3:11:48<3:06:56,  3.10s/it] 49%|████████████████████████████████████████████████▎                                                 | 3517/7135 [3:11:51<3:11:51,  3.18s/it] 49%|████████████████████████████████████████████████▎                                                 | 3518/7135 [3:11:54<3:07:58,  3.12s/it] 49%|████████████████████████████████████████████████▎                                                 | 3519/7135 [3:11:57<3:13:04,  3.20s/it] 49%|████████████████████████████████████████████████▎                                                 | 3520/7135 [3:12:00<3:07:25,  3.11s/it]                                                                                                                                               {'loss': 0.8335, 'grad_norm': 4.03125, 'learning_rate': 2.609931449150099e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 467.21, 'epoch': 4.93}
 49%|████████████████████████████████████████████████▎                                                 | 3520/7135 [3:12:00<3:07:25,  3.11s/it] 49%|████████████████████████████████████████████████▎                                                 | 3521/7135 [3:12:03<3:06:31,  3.10s/it] 49%|████████████████████████████████████████████████▍                                                 | 3522/7135 [3:12:07<3:09:47,  3.15s/it] 49%|████████████████████████████████████████████████▍                                                 | 3523/7135 [3:12:10<3:12:17,  3.19s/it] 49%|████████████████████████████████████████████████▍                                                 | 3524/7135 [3:12:13<3:06:49,  3.10s/it] 49%|████████████████████████████████████████████████▍                                                 | 3525/7135 [3:12:16<3:05:03,  3.08s/it] 49%|████████████████████████████████████████████████▍                                                 | 3526/7135 [3:12:20<3:21:51,  3.36s/it] 49%|████████████████████████████████████████████████▍                                                 | 3527/7135 [3:12:23<3:16:34,  3.27s/it] 49%|████████████████████████████████████████████████▍                                                 | 3528/7135 [3:12:26<3:14:06,  3.23s/it] 49%|████████████████████████████████████████████████▍                                                 | 3529/7135 [3:12:29<3:06:34,  3.10s/it] 49%|████████████████████████████████████████████████▍                                                 | 3530/7135 [3:12:32<3:05:31,  3.09s/it]                                                                                                                                               {'loss': 0.6851, 'grad_norm': 5.3125, 'learning_rate': 2.598777035748072e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 370.98, 'epoch': 4.94}
 49%|████████████████████████████████████████████████▍                                                 | 3530/7135 [3:12:32<3:05:31,  3.09s/it] 49%|████████████████████████████████████████████████▍                                                 | 3531/7135 [3:12:36<3:16:12,  3.27s/it] 50%|████████████████████████████████████████████████▌                                                 | 3532/7135 [3:12:39<3:19:46,  3.33s/it] 50%|████████████████████████████████████████████████▌                                                 | 3533/7135 [3:12:42<3:14:01,  3.23s/it] 50%|████████████████████████████████████████████████▌                                                 | 3534/7135 [3:12:46<3:18:23,  3.31s/it] 50%|████████████████████████████████████████████████▌                                                 | 3535/7135 [3:12:49<3:17:38,  3.29s/it] 50%|████████████████████████████████████████████████▌                                                 | 3536/7135 [3:12:52<3:21:51,  3.37s/it] 50%|████████████████████████████████████████████████▌                                                 | 3537/7135 [3:12:56<3:22:24,  3.38s/it] 50%|████████████████████████████████████████████████▌                                                 | 3538/7135 [3:12:59<3:22:34,  3.38s/it] 50%|████████████████████████████████████████████████▌                                                 | 3539/7135 [3:13:03<3:24:39,  3.41s/it] 50%|████████████████████████████████████████████████▌                                                 | 3540/7135 [3:13:06<3:19:14,  3.33s/it]                                                                                                                                               {'loss': 0.8771, 'grad_norm': 4.34375, 'learning_rate': 2.587620652524836e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 522.73, 'epoch': 4.96}
 50%|████████████████████████████████████████████████▌                                                 | 3540/7135 [3:13:06<3:19:14,  3.33s/it] 50%|████████████████████████████████████████████████▋                                                 | 3541/7135 [3:13:10<3:28:28,  3.48s/it] 50%|████████████████████████████████████████████████▋                                                 | 3542/7135 [3:13:13<3:20:52,  3.35s/it] 50%|████████████████████████████████████████████████▋                                                 | 3543/7135 [3:13:16<3:18:02,  3.31s/it] 50%|████████████████████████████████████████████████▋                                                 | 3544/7135 [3:13:19<3:22:37,  3.39s/it] 50%|████████████████████████████████████████████████▋                                                 | 3545/7135 [3:13:23<3:19:35,  3.34s/it] 50%|████████████████████████████████████████████████▋                                                 | 3546/7135 [3:13:26<3:25:56,  3.44s/it] 50%|████████████████████████████████████████████████▋                                                 | 3547/7135 [3:13:29<3:20:10,  3.35s/it] 50%|████████████████████████████████████████████████▋                                                 | 3548/7135 [3:13:32<3:11:17,  3.20s/it] 50%|████████████████████████████████████████████████▋                                                 | 3549/7135 [3:13:36<3:12:30,  3.22s/it] 50%|████████████████████████████████████████████████▊                                                 | 3550/7135 [3:13:38<3:02:20,  3.05s/it]                                                                                                                                               {'loss': 0.7585, 'grad_norm': 4.6875, 'learning_rate': 2.5764625219620652e-06, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 620.09, 'epoch': 4.97}
 50%|████████████████████████████████████████████████▊                                                 | 3550/7135 [3:13:38<3:02:20,  3.05s/it] 50%|████████████████████████████████████████████████▊                                                 | 3551/7135 [3:13:42<3:08:57,  3.16s/it] 50%|████████████████████████████████████████████████▊                                                 | 3552/7135 [3:13:45<3:10:04,  3.18s/it] 50%|████████████████████████████████████████████████▊                                                 | 3553/7135 [3:13:48<3:05:48,  3.11s/it] 50%|████████████████████████████████████████████████▊                                                 | 3554/7135 [3:13:51<3:05:03,  3.10s/it] 50%|████████████████████████████████████████████████▊                                                 | 3555/7135 [3:13:54<3:04:41,  3.10s/it] 50%|████████████████████████████████████████████████▊                                                 | 3556/7135 [3:13:58<3:22:20,  3.39s/it] 50%|████████████████████████████████████████████████▊                                                 | 3557/7135 [3:14:01<3:18:23,  3.33s/it] 50%|████████████████████████████████████████████████▊                                                 | 3558/7135 [3:14:04<3:14:59,  3.27s/it] 50%|████████████████████████████████████████████████▉                                                 | 3559/7135 [3:14:08<3:12:26,  3.23s/it] 50%|████████████████████████████████████████████████▉                                                 | 3560/7135 [3:14:11<3:16:55,  3.31s/it]                                                                                                                                               {'loss': 0.7683, 'grad_norm': 4.71875, 'learning_rate': 2.5653028665762804e-06, 'memory/max_active (GiB)': 37.43, 'memory/max_allocated (GiB)': 37.43, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 370.94, 'epoch': 4.99}
 50%|████████████████████████████████████████████████▉                                                 | 3560/7135 [3:14:11<3:16:55,  3.31s/it] 50%|████████████████████████████████████████████████▉                                                 | 3561/7135 [3:14:14<3:07:22,  3.15s/it] 50%|████████████████████████████████████████████████▉                                                 | 3562/7135 [3:14:17<3:00:48,  3.04s/it] 50%|████████████████████████████████████████████████▉                                                 | 3563/7135 [3:14:20<3:07:52,  3.16s/it] 50%|████████████████████████████████████████████████▉                                                 | 3564/7135 [3:14:24<3:23:22,  3.42s/it] 50%|████████████████████████████████████████████████▉                                                 | 3565/7135 [3:14:28<3:30:20,  3.54s/it] 50%|████████████████████████████████████████████████▉                                                 | 3566/7135 [3:14:31<3:16:26,  3.30s/it] 50%|████████████████████████████████████████████████▉                                                 | 3567/7135 [3:14:33<3:02:54,  3.08s/it] 50%|█████████████████████████████████████████████████                                                 | 3568/7135 [3:14:37<3:12:01,  3.23s/it] 50%|█████████████████████████████████████████████████                                                 | 3569/7135 [3:14:40<3:04:16,  3.10s/it] 50%|█████████████████████████████████████████████████                                                 | 3570/7135 [3:14:41<2:33:14,  2.58s/it]                                                                                                                                               {'loss': 0.7058, 'grad_norm': 9.1875, 'learning_rate': 2.5541419089144074e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 1008.4, 'epoch': 5.0}
 50%|█████████████████████████████████████████████████                                                 | 3570/7135 [3:14:41<2:33:14,  2.58s/it][2025-12-23 17:38:47,108] [INFO] [axolotl.core.trainers.base._save:671] [PID:5064] Saving model checkpoint to ./outputs/qwen3-4b-instruct-abd-full-train/checkpoint-3570
 50%|████████████████████████████████████████████████▌                                                | 3571/7135 [3:15:48<21:49:03, 22.04s/it] 50%|████████████████████████████████████████████████▌                                                | 3572/7135 [3:15:51<16:11:50, 16.37s/it] 50%|████████████████████████████████████████████████▌                                                | 3573/7135 [3:15:55<12:15:38, 12.39s/it] 50%|█████████████████████████████████████████████████                                                 | 3574/7135 [3:15:58<9:33:20,  9.66s/it] 50%|█████████████████████████████████████████████████                                                 | 3575/7135 [3:16:02<7:48:04,  7.89s/it] 50%|█████████████████████████████████████████████████                                                 | 3576/7135 [3:16:05<6:24:52,  6.49s/it] 50%|█████████████████████████████████████████████████▏                                                | 3577/7135 [3:16:08<5:18:41,  5.37s/it] 50%|█████████████████████████████████████████████████▏                                                | 3578/7135 [3:16:11<4:38:33,  4.70s/it] 50%|█████████████████████████████████████████████████▏                                                | 3579/7135 [3:16:14<4:13:00,  4.27s/it] 50%|█████████████████████████████████████████████████▏                                                | 3580/7135 [3:16:17<3:57:41,  4.01s/it]                                                                                                                                               {'loss': 0.7995, 'grad_norm': 3.96875, 'learning_rate': 2.5429798715493466e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 335.96, 'epoch': 5.01}
 50%|█████████████████████████████████████████████████▏                                                | 3580/7135 [3:16:17<3:57:41,  4.01s/it] 50%|█████████████████████████████████████████████████▏                                                | 3581/7135 [3:16:21<3:46:13,  3.82s/it] 50%|█████████████████████████████████████████████████▏                                                | 3582/7135 [3:16:24<3:34:30,  3.62s/it] 50%|█████████████████████████████████████████████████▏                                                | 3583/7135 [3:16:28<3:33:45,  3.61s/it] 50%|█████████████████████████████████████████████████▏                                                | 3584/7135 [3:16:30<3:20:18,  3.38s/it] 50%|█████████████████████████████████████████████████▏                                                | 3585/7135 [3:16:34<3:16:05,  3.31s/it] 50%|█████████████████████████████████████████████████▎                                                | 3586/7135 [3:16:37<3:10:33,  3.22s/it] 50%|█████████████████████████████████████████████████▎                                                | 3587/7135 [3:16:40<3:06:26,  3.15s/it] 50%|█████████████████████████████████████████████████▎                                                | 3588/7135 [3:16:43<3:08:18,  3.19s/it] 50%|█████████████████████████████████████████████████▎                                                | 3589/7135 [3:16:47<3:17:10,  3.34s/it] 50%|█████████████████████████████████████████████████▎                                                | 3590/7135 [3:16:50<3:28:09,  3.52s/it]                                                                                                                                               {'loss': 0.7725, 'grad_norm': 6.21875, 'learning_rate': 2.531816977075526e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 313.44, 'epoch': 5.03}
 50%|█████████████████████████████████████████████████▎                                                | 3590/7135 [3:16:51<3:28:09,  3.52s/it] 50%|█████████████████████████████████████████████████▎                                                | 3591/7135 [3:16:54<3:33:47,  3.62s/it] 50%|█████████████████████████████████████████████████▎                                                | 3592/7135 [3:16:57<3:24:59,  3.47s/it] 50%|█████████████████████████████████████████████████▎                                                | 3593/7135 [3:17:00<3:14:15,  3.29s/it] 50%|█████████████████████████████████████████████████▎                                                | 3594/7135 [3:17:04<3:16:17,  3.33s/it] 50%|█████████████████████████████████████████████████▍                                                | 3595/7135 [3:17:07<3:11:33,  3.25s/it] 50%|█████████████████████████████████████████████████▍                                                | 3596/7135 [3:17:10<3:03:49,  3.12s/it] 50%|█████████████████████████████████████████████████▍                                                | 3597/7135 [3:17:12<2:56:03,  2.99s/it] 50%|█████████████████████████████████████████████████▍                                                | 3598/7135 [3:17:16<3:03:03,  3.11s/it] 50%|█████████████████████████████████████████████████▍                                                | 3599/7135 [3:17:19<2:59:38,  3.05s/it] 50%|█████████████████████████████████████████████████▍                                                | 3600/7135 [3:17:22<3:02:42,  3.10s/it]                                                                                                                                               {'loss': 0.7273, 'grad_norm': 6.21875, 'learning_rate': 2.520653448104468e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 341.08, 'epoch': 5.04}
 50%|█████████████████████████████████████████████████▍                                                | 3600/7135 [3:17:22<3:02:42,  3.10s/it] 50%|█████████████████████████████████████████████████▍                                                | 3601/7135 [3:17:25<3:08:02,  3.19s/it] 50%|█████████████████████████████████████████████████▍                                                | 3602/7135 [3:17:29<3:12:39,  3.27s/it] 50%|█████████████████████████████████████████████████▍                                                | 3603/7135 [3:17:32<3:06:42,  3.17s/it] 51%|█████████████████████████████████████████████████▌                                                | 3604/7135 [3:17:35<3:15:06,  3.32s/it] 51%|█████████████████████████████████████████████████▌                                                | 3605/7135 [3:17:38<3:10:20,  3.24s/it] 51%|█████████████████████████████████████████████████▌                                                | 3606/7135 [3:17:42<3:11:08,  3.25s/it] 51%|█████████████████████████████████████████████████▌                                                | 3607/7135 [3:17:45<3:14:09,  3.30s/it] 51%|█████████████████████████████████████████████████▌                                                | 3608/7135 [3:17:48<3:06:41,  3.18s/it] 51%|█████████████████████████████████████████████████▌                                                | 3609/7135 [3:17:51<3:05:29,  3.16s/it] 51%|█████████████████████████████████████████████████▌                                                | 3610/7135 [3:17:54<2:57:04,  3.01s/it]                                                                                                                                               {'loss': 0.8098, 'grad_norm': 5.28125, 'learning_rate': 2.50948950726035e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 435.39, 'epoch': 5.06}
 51%|█████████████████████████████████████████████████▌                                                | 3610/7135 [3:17:54<2:57:04,  3.01s/it] 51%|█████████████████████████████████████████████████▌                                                | 3611/7135 [3:17:57<2:59:54,  3.06s/it] 51%|█████████████████████████████████████████████████▌                                                | 3612/7135 [3:18:00<3:02:51,  3.11s/it] 51%|█████████████████████████████████████████████████▌                                                | 3613/7135 [3:18:03<3:01:18,  3.09s/it] 51%|█████████████████████████████████████████████████▋                                                | 3614/7135 [3:18:06<3:02:57,  3.12s/it] 51%|█████████████████████████████████████████████████▋                                                | 3615/7135 [3:18:09<2:54:19,  2.97s/it] 51%|█████████████████████████████████████████████████▋                                                | 3616/7135 [3:18:12<2:57:52,  3.03s/it] 51%|█████████████████████████████████████████████████▋                                                | 3617/7135 [3:18:15<2:57:36,  3.03s/it] 51%|█████████████████████████████████████████████████▋                                                | 3618/7135 [3:18:19<3:07:03,  3.19s/it] 51%|█████████████████████████████████████████████████▋                                                | 3619/7135 [3:18:22<3:08:09,  3.21s/it] 51%|█████████████████████████████████████████████████▋                                                | 3620/7135 [3:18:25<3:04:06,  3.14s/it]                                                                                                                                               {'loss': 0.6158, 'grad_norm': 4.84375, 'learning_rate': 2.4983253771755593e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 445.45, 'epoch': 5.07}
 51%|█████████████████████████████████████████████████▋                                                | 3620/7135 [3:18:25<3:04:06,  3.14s/it] 51%|█████████████████████████████████████████████████▋                                                | 3621/7135 [3:18:28<3:05:11,  3.16s/it] 51%|█████████████████████████████████████████████████▋                                                | 3622/7135 [3:18:31<2:56:26,  3.01s/it] 51%|█████████████████████████████████████████████████▊                                                | 3623/7135 [3:18:34<2:54:17,  2.98s/it] 51%|█████████████████████████████████████████████████▊                                                | 3624/7135 [3:18:37<2:57:02,  3.03s/it] 51%|█████████████████████████████████████████████████▊                                                | 3625/7135 [3:18:40<2:55:10,  2.99s/it] 51%|█████████████████████████████████████████████████▊                                                | 3626/7135 [3:18:43<2:56:35,  3.02s/it] 51%|█████████████████████████████████████████████████▊                                                | 3627/7135 [3:18:46<3:03:38,  3.14s/it] 51%|█████████████████████████████████████████████████▊                                                | 3628/7135 [3:18:49<3:04:09,  3.15s/it] 51%|█████████████████████████████████████████████████▊                                                | 3629/7135 [3:18:52<2:59:33,  3.07s/it] 51%|█████████████████████████████████████████████████▊                                                | 3630/7135 [3:18:56<3:14:53,  3.34s/it]                                                                                                                                               {'loss': 0.7007, 'grad_norm': 3.75, 'learning_rate': 2.487161280486259e-06, 'memory/max_active (GiB)': 37.88, 'memory/max_allocated (GiB)': 37.88, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 305.77, 'epoch': 5.08}
 51%|█████████████████████████████████████████████████▊                                                | 3630/7135 [3:18:56<3:14:53,  3.34s/it] 51%|█████████████████████████████████████████████████▊                                                | 3631/7135 [3:19:00<3:12:56,  3.30s/it] 51%|█████████████████████████████████████████████████▉                                                | 3632/7135 [3:19:03<3:09:01,  3.24s/it] 51%|█████████████████████████████████████████████████▉                                                | 3633/7135 [3:19:06<3:09:18,  3.24s/it] 51%|█████████████████████████████████████████████████▉                                                | 3634/7135 [3:19:09<3:09:25,  3.25s/it] 51%|█████████████████████████████████████████████████▉                                                | 3635/7135 [3:19:12<3:07:03,  3.21s/it] 51%|█████████████████████████████████████████████████▉                                                | 3636/7135 [3:19:15<3:04:19,  3.16s/it] 51%|█████████████████████████████████████████████████▉                                                | 3637/7135 [3:19:18<2:53:44,  2.98s/it] 51%|█████████████████████████████████████████████████▉                                                | 3638/7135 [3:19:21<2:51:47,  2.95s/it] 51%|█████████████████████████████████████████████████▉                                                | 3639/7135 [3:19:24<2:51:30,  2.94s/it] 51%|█████████████████████████████████████████████████▉                                                | 3640/7135 [3:19:27<2:57:00,  3.04s/it]                                                                                                                                               {'loss': 0.8581, 'grad_norm': 5.65625, 'learning_rate': 2.475997439827945e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 383.74, 'epoch': 5.1}
 51%|█████████████████████████████████████████████████▉                                                | 3640/7135 [3:19:27<2:57:00,  3.04s/it] 51%|██████████████████████████████████████████████████                                                | 3641/7135 [3:19:30<2:53:29,  2.98s/it] 51%|██████████████████████████████████████████████████                                                | 3642/7135 [3:19:33<2:58:25,  3.06s/it] 51%|██████████████████████████████████████████████████                                                | 3643/7135 [3:19:36<3:02:27,  3.14s/it] 51%|██████████████████████████████████████████████████                                                | 3644/7135 [3:19:40<3:04:15,  3.17s/it] 51%|██████████████████████████████████████████████████                                                | 3645/7135 [3:19:43<3:01:25,  3.12s/it] 51%|██████████████████████████████████████████████████                                                | 3646/7135 [3:19:46<3:00:50,  3.11s/it] 51%|██████████████████████████████████████████████████                                                | 3647/7135 [3:19:49<3:07:48,  3.23s/it] 51%|██████████████████████████████████████████████████                                                | 3648/7135 [3:19:52<3:00:29,  3.11s/it] 51%|██████████████████████████████████████████████████                                                | 3649/7135 [3:19:55<3:07:50,  3.23s/it] 51%|██████████████████████████████████████████████████▏                                               | 3650/7135 [3:19:59<3:10:59,  3.29s/it]                                                                                                                                               {'loss': 0.7491, 'grad_norm': 6.40625, 'learning_rate': 2.4648340778310104e-06, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 391.16, 'epoch': 5.11}
 51%|██████████████████████████████████████████████████▏                                               | 3650/7135 [3:19:59<3:10:59,  3.29s/it] 51%|██████████████████████████████████████████████████▏                                               | 3651/7135 [3:20:03<3:23:15,  3.50s/it] 51%|██████████████████████████████████████████████████▏                                               | 3652/7135 [3:20:06<3:17:12,  3.40s/it] 51%|██████████████████████████████████████████████████▏                                               | 3653/7135 [3:20:09<3:07:51,  3.24s/it] 51%|██████████████████████████████████████████████████▏                                               | 3654/7135 [3:20:13<3:15:46,  3.37s/it] 51%|██████████████████████████████████████████████████▏                                               | 3655/7135 [3:20:16<3:19:44,  3.44s/it] 51%|██████████████████████████████████████████████████▏                                               | 3656/7135 [3:20:19<3:08:42,  3.25s/it] 51%|██████████████████████████████████████████████████▏                                               | 3657/7135 [3:20:22<3:04:31,  3.18s/it] 51%|██████████████████████████████████████████████████▏                                               | 3658/7135 [3:20:25<3:01:37,  3.13s/it] 51%|██████████████████████████████████████████████████▎                                               | 3659/7135 [3:20:28<3:04:37,  3.19s/it] 51%|██████████████████████████████████████████████████▎                                               | 3660/7135 [3:20:31<2:57:56,  3.07s/it]                                                                                                                                               {'loss': 0.7674, 'grad_norm': 4.5, 'learning_rate': 2.4536714171163e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 463.82, 'epoch': 5.13}
 51%|██████████████████████████████████████████████████▎                                               | 3660/7135 [3:20:31<2:57:56,  3.07s/it] 51%|██████████████████████████████████████████████████▎                                               | 3661/7135 [3:20:35<3:02:19,  3.15s/it] 51%|██████████████████████████████████████████████████▎                                               | 3662/7135 [3:20:38<3:02:58,  3.16s/it] 51%|██████████████████████████████████████████████████▎                                               | 3663/7135 [3:20:41<3:03:28,  3.17s/it] 51%|██████████████████████████████████████████████████▎                                               | 3664/7135 [3:20:44<3:05:15,  3.20s/it] 51%|██████████████████████████████████████████████████▎                                               | 3665/7135 [3:20:47<3:04:17,  3.19s/it] 51%|██████████████████████████████████████████████████▎                                               | 3666/7135 [3:20:50<2:59:21,  3.10s/it] 51%|██████████████████████████████████████████████████▎                                               | 3667/7135 [3:20:53<2:56:06,  3.05s/it] 51%|██████████████████████████████████████████████████▍                                               | 3668/7135 [3:20:56<2:54:46,  3.02s/it] 51%|██████████████████████████████████████████████████▍                                               | 3669/7135 [3:21:00<3:00:48,  3.13s/it] 51%|██████████████████████████████████████████████████▍                                               | 3670/7135 [3:21:03<2:59:26,  3.11s/it]                                                                                                                                               {'loss': 0.8494, 'grad_norm': 4.9375, 'learning_rate': 2.442509680290674e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 375.49, 'epoch': 5.14}
 51%|██████████████████████████████████████████████████▍                                               | 3670/7135 [3:21:03<2:59:26,  3.11s/it] 51%|██████████████████████████████████████████████████▍                                               | 3671/7135 [3:21:06<2:56:50,  3.06s/it] 51%|██████████████████████████████████████████████████▍                                               | 3672/7135 [3:21:09<2:57:33,  3.08s/it] 51%|██████████████████████████████████████████████████▍                                               | 3673/7135 [3:21:12<3:00:25,  3.13s/it] 51%|██████████████████████████████████████████████████▍                                               | 3674/7135 [3:21:15<2:57:38,  3.08s/it] 52%|██████████████████████████████████████████████████▍                                               | 3675/7135 [3:21:18<2:58:36,  3.10s/it] 52%|██████████████████████████████████████████████████▍                                               | 3676/7135 [3:21:21<3:03:21,  3.18s/it] 52%|██████████████████████████████████████████████████▌                                               | 3677/7135 [3:21:25<3:04:38,  3.20s/it] 52%|██████████████████████████████████████████████████▌                                               | 3678/7135 [3:21:28<3:04:37,  3.20s/it] 52%|██████████████████████████████████████████████████▌                                               | 3679/7135 [3:21:32<3:17:11,  3.42s/it] 52%|██████████████████████████████████████████████████▌                                               | 3680/7135 [3:21:35<3:09:42,  3.29s/it]                                                                                                                                               {'loss': 0.7025, 'grad_norm': 5.6875, 'learning_rate': 2.4313490899425694e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 364.12, 'epoch': 5.15}
 52%|██████████████████████████████████████████████████▌                                               | 3680/7135 [3:21:35<3:09:42,  3.29s/it] 52%|██████████████████████████████████████████████████▌                                               | 3681/7135 [3:21:39<3:18:12,  3.44s/it] 52%|██████████████████████████████████████████████████▌                                               | 3682/7135 [3:21:42<3:20:05,  3.48s/it] 52%|██████████████████████████████████████████████████▌                                               | 3683/7135 [3:21:45<3:17:23,  3.43s/it] 52%|██████████████████████████████████████████████████▌                                               | 3684/7135 [3:21:49<3:23:20,  3.54s/it] 52%|██████████████████████████████████████████████████▌                                               | 3685/7135 [3:21:53<3:31:41,  3.68s/it] 52%|██████████████████████████████████████████████████▋                                               | 3686/7135 [3:21:57<3:29:38,  3.65s/it] 52%|██████████████████████████████████████████████████▋                                               | 3687/7135 [3:22:00<3:15:02,  3.39s/it] 52%|██████████████████████████████████████████████████▋                                               | 3688/7135 [3:22:03<3:12:10,  3.35s/it] 52%|██████████████████████████████████████████████████▋                                               | 3689/7135 [3:22:06<3:11:01,  3.33s/it] 52%|██████████████████████████████████████████████████▋                                               | 3690/7135 [3:22:09<3:06:28,  3.25s/it]                                                                                                                                               {'loss': 0.7543, 'grad_norm': 5.6875, 'learning_rate': 2.420189868637559e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 424.32, 'epoch': 5.17}
 52%|██████████████████████████████████████████████████▋                                               | 3690/7135 [3:22:09<3:06:28,  3.25s/it] 52%|██████████████████████████████████████████████████▋                                               | 3691/7135 [3:22:12<3:03:10,  3.19s/it] 52%|██████████████████████████████████████████████████▋                                               | 3692/7135 [3:22:15<2:55:39,  3.06s/it] 52%|██████████████████████████████████████████████████▋                                               | 3693/7135 [3:22:18<2:54:27,  3.04s/it] 52%|██████████████████████████████████████████████████▋                                               | 3694/7135 [3:22:22<3:07:35,  3.27s/it] 52%|██████████████████████████████████████████████████▊                                               | 3695/7135 [3:22:25<3:08:44,  3.29s/it] 52%|██████████████████████████████████████████████████▊                                               | 3696/7135 [3:22:28<2:58:40,  3.12s/it] 52%|██████████████████████████████████████████████████▊                                               | 3697/7135 [3:22:31<3:01:55,  3.18s/it] 52%|██████████████████████████████████████████████████▊                                               | 3698/7135 [3:22:34<3:02:33,  3.19s/it] 52%|██████████████████████████████████████████████████▊                                               | 3699/7135 [3:22:37<2:58:30,  3.12s/it] 52%|██████████████████████████████████████████████████▊                                               | 3700/7135 [3:22:40<2:53:41,  3.03s/it]                                                                                                                                               {'loss': 0.7447, 'grad_norm': 4.6875, 'learning_rate': 2.409032238913913e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 425.72, 'epoch': 5.18}
 52%|██████████████████████████████████████████████████▊                                               | 3700/7135 [3:22:40<2:53:41,  3.03s/it] 52%|██████████████████████████████████████████████████▊                                               | 3701/7135 [3:22:43<2:51:22,  2.99s/it] 52%|██████████████████████████████████████████████████▊                                               | 3702/7135 [3:22:46<2:53:47,  3.04s/it] 52%|██████████████████████████████████████████████████▊                                               | 3703/7135 [3:22:49<2:54:14,  3.05s/it] 52%|██████████████████████████████████████████████████▊                                               | 3704/7135 [3:22:52<2:56:57,  3.09s/it] 52%|██████████████████████████████████████████████████▉                                               | 3705/7135 [3:22:55<2:52:40,  3.02s/it] 52%|██████████████████████████████████████████████████▉                                               | 3706/7135 [3:22:59<2:57:55,  3.11s/it] 52%|██████████████████████████████████████████████████▉                                               | 3707/7135 [3:23:02<2:56:22,  3.09s/it] 52%|██████████████████████████████████████████████████▉                                               | 3708/7135 [3:23:05<2:55:03,  3.06s/it] 52%|██████████████████████████████████████████████████▉                                               | 3709/7135 [3:23:07<2:45:47,  2.90s/it] 52%|██████████████████████████████████████████████████▉                                               | 3710/7135 [3:23:10<2:47:42,  2.94s/it]                                                                                                                                               {'loss': 0.7302, 'grad_norm': 5.4375, 'learning_rate': 2.3978764232781657e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 346.54, 'epoch': 5.2}
 52%|██████████████████████████████████████████████████▉                                               | 3710/7135 [3:23:10<2:47:42,  2.94s/it] 52%|██████████████████████████████████████████████████▉                                               | 3711/7135 [3:23:14<3:03:43,  3.22s/it] 52%|██████████████████████████████████████████████████▉                                               | 3712/7135 [3:23:17<3:00:48,  3.17s/it] 52%|██████████████████████████████████████████████████▉                                               | 3713/7135 [3:23:20<2:57:42,  3.12s/it] 52%|███████████████████████████████████████████████████                                               | 3714/7135 [3:23:23<2:56:16,  3.09s/it] 52%|███████████████████████████████████████████████████                                               | 3715/7135 [3:23:26<2:52:34,  3.03s/it] 52%|███████████████████████████████████████████████████                                               | 3716/7135 [3:23:29<2:55:37,  3.08s/it] 52%|███████████████████████████████████████████████████                                               | 3717/7135 [3:23:33<3:00:11,  3.16s/it] 52%|███████████████████████████████████████████████████                                               | 3718/7135 [3:23:36<2:56:27,  3.10s/it] 52%|███████████████████████████████████████████████████                                               | 3719/7135 [3:23:38<2:51:14,  3.01s/it] 52%|███████████████████████████████████████████████████                                               | 3720/7135 [3:23:42<3:09:29,  3.33s/it]                                                                                                                                               {'loss': 0.604, 'grad_norm': 4.5, 'learning_rate': 2.3867226442006714e-06, 'memory/max_active (GiB)': 42.47, 'memory/max_allocated (GiB)': 42.47, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 274.63, 'epoch': 5.21}
 52%|███████████████████████████████████████████████████                                               | 3720/7135 [3:23:42<3:09:29,  3.33s/it] 52%|███████████████████████████████████████████████████                                               | 3721/7135 [3:23:46<3:10:04,  3.34s/it] 52%|███████████████████████████████████████████████████                                               | 3722/7135 [3:23:49<3:12:16,  3.38s/it] 52%|███████████████████████████████████████████████████▏                                              | 3723/7135 [3:23:53<3:12:40,  3.39s/it] 52%|███████████████████████████████████████████████████▏                                              | 3724/7135 [3:23:57<3:20:57,  3.53s/it] 52%|███████████████████████████████████████████████████▏                                              | 3725/7135 [3:24:00<3:17:03,  3.47s/it] 52%|███████████████████████████████████████████████████▏                                              | 3726/7135 [3:24:03<3:11:06,  3.36s/it] 52%|███████████████████████████████████████████████████▏                                              | 3727/7135 [3:24:06<3:05:26,  3.26s/it] 52%|███████████████████████████████████████████████████▏                                              | 3728/7135 [3:24:09<2:57:33,  3.13s/it] 52%|███████████████████████████████████████████████████▏                                              | 3729/7135 [3:24:12<2:58:03,  3.14s/it] 52%|███████████████████████████████████████████████████▏                                              | 3730/7135 [3:24:15<2:58:48,  3.15s/it]                                                                                                                                               {'loss': 0.7918, 'grad_norm': 3.421875, 'learning_rate': 2.375571124111172e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 402.05, 'epoch': 5.22}
 52%|███████████████████████████████████████████████████▏                                              | 3730/7135 [3:24:15<2:58:48,  3.15s/it] 52%|███████████████████████████████████████████████████▏                                              | 3731/7135 [3:24:19<3:03:02,  3.23s/it] 52%|███████████████████████████████████████████████████▎                                              | 3732/7135 [3:24:22<3:04:14,  3.25s/it] 52%|███████████████████████████████████████████████████▎                                              | 3733/7135 [3:24:25<3:01:18,  3.20s/it] 52%|███████████████████████████████████████████████████▎                                              | 3734/7135 [3:24:28<2:59:43,  3.17s/it] 52%|███████████████████████████████████████████████████▎                                              | 3735/7135 [3:24:31<3:01:23,  3.20s/it] 52%|███████████████████████████████████████████████████▎                                              | 3736/7135 [3:24:35<3:05:26,  3.27s/it] 52%|███████████████████████████████████████████████████▎                                              | 3737/7135 [3:24:38<3:07:04,  3.30s/it] 52%|███████████████████████████████████████████████████▎                                              | 3738/7135 [3:24:41<3:04:29,  3.26s/it] 52%|███████████████████████████████████████████████████▎                                              | 3739/7135 [3:24:46<3:20:38,  3.54s/it] 52%|███████████████████████████████████████████████████▎                                              | 3740/7135 [3:24:49<3:12:49,  3.41s/it]                                                                                                                                               {'loss': 0.6729, 'grad_norm': 5.25, 'learning_rate': 2.3644220853943613e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 441.34, 'epoch': 5.24}
 52%|███████████████████████████████████████████████████▎                                              | 3740/7135 [3:24:49<3:12:49,  3.41s/it] 52%|███████████████████████████████████████████████████▍                                              | 3741/7135 [3:24:52<3:09:07,  3.34s/it] 52%|███████████████████████████████████████████████████▍                                              | 3742/7135 [3:24:56<3:15:52,  3.46s/it] 52%|███████████████████████████████████████████████████▍                                              | 3743/7135 [3:24:58<3:07:00,  3.31s/it] 52%|███████████████████████████████████████████████████▍                                              | 3744/7135 [3:25:03<3:24:30,  3.62s/it] 52%|███████████████████████████████████████████████████▍                                              | 3745/7135 [3:25:06<3:13:34,  3.43s/it] 53%|███████████████████████████████████████████████████▍                                              | 3746/7135 [3:25:09<3:14:18,  3.44s/it] 53%|███████████████████████████████████████████████████▍                                              | 3747/7135 [3:25:12<3:03:19,  3.25s/it] 53%|███████████████████████████████████████████████████▍                                              | 3748/7135 [3:25:16<3:07:15,  3.32s/it] 53%|███████████████████████████████████████████████████▍                                              | 3749/7135 [3:25:19<3:06:13,  3.30s/it] 53%|███████████████████████████████████████████████████▌                                              | 3750/7135 [3:25:22<2:58:34,  3.17s/it]                                                                                                                                               {'loss': 0.7931, 'grad_norm': 4.65625, 'learning_rate': 2.353275750385447e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 410.09, 'epoch': 5.25}
 53%|███████████████████████████████████████████████████▌                                              | 3750/7135 [3:25:22<2:58:34,  3.17s/it] 53%|███████████████████████████████████████████████████▌                                              | 3751/7135 [3:25:24<2:51:17,  3.04s/it] 53%|███████████████████████████████████████████████████▌                                              | 3752/7135 [3:25:28<2:56:10,  3.12s/it] 53%|███████████████████████████████████████████████████▌                                              | 3753/7135 [3:25:31<2:51:06,  3.04s/it] 53%|███████████████████████████████████████████████████▌                                              | 3754/7135 [3:25:34<2:53:51,  3.09s/it] 53%|███████████████████████████████████████████████████▌                                              | 3755/7135 [3:25:38<3:05:48,  3.30s/it] 53%|███████████████████████████████████████████████████▌                                              | 3756/7135 [3:25:40<2:58:05,  3.16s/it] 53%|███████████████████████████████████████████████████▌                                              | 3757/7135 [3:25:43<2:49:21,  3.01s/it] 53%|███████████████████████████████████████████████████▌                                              | 3758/7135 [3:25:47<2:58:35,  3.17s/it] 53%|███████████████████████████████████████████████████▋                                              | 3759/7135 [3:25:51<3:14:27,  3.46s/it] 53%|███████████████████████████████████████████████████▋                                              | 3760/7135 [3:25:54<3:09:01,  3.36s/it]                                                                                                                                               {'loss': 0.9975, 'grad_norm': 2.875, 'learning_rate': 2.3421323413657233e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 506.3, 'epoch': 5.27}
 53%|███████████████████████████████████████████████████▋                                              | 3760/7135 [3:25:54<3:09:01,  3.36s/it] 53%|███████████████████████████████████████████████████▋                                              | 3761/7135 [3:25:57<3:04:36,  3.28s/it] 53%|███████████████████████████████████████████████████▋                                              | 3762/7135 [3:26:00<2:54:43,  3.11s/it] 53%|███████████████████████████████████████████████████▋                                              | 3763/7135 [3:26:04<3:12:02,  3.42s/it] 53%|███████████████████████████████████████████████████▋                                              | 3764/7135 [3:26:07<3:12:52,  3.43s/it] 53%|███████████████████████████████████████████████████▋                                              | 3765/7135 [3:26:11<3:12:37,  3.43s/it] 53%|███████████████████████████████████████████████████▋                                              | 3766/7135 [3:26:14<3:11:42,  3.41s/it] 53%|███████████████████████████████████████████████████▋                                              | 3767/7135 [3:26:18<3:14:03,  3.46s/it] 53%|███████████████████████████████████████████████████▊                                              | 3768/7135 [3:26:21<3:10:38,  3.40s/it] 53%|███████████████████████████████████████████████████▊                                              | 3769/7135 [3:26:25<3:16:12,  3.50s/it] 53%|███████████████████████████████████████████████████▊                                              | 3770/7135 [3:26:28<3:08:05,  3.35s/it]                                                                                                                                               {'loss': 0.6516, 'grad_norm': 5.0625, 'learning_rate': 2.3309920805581306e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 452.25, 'epoch': 5.28}
 53%|███████████████████████████████████████████████████▊                                              | 3770/7135 [3:26:28<3:08:05,  3.35s/it] 53%|███████████████████████████████████████████████████▊                                              | 3771/7135 [3:26:31<3:05:45,  3.31s/it] 53%|███████████████████████████████████████████████████▊                                              | 3772/7135 [3:26:34<3:04:25,  3.29s/it] 53%|███████████████████████████████████████████████████▊                                              | 3773/7135 [3:26:37<3:05:15,  3.31s/it] 53%|███████████████████████████████████████████████████▊                                              | 3774/7135 [3:26:40<3:00:32,  3.22s/it] 53%|███████████████████████████████████████████████████▊                                              | 3775/7135 [3:26:44<2:57:33,  3.17s/it] 53%|███████████████████████████████████████████████████▊                                              | 3776/7135 [3:26:46<2:51:18,  3.06s/it] 53%|███████████████████████████████████████████████████▉                                              | 3777/7135 [3:26:49<2:47:49,  3.00s/it] 53%|███████████████████████████████████████████████████▉                                              | 3778/7135 [3:26:52<2:39:18,  2.85s/it] 53%|███████████████████████████████████████████████████▉                                              | 3779/7135 [3:26:55<2:49:13,  3.03s/it] 53%|███████████████████████████████████████████████████▉                                              | 3780/7135 [3:26:59<2:58:52,  3.20s/it]                                                                                                                                               {'loss': 0.6869, 'grad_norm': 5.375, 'learning_rate': 2.3198551901228273e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 284.96, 'epoch': 5.29}
 53%|███████████████████████████████████████████████████▉                                              | 3780/7135 [3:26:59<2:58:52,  3.20s/it] 53%|███████████████████████████████████████████████████▉                                              | 3781/7135 [3:27:02<2:53:41,  3.11s/it] 53%|███████████████████████████████████████████████████▉                                              | 3782/7135 [3:27:05<2:52:38,  3.09s/it] 53%|███████████████████████████████████████████████████▉                                              | 3783/7135 [3:27:07<2:48:21,  3.01s/it] 53%|███████████████████████████████████████████████████▉                                              | 3784/7135 [3:27:11<2:49:31,  3.04s/it] 53%|███████████████████████████████████████████████████▉                                              | 3785/7135 [3:27:13<2:46:53,  2.99s/it] 53%|████████████████████████████████████████████████████                                              | 3786/7135 [3:27:17<3:03:10,  3.28s/it] 53%|████████████████████████████████████████████████████                                              | 3787/7135 [3:27:20<2:57:17,  3.18s/it] 53%|████████████████████████████████████████████████████                                              | 3788/7135 [3:27:23<2:53:56,  3.12s/it] 53%|████████████████████████████████████████████████████                                              | 3789/7135 [3:27:27<2:58:55,  3.21s/it] 53%|████████████████████████████████████████████████████                                              | 3790/7135 [3:27:30<2:56:15,  3.16s/it]                                                                                                                                               {'loss': 0.7158, 'grad_norm': 5.03125, 'learning_rate': 2.308721892152762e-06, 'memory/max_active (GiB)': 35.13, 'memory/max_allocated (GiB)': 35.13, 'memory/device_reserved (GiB)': 49.6, 'tokens_per_second_per_gpu': 354.28, 'epoch': 5.31}
 53%|████████████████████████████████████████████████████                                              | 3790/7135 [3:27:30<2:56:15,  3.16s/it] 53%|████████████████████████████████████████████████████                                              | 3791/7135 [3:27:33<3:03:42,  3.30s/it] 53%|████████████████████████████████████████████████████                                              | 3792/7135 [3:27:37<3:08:25,  3.38s/it] 53%|████████████████████████████████████████████████████                                              | 3793/7135 [3:27:42<3:29:01,  3.75s/it] 53%|████████████████████████████████████████████████████                                              | 3794/7135 [3:27:45<3:20:13,  3.60s/it] 53%|████████████████████████████████████████████████████                                              | 3795/7135 [3:27:49<3:21:03,  3.61s/it] 53%|████████████████████████████████████████████████████▏                                             | 3796/7135 [3:27:52<3:13:50,  3.48s/it] 53%|████████████████████████████████████████████████████▏                                             | 3797/7135 [3:27:55<3:08:34,  3.39s/it] 53%|████████████████████████████████████████████████████▏                                             | 3798/7135 [3:27:58<3:03:40,  3.30s/it] 53%|████████████████████████████████████████████████████▏                                             | 3799/7135 [3:28:01<3:02:06,  3.28s/it] 53%|████████████████████████████████████████████████████▏                                             | 3800/7135 [3:28:04<3:01:54,  3.27s/it]                                                                                                                                               {'loss': 0.7733, 'grad_norm': 7.375, 'learning_rate': 2.29759240866924e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 374.69, 'epoch': 5.32}
 53%|████████████████████████████████████████████████████▏                                             | 3800/7135 [3:28:04<3:01:54,  3.27s/it] 53%|████████████████████████████████████████████████████▏                                             | 3801/7135 [3:28:08<3:05:29,  3.34s/it] 53%|████████████████████████████████████████████████████▏                                             | 3802/7135 [3:28:11<3:02:59,  3.29s/it] 53%|████████████████████████████████████████████████████▏                                             | 3803/7135 [3:28:14<2:56:16,  3.17s/it] 53%|████████████████████████████████████████████████████▏                                             | 3804/7135 [3:28:17<2:55:09,  3.16s/it] 53%|████████████████████████████████████████████████████▎                                             | 3805/7135 [3:28:20<2:48:49,  3.04s/it] 53%|████████████████████████████████████████████████████▎                                             | 3806/7135 [3:28:23<2:57:44,  3.20s/it] 53%|████████████████████████████████████████████████████▎                                             | 3807/7135 [3:28:28<3:12:07,  3.46s/it] 53%|████████████████████████████████████████████████████▎                                             | 3808/7135 [3:28:31<3:03:51,  3.32s/it] 53%|████████████████████████████████████████████████████▎                                             | 3809/7135 [3:28:34<3:04:47,  3.33s/it] 53%|████████████████████████████████████████████████████▎                                             | 3810/7135 [3:28:37<2:56:59,  3.19s/it]                                                                                                                                               {'loss': 0.8153, 'grad_norm': 3.609375, 'learning_rate': 2.286466961617498e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 454.74, 'epoch': 5.34}
 53%|████████████████████████████████████████████████████▎                                             | 3810/7135 [3:28:37<2:56:59,  3.19s/it] 53%|████████████████████████████████████████████████████▎                                             | 3811/7135 [3:28:40<2:57:31,  3.20s/it] 53%|████████████████████████████████████████████████████▎                                             | 3812/7135 [3:28:43<2:55:38,  3.17s/it] 53%|████████████████████████████████████████████████████▎                                             | 3813/7135 [3:28:46<2:57:20,  3.20s/it] 53%|████████████████████████████████████████████████████▍                                             | 3814/7135 [3:28:49<2:49:54,  3.07s/it] 53%|████████████████████████████████████████████████████▍                                             | 3815/7135 [3:28:53<2:56:14,  3.19s/it] 53%|████████████████████████████████████████████████████▍                                             | 3816/7135 [3:28:56<3:06:01,  3.36s/it] 53%|████████████████████████████████████████████████████▍                                             | 3817/7135 [3:28:59<2:58:50,  3.23s/it] 54%|████████████████████████████████████████████████████▍                                             | 3818/7135 [3:29:02<2:56:22,  3.19s/it] 54%|████████████████████████████████████████████████████▍                                             | 3819/7135 [3:29:06<2:58:43,  3.23s/it] 54%|████████████████████████████████████████████████████▍                                             | 3820/7135 [3:29:09<2:56:04,  3.19s/it]                                                                                                                                               {'loss': 0.7882, 'grad_norm': 3.984375, 'learning_rate': 2.2753457728622783e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 477.84, 'epoch': 5.35}
 54%|████████████████████████████████████████████████████▍                                             | 3820/7135 [3:29:09<2:56:04,  3.19s/it] 54%|████████████████████████████████████████████████████▍                                             | 3821/7135 [3:29:12<2:57:17,  3.21s/it] 54%|████████████████████████████████████████████████████▍                                             | 3822/7135 [3:29:15<3:00:53,  3.28s/it] 54%|████████████████████████████████████████████████████▌                                             | 3823/7135 [3:29:19<2:59:21,  3.25s/it] 54%|████████████████████████████████████████████████████▌                                             | 3824/7135 [3:29:22<2:53:25,  3.14s/it] 54%|████████████████████████████████████████████████████▌                                             | 3825/7135 [3:29:25<2:51:43,  3.11s/it] 54%|████████████████████████████████████████████████████▌                                             | 3826/7135 [3:29:28<2:57:01,  3.21s/it] 54%|████████████████████████████████████████████████████▌                                             | 3827/7135 [3:29:31<2:58:12,  3.23s/it] 54%|████████████████████████████████████████████████████▌                                             | 3828/7135 [3:29:34<2:51:52,  3.12s/it] 54%|████████████████████████████████████████████████████▌                                             | 3829/7135 [3:29:38<2:58:14,  3.23s/it] 54%|████████████████████████████████████████████████████▌                                             | 3830/7135 [3:29:41<3:00:07,  3.27s/it]                                                                                                                                               {'loss': 0.6309, 'grad_norm': 4.34375, 'learning_rate': 2.264229064183405e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 365.38, 'epoch': 5.36}
 54%|████████████████████████████████████████████████████▌                                             | 3830/7135 [3:29:41<3:00:07,  3.27s/it] 54%|████████████████████████████████████████████████████▌                                             | 3831/7135 [3:29:44<2:56:20,  3.20s/it] 54%|████████████████████████████████████████████████████▋                                             | 3832/7135 [3:29:47<2:52:26,  3.13s/it] 54%|████████████████████████████████████████████████████▋                                             | 3833/7135 [3:29:50<2:48:38,  3.06s/it] 54%|████████████████████████████████████████████████████▋                                             | 3834/7135 [3:29:53<2:47:23,  3.04s/it] 54%|████████████████████████████████████████████████████▋                                             | 3835/7135 [3:29:56<2:53:16,  3.15s/it] 54%|████████████████████████████████████████████████████▋                                             | 3836/7135 [3:29:59<2:45:40,  3.01s/it] 54%|████████████████████████████████████████████████████▋                                             | 3837/7135 [3:30:03<2:57:01,  3.22s/it] 54%|████████████████████████████████████████████████████▋                                             | 3838/7135 [3:30:06<2:50:37,  3.11s/it] 54%|████████████████████████████████████████████████████▋                                             | 3839/7135 [3:30:09<2:55:05,  3.19s/it] 54%|████████████████████████████████████████████████████▋                                             | 3840/7135 [3:30:12<2:51:33,  3.12s/it]                                                                                                                                               {'loss': 0.7617, 'grad_norm': 5.21875, 'learning_rate': 2.2531170572713563e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 448.28, 'epoch': 5.38}
 54%|████████████████████████████████████████████████████▋                                             | 3840/7135 [3:30:12<2:51:33,  3.12s/it] 54%|████████████████████████████████████████████████████▊                                             | 3841/7135 [3:30:15<2:54:39,  3.18s/it] 54%|████████████████████████████████████████████████████▊                                             | 3842/7135 [3:30:18<2:48:36,  3.07s/it] 54%|████████████████████████████████████████████████████▊                                             | 3843/7135 [3:30:21<2:46:57,  3.04s/it] 54%|████████████████████████████████████████████████████▊                                             | 3844/7135 [3:30:24<2:52:48,  3.15s/it] 54%|████████████████████████████████████████████████████▊                                             | 3845/7135 [3:30:27<2:49:54,  3.10s/it] 54%|████████████████████████████████████████████████████▊                                             | 3846/7135 [3:30:30<2:46:10,  3.03s/it] 54%|████████████████████████████████████████████████████▊                                             | 3847/7135 [3:30:34<2:58:33,  3.26s/it] 54%|████████████████████████████████████████████████████▊                                             | 3848/7135 [3:30:37<2:56:04,  3.21s/it] 54%|████████████████████████████████████████████████████▊                                             | 3849/7135 [3:30:40<2:48:30,  3.08s/it] 54%|████████████████████████████████████████████████████▉                                             | 3850/7135 [3:30:43<2:53:55,  3.18s/it]                                                                                                                                               {'loss': 0.679, 'grad_norm': 3.328125, 'learning_rate': 2.2420099737228515e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 337.68, 'epoch': 5.39}
 54%|████████████████████████████████████████████████████▉                                             | 3850/7135 [3:30:43<2:53:55,  3.18s/it] 54%|████████████████████████████████████████████████████▉                                             | 3851/7135 [3:30:46<2:49:31,  3.10s/it] 54%|████████████████████████████████████████████████████▉                                             | 3852/7135 [3:30:49<2:49:19,  3.09s/it] 54%|████████████████████████████████████████████████████▉                                             | 3853/7135 [3:30:52<2:45:17,  3.02s/it] 54%|████████████████████████████████████████████████████▉                                             | 3854/7135 [3:30:55<2:42:04,  2.96s/it] 54%|████████████████████████████████████████████████████▉                                             | 3855/7135 [3:30:58<2:38:54,  2.91s/it] 54%|████████████████████████████████████████████████████▉                                             | 3856/7135 [3:31:01<2:40:45,  2.94s/it] 54%|████████████████████████████████████████████████████▉                                             | 3857/7135 [3:31:04<2:44:24,  3.01s/it] 54%|████████████████████████████████████████████████████▉                                             | 3858/7135 [3:31:08<2:52:56,  3.17s/it] 54%|█████████████████████████████████████████████████████                                             | 3859/7135 [3:31:11<2:57:11,  3.25s/it] 54%|█████████████████████████████████████████████████████                                             | 3860/7135 [3:31:15<3:07:20,  3.43s/it]                                                                                                                                               {'loss': 0.7132, 'grad_norm': 2.09375, 'learning_rate': 2.2309080350364255e-06, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 375.1, 'epoch': 5.41}
 54%|█████████████████████████████████████████████████████                                             | 3860/7135 [3:31:15<3:07:20,  3.43s/it] 54%|█████████████████████████████████████████████████████                                             | 3861/7135 [3:31:18<3:00:42,  3.31s/it] 54%|█████████████████████████████████████████████████████                                             | 3862/7135 [3:31:21<2:59:55,  3.30s/it] 54%|█████████████████████████████████████████████████████                                             | 3863/7135 [3:31:25<3:01:20,  3.33s/it] 54%|█████████████████████████████████████████████████████                                             | 3864/7135 [3:31:27<2:52:17,  3.16s/it] 54%|█████████████████████████████████████████████████████                                             | 3865/7135 [3:31:30<2:49:40,  3.11s/it] 54%|█████████████████████████████████████████████████████                                             | 3866/7135 [3:31:33<2:47:01,  3.07s/it] 54%|█████████████████████████████████████████████████████                                             | 3867/7135 [3:31:36<2:45:44,  3.04s/it] 54%|█████████████████████████████████████████████████████▏                                            | 3868/7135 [3:31:41<3:07:31,  3.44s/it] 54%|█████████████████████████████████████████████████████▏                                            | 3869/7135 [3:31:43<2:53:34,  3.19s/it] 54%|█████████████████████████████████████████████████████▏                                            | 3870/7135 [3:31:47<2:57:06,  3.25s/it]                                                                                                                                               {'loss': 0.7273, 'grad_norm': 5.59375, 'learning_rate': 2.2198114626080127e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 410.1, 'epoch': 5.42}
 54%|█████████████████████████████████████████████████████▏                                            | 3870/7135 [3:31:47<2:57:06,  3.25s/it] 54%|█████████████████████████████████████████████████████▏                                            | 3871/7135 [3:31:50<2:58:16,  3.28s/it] 54%|█████████████████████████████████████████████████████▏                                            | 3872/7135 [3:31:53<2:58:20,  3.28s/it] 54%|█████████████████████████████████████████████████████▏                                            | 3873/7135 [3:31:56<2:51:45,  3.16s/it] 54%|█████████████████████████████████████████████████████▏                                            | 3874/7135 [3:31:59<2:44:16,  3.02s/it] 54%|█████████████████████████████████████████████████████▏                                            | 3875/7135 [3:32:02<2:51:10,  3.15s/it] 54%|█████████████████████████████████████████████████████▏                                            | 3876/7135 [3:32:06<2:56:24,  3.25s/it] 54%|█████████████████████████████████████████████████████▎                                            | 3877/7135 [3:32:09<2:59:00,  3.30s/it] 54%|█████████████████████████████████████████████████████▎                                            | 3878/7135 [3:32:12<2:53:14,  3.19s/it] 54%|█████████████████████████████████████████████████████▎                                            | 3879/7135 [3:32:15<2:55:58,  3.24s/it] 54%|█████████████████████████████████████████████████████▎                                            | 3880/7135 [3:32:18<2:50:59,  3.15s/it]                                                                                                                                               {'loss': 0.6037, 'grad_norm': 5.25, 'learning_rate': 2.2087204777265376e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 433.4, 'epoch': 5.43}
 54%|█████████████████████████████████████████████████████▎                                            | 3880/7135 [3:32:18<2:50:59,  3.15s/it] 54%|█████████████████████████████████████████████████████▎                                            | 3881/7135 [3:32:21<2:46:37,  3.07s/it] 54%|█████████████████████████████████████████████████████▎                                            | 3882/7135 [3:32:25<2:48:52,  3.11s/it] 54%|█████████████████████████████████████████████████████▎                                            | 3883/7135 [3:32:28<2:48:00,  3.10s/it] 54%|█████████████████████████████████████████████████████▎                                            | 3884/7135 [3:32:30<2:42:55,  3.01s/it] 54%|█████████████████████████████████████████████████████▎                                            | 3885/7135 [3:32:34<2:48:43,  3.12s/it] 54%|█████████████████████████████████████████████████████▎                                            | 3886/7135 [3:32:37<2:46:06,  3.07s/it] 54%|█████████████████████████████████████████████████████▍                                            | 3887/7135 [3:32:40<2:50:40,  3.15s/it] 54%|█████████████████████████████████████████████████████▍                                            | 3888/7135 [3:32:43<2:54:49,  3.23s/it] 55%|█████████████████████████████████████████████████████▍                                            | 3889/7135 [3:32:47<2:58:05,  3.29s/it] 55%|█████████████████████████████████████████████████████▍                                            | 3890/7135 [3:32:51<3:04:04,  3.40s/it]                                                                                                                                               {'loss': 0.7504, 'grad_norm': 2.21875, 'learning_rate': 2.1976353015694933e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 357.81, 'epoch': 5.45}
 55%|█████████████████████████████████████████████████████▍                                            | 3890/7135 [3:32:51<3:04:04,  3.40s/it] 55%|█████████████████████████████████████████████████████▍                                            | 3891/7135 [3:32:53<2:54:01,  3.22s/it] 55%|█████████████████████████████████████████████████████▍                                            | 3892/7135 [3:32:56<2:50:14,  3.15s/it] 55%|█████████████████████████████████████████████████████▍                                            | 3893/7135 [3:33:00<2:50:33,  3.16s/it] 55%|█████████████████████████████████████████████████████▍                                            | 3894/7135 [3:33:03<2:50:15,  3.15s/it] 55%|█████████████████████████████████████████████████████▍                                            | 3895/7135 [3:33:06<2:55:10,  3.24s/it] 55%|█████████████████████████████████████████████████████▌                                            | 3896/7135 [3:33:09<2:48:29,  3.12s/it] 55%|█████████████████████████████████████████████████████▌                                            | 3897/7135 [3:33:12<2:45:05,  3.06s/it] 55%|█████████████████████████████████████████████████████▌                                            | 3898/7135 [3:33:15<2:44:43,  3.05s/it] 55%|█████████████████████████████████████████████████████▌                                            | 3899/7135 [3:33:18<2:51:10,  3.17s/it] 55%|█████████████████████████████████████████████████████▌                                            | 3900/7135 [3:33:22<2:58:47,  3.32s/it]                                                                                                                                               {'loss': 0.8804, 'grad_norm': 4.71875, 'learning_rate': 2.186556155198534e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 350.24, 'epoch': 5.46}
 55%|█████████████████████████████████████████████████████▌                                            | 3900/7135 [3:33:22<2:58:47,  3.32s/it] 55%|█████████████████████████████████████████████████████▌                                            | 3901/7135 [3:33:25<2:56:37,  3.28s/it] 55%|█████████████████████████████████████████████████████▌                                            | 3902/7135 [3:33:29<3:12:51,  3.58s/it] 55%|█████████████████████████████████████████████████████▌                                            | 3903/7135 [3:33:33<3:14:32,  3.61s/it] 55%|█████████████████████████████████████████████████████▌                                            | 3904/7135 [3:33:37<3:16:42,  3.65s/it] 55%|█████████████████████████████████████████████████████▋                                            | 3905/7135 [3:33:40<3:04:51,  3.43s/it] 55%|█████████████████████████████████████████████████████▋                                            | 3906/7135 [3:33:43<2:56:40,  3.28s/it] 55%|█████████████████████████████████████████████████████▋                                            | 3907/7135 [3:33:46<2:57:05,  3.29s/it] 55%|█████████████████████████████████████████████████████▋                                            | 3908/7135 [3:33:49<2:53:10,  3.22s/it] 55%|█████████████████████████████████████████████████████▋                                            | 3909/7135 [3:33:53<2:56:39,  3.29s/it] 55%|█████████████████████████████████████████████████████▋                                            | 3910/7135 [3:33:56<2:51:33,  3.19s/it]                                                                                                                                               {'loss': 0.7641, 'grad_norm': 4.40625, 'learning_rate': 2.175483259555072e-06, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 507.92, 'epoch': 5.48}
 55%|█████████████████████████████████████████████████████▋                                            | 3910/7135 [3:33:56<2:51:33,  3.19s/it] 55%|█████████████████████████████████████████████████████▋                                            | 3911/7135 [3:33:59<2:56:32,  3.29s/it] 55%|█████████████████████████████████████████████████████▋                                            | 3912/7135 [3:34:03<3:09:53,  3.54s/it] 55%|█████████████████████████████████████████████████████▋                                            | 3913/7135 [3:34:06<3:02:58,  3.41s/it] 55%|█████████████████████████████████████████████████████▊                                            | 3914/7135 [3:34:09<2:56:40,  3.29s/it] 55%|█████████████████████████████████████████████████████▊                                            | 3915/7135 [3:34:13<2:55:56,  3.28s/it] 55%|█████████████████████████████████████████████████████▊                                            | 3916/7135 [3:34:15<2:49:15,  3.15s/it] 55%|█████████████████████████████████████████████████████▊                                            | 3917/7135 [3:34:19<2:49:25,  3.16s/it] 55%|█████████████████████████████████████████████████████▊                                            | 3918/7135 [3:34:22<2:48:20,  3.14s/it] 55%|█████████████████████████████████████████████████████▊                                            | 3919/7135 [3:34:25<2:53:42,  3.24s/it] 55%|█████████████████████████████████████████████████████▊                                            | 3920/7135 [3:34:29<2:58:04,  3.32s/it]                                                                                                                                               {'loss': 0.9561, 'grad_norm': 3.578125, 'learning_rate': 2.1644168354558623e-06, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 474.72, 'epoch': 5.49}
 55%|█████████████████████████████████████████████████████▊                                            | 3920/7135 [3:34:29<2:58:04,  3.32s/it] 55%|█████████████████████████████████████████████████████▊                                            | 3921/7135 [3:34:32<2:55:52,  3.28s/it] 55%|█████████████████████████████████████████████████████▊                                            | 3922/7135 [3:34:34<2:45:07,  3.08s/it] 55%|█████████████████████████████████████████████████████▉                                            | 3923/7135 [3:34:38<2:48:28,  3.15s/it] 55%|█████████████████████████████████████████████████████▉                                            | 3924/7135 [3:34:41<2:51:02,  3.20s/it] 55%|█████████████████████████████████████████████████████▉                                            | 3925/7135 [3:34:44<2:54:27,  3.26s/it] 55%|█████████████████████████████████████████████████████▉                                            | 3926/7135 [3:34:47<2:46:58,  3.12s/it] 55%|█████████████████████████████████████████████████████▉                                            | 3927/7135 [3:34:51<2:52:24,  3.22s/it] 55%|█████████████████████████████████████████████████████▉                                            | 3928/7135 [3:34:54<2:48:48,  3.16s/it] 55%|█████████████████████████████████████████████████████▉                                            | 3929/7135 [3:34:57<2:57:12,  3.32s/it] 55%|█████████████████████████████████████████████████████▉                                            | 3930/7135 [3:35:01<2:57:44,  3.33s/it]                                                                                                                                               {'loss': 0.8102, 'grad_norm': 4.75, 'learning_rate': 2.153357103588605e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 377.23, 'epoch': 5.5}
 55%|█████████████████████████████████████████████████████▉                                            | 3930/7135 [3:35:01<2:57:44,  3.33s/it] 55%|█████████████████████████████████████████████████████▉                                            | 3931/7135 [3:35:04<3:02:21,  3.41s/it] 55%|██████████████████████████████████████████████████████                                            | 3932/7135 [3:35:08<3:04:09,  3.45s/it] 55%|██████████████████████████████████████████████████████                                            | 3933/7135 [3:35:11<2:58:02,  3.34s/it] 55%|██████████████████████████████████████████████████████                                            | 3934/7135 [3:35:14<2:54:13,  3.27s/it] 55%|██████████████████████████████████████████████████████                                            | 3935/7135 [3:35:17<2:50:10,  3.19s/it] 55%|██████████████████████████████████████████████████████                                            | 3936/7135 [3:35:20<2:50:11,  3.19s/it] 55%|██████████████████████████████████████████████████████                                            | 3937/7135 [3:35:23<2:46:30,  3.12s/it] 55%|██████████████████████████████████████████████████████                                            | 3938/7135 [3:35:27<2:48:26,  3.16s/it] 55%|██████████████████████████████████████████████████████                                            | 3939/7135 [3:35:29<2:40:09,  3.01s/it] 55%|██████████████████████████████████████████████████████                                            | 3940/7135 [3:35:32<2:41:54,  3.04s/it]                                                                                                                                               {'loss': 0.7312, 'grad_norm': 4.90625, 'learning_rate': 2.142304284507545e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 412.11, 'epoch': 5.52}
 55%|██████████████████████████████████████████████████████                                            | 3940/7135 [3:35:32<2:41:54,  3.04s/it] 55%|██████████████████████████████████████████████████████▏                                           | 3941/7135 [3:35:35<2:42:05,  3.05s/it] 55%|██████████████████████████████████████████████████████▏                                           | 3942/7135 [3:35:38<2:37:22,  2.96s/it] 55%|██████████████████████████████████████████████████████▏                                           | 3943/7135 [3:35:42<2:48:33,  3.17s/it] 55%|██████████████████████████████████████████████████████▏                                           | 3944/7135 [3:35:45<2:46:35,  3.13s/it] 55%|██████████████████████████████████████████████████████▏                                           | 3945/7135 [3:35:48<2:43:33,  3.08s/it] 55%|██████████████████████████████████████████████████████▏                                           | 3946/7135 [3:35:51<2:48:36,  3.17s/it] 55%|██████████████████████████████████████████████████████▏                                           | 3947/7135 [3:35:55<2:55:53,  3.31s/it] 55%|██████████████████████████████████████████████████████▏                                           | 3948/7135 [3:35:58<2:53:23,  3.26s/it] 55%|██████████████████████████████████████████████████████▏                                           | 3949/7135 [3:36:01<2:46:52,  3.14s/it] 55%|██████████████████████████████████████████████████████▎                                           | 3950/7135 [3:36:04<2:53:13,  3.26s/it]                                                                                                                                               {'loss': 0.8788, 'grad_norm': 2.140625, 'learning_rate': 2.131258598629071e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 379.11, 'epoch': 5.53}
 55%|██████████████████████████████████████████████████████▎                                           | 3950/7135 [3:36:04<2:53:13,  3.26s/it] 55%|██████████████████████████████████████████████████████▎                                           | 3951/7135 [3:36:07<2:51:11,  3.23s/it] 55%|██████████████████████████████████████████████████████▎                                           | 3952/7135 [3:36:11<2:50:41,  3.22s/it] 55%|██████████████████████████████████████████████████████▎                                           | 3953/7135 [3:36:14<2:47:16,  3.15s/it] 55%|██████████████████████████████████████████████████████▎                                           | 3954/7135 [3:36:17<2:45:54,  3.13s/it] 55%|██████████████████████████████████████████████████████▎                                           | 3955/7135 [3:36:20<2:50:46,  3.22s/it] 55%|██████████████████████████████████████████████████████▎                                           | 3956/7135 [3:36:23<2:50:14,  3.21s/it] 55%|██████████████████████████████████████████████████████▎                                           | 3957/7135 [3:36:27<2:48:33,  3.18s/it] 55%|██████████████████████████████████████████████████████▎                                           | 3958/7135 [3:36:29<2:43:41,  3.09s/it] 55%|██████████████████████████████████████████████████████▍                                           | 3959/7135 [3:36:33<2:49:55,  3.21s/it] 56%|██████████████████████████████████████████████████████▍                                           | 3960/7135 [3:36:36<2:54:22,  3.30s/it]                                                                                                                                               {'loss': 0.7294, 'grad_norm': 6.4375, 'learning_rate': 2.1202202662273183e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 381.07, 'epoch': 5.55}
 56%|██████████████████████████████████████████████████████▍                                           | 3960/7135 [3:36:36<2:54:22,  3.30s/it] 56%|██████████████████████████████████████████████████████▍                                           | 3961/7135 [3:36:40<3:02:40,  3.45s/it] 56%|██████████████████████████████████████████████████████▍                                           | 3962/7135 [3:36:44<3:01:43,  3.44s/it] 56%|██████████████████████████████████████████████████████▍                                           | 3963/7135 [3:36:47<2:58:35,  3.38s/it] 56%|██████████████████████████████████████████████████████▍                                           | 3964/7135 [3:36:50<2:55:03,  3.31s/it] 56%|██████████████████████████████████████████████████████▍                                           | 3965/7135 [3:36:53<2:50:07,  3.22s/it] 56%|██████████████████████████████████████████████████████▍                                           | 3966/7135 [3:36:57<2:54:51,  3.31s/it] 56%|██████████████████████████████████████████████████████▍                                           | 3967/7135 [3:37:00<2:56:06,  3.34s/it] 56%|██████████████████████████████████████████████████████▌                                           | 3968/7135 [3:37:04<3:08:57,  3.58s/it] 56%|██████████████████████████████████████████████████████▌                                           | 3969/7135 [3:37:07<3:03:12,  3.47s/it] 56%|██████████████████████████████████████████████████████▌                                           | 3970/7135 [3:37:10<2:54:13,  3.30s/it]                                                                                                                                               {'loss': 0.777, 'grad_norm': 5.9375, 'learning_rate': 2.1091895074297814e-06, 'memory/max_active (GiB)': 44.58, 'memory/max_allocated (GiB)': 44.58, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 548.65, 'epoch': 5.56}
 56%|██████████████████████████████████████████████████████▌                                           | 3970/7135 [3:37:10<2:54:13,  3.30s/it] 56%|██████████████████████████████████████████████████████▌                                           | 3971/7135 [3:37:14<2:54:53,  3.32s/it] 56%|██████████████████████████████████████████████████████▌                                           | 3972/7135 [3:37:17<2:58:04,  3.38s/it] 56%|██████████████████████████████████████████████████████▌                                           | 3973/7135 [3:37:20<2:55:04,  3.32s/it] 56%|██████████████████████████████████████████████████████▌                                           | 3974/7135 [3:37:23<2:48:11,  3.19s/it] 56%|██████████████████████████████████████████████████████▌                                           | 3975/7135 [3:37:26<2:49:12,  3.21s/it] 56%|██████████████████████████████████████████████████████▌                                           | 3976/7135 [3:37:30<2:51:43,  3.26s/it] 56%|██████████████████████████████████████████████████████▌                                           | 3977/7135 [3:37:33<2:52:51,  3.28s/it] 56%|██████████████████████████████████████████████████████▋                                           | 3978/7135 [3:37:36<2:51:36,  3.26s/it] 56%|██████████████████████████████████████████████████████▋                                           | 3979/7135 [3:37:40<2:52:55,  3.29s/it] 56%|██████████████████████████████████████████████████████▋                                           | 3980/7135 [3:37:43<2:48:24,  3.20s/it]                                                                                                                                               {'loss': 0.6845, 'grad_norm': 3.984375, 'learning_rate': 2.0981665422129196e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 405.83, 'epoch': 5.57}
 56%|██████████████████████████████████████████████████████▋                                           | 3980/7135 [3:37:43<2:48:24,  3.20s/it] 56%|██████████████████████████████████████████████████████▋                                           | 3981/7135 [3:37:46<2:51:58,  3.27s/it] 56%|██████████████████████████████████████████████████████▋                                           | 3982/7135 [3:37:49<2:48:49,  3.21s/it] 56%|██████████████████████████████████████████████████████▋                                           | 3983/7135 [3:37:53<2:51:07,  3.26s/it] 56%|██████████████████████████████████████████████████████▋                                           | 3984/7135 [3:37:56<2:46:57,  3.18s/it] 56%|██████████████████████████████████████████████████████▋                                           | 3985/7135 [3:37:59<2:47:34,  3.19s/it] 56%|██████████████████████████████████████████████████████▋                                           | 3986/7135 [3:38:02<2:45:02,  3.14s/it] 56%|██████████████████████████████████████████████████████▊                                           | 3987/7135 [3:38:05<2:51:12,  3.26s/it] 56%|██████████████████████████████████████████████████████▊                                           | 3988/7135 [3:38:08<2:44:57,  3.14s/it] 56%|██████████████████████████████████████████████████████▊                                           | 3989/7135 [3:38:11<2:42:04,  3.09s/it] 56%|██████████████████████████████████████████████████████▊                                           | 3990/7135 [3:38:15<2:47:08,  3.19s/it]                                                                                                                                               {'loss': 0.613, 'grad_norm': 3.84375, 'learning_rate': 2.0871515903977714e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 341.04, 'epoch': 5.59}
 56%|██████████████████████████████████████████████████████▊                                           | 3990/7135 [3:38:15<2:47:08,  3.19s/it] 56%|██████████████████████████████████████████████████████▊                                           | 3991/7135 [3:38:18<2:44:06,  3.13s/it] 56%|██████████████████████████████████████████████████████▊                                           | 3992/7135 [3:38:21<2:47:58,  3.21s/it] 56%|██████████████████████████████████████████████████████▊                                           | 3993/7135 [3:38:25<2:54:55,  3.34s/it] 56%|██████████████████████████████████████████████████████▊                                           | 3994/7135 [3:38:28<2:49:20,  3.23s/it] 56%|██████████████████████████████████████████████████████▊                                           | 3995/7135 [3:38:31<2:49:48,  3.24s/it] 56%|██████████████████████████████████████████████████████▉                                           | 3996/7135 [3:38:34<2:52:45,  3.30s/it] 56%|██████████████████████████████████████████████████████▉                                           | 3997/7135 [3:38:37<2:48:46,  3.23s/it] 56%|██████████████████████████████████████████████████████▉                                           | 3998/7135 [3:38:41<2:55:08,  3.35s/it] 56%|██████████████████████████████████████████████████████▉                                           | 3999/7135 [3:38:44<2:54:09,  3.33s/it] 56%|██████████████████████████████████████████████████████▉                                           | 4000/7135 [3:38:48<2:55:28,  3.36s/it]                                                                                                                                               {'loss': 0.7933, 'grad_norm': 4.78125, 'learning_rate': 2.076144871645574e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 453.57, 'epoch': 5.6}
 56%|██████████████████████████████████████████████████████▉                                           | 4000/7135 [3:38:48<2:55:28,  3.36s/it] 56%|██████████████████████████████████████████████████████▉                                           | 4001/7135 [3:38:51<2:54:06,  3.33s/it] 56%|██████████████████████████████████████████████████████▉                                           | 4002/7135 [3:38:54<2:47:08,  3.20s/it] 56%|██████████████████████████████████████████████████████▉                                           | 4003/7135 [3:38:57<2:51:23,  3.28s/it] 56%|██████████████████████████████████████████████████████▉                                           | 4004/7135 [3:39:00<2:43:21,  3.13s/it] 56%|███████████████████████████████████████████████████████                                           | 4005/7135 [3:39:04<2:51:42,  3.29s/it] 56%|███████████████████████████████████████████████████████                                           | 4006/7135 [3:39:07<2:54:19,  3.34s/it] 56%|███████████████████████████████████████████████████████                                           | 4007/7135 [3:39:11<2:57:12,  3.40s/it] 56%|███████████████████████████████████████████████████████                                           | 4008/7135 [3:39:14<2:49:57,  3.26s/it] 56%|███████████████████████████████████████████████████████                                           | 4009/7135 [3:39:17<2:52:11,  3.30s/it] 56%|███████████████████████████████████████████████████████                                           | 4010/7135 [3:39:20<2:47:57,  3.22s/it]                                                                                                                                               {'loss': 0.8294, 'grad_norm': 3.921875, 'learning_rate': 2.0651466054533777e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 501.88, 'epoch': 5.62}
 56%|███████████████████████████████████████████████████████                                           | 4010/7135 [3:39:20<2:47:57,  3.22s/it] 56%|███████████████████████████████████████████████████████                                           | 4011/7135 [3:39:23<2:47:51,  3.22s/it] 56%|███████████████████████████████████████████████████████                                           | 4012/7135 [3:39:26<2:44:32,  3.16s/it] 56%|███████████████████████████████████████████████████████                                           | 4013/7135 [3:39:30<2:49:44,  3.26s/it] 56%|███████████████████████████████████████████████████████▏                                          | 4014/7135 [3:39:33<2:46:34,  3.20s/it] 56%|███████████████████████████████████████████████████████▏                                          | 4015/7135 [3:39:36<2:41:28,  3.11s/it] 56%|███████████████████████████████████████████████████████▏                                          | 4016/7135 [3:39:39<2:45:08,  3.18s/it] 56%|███████████████████████████████████████████████████████▏                                          | 4017/7135 [3:39:42<2:46:01,  3.19s/it] 56%|███████████████████████████████████████████████████████▏                                          | 4018/7135 [3:39:46<2:46:45,  3.21s/it] 56%|███████████████████████████████████████████████████████▏                                          | 4019/7135 [3:39:49<2:49:03,  3.26s/it] 56%|███████████████████████████████████████████████████████▏                                          | 4020/7135 [3:39:52<2:51:44,  3.31s/it]                                                                                                                                               {'loss': 0.7313, 'grad_norm': 5.59375, 'learning_rate': 2.0541570111496705e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 352.86, 'epoch': 5.63}
 56%|███████████████████████████████████████████████████████▏                                          | 4020/7135 [3:39:53<2:51:44,  3.31s/it] 56%|███████████████████████████████████████████████████████▏                                          | 4021/7135 [3:39:56<2:59:20,  3.46s/it] 56%|███████████████████████████████████████████████████████▏                                          | 4022/7135 [3:39:59<2:55:50,  3.39s/it] 56%|███████████████████████████████████████████████████████▎                                          | 4023/7135 [3:40:03<2:58:04,  3.43s/it] 56%|███████████████████████████████████████████████████████▎                                          | 4024/7135 [3:40:06<2:51:17,  3.30s/it] 56%|███████████████████████████████████████████████████████▎                                          | 4025/7135 [3:40:09<2:44:41,  3.18s/it] 56%|███████████████████████████████████████████████████████▎                                          | 4026/7135 [3:40:13<2:51:19,  3.31s/it] 56%|███████████████████████████████████████████████████████▎                                          | 4027/7135 [3:40:15<2:44:59,  3.19s/it] 56%|███████████████████████████████████████████████████████▎                                          | 4028/7135 [3:40:19<2:46:10,  3.21s/it] 56%|███████████████████████████████████████████████████████▎                                          | 4029/7135 [3:40:22<2:42:00,  3.13s/it] 56%|███████████████████████████████████████████████████████▎                                          | 4030/7135 [3:40:25<2:40:25,  3.10s/it]                                                                                                                                               {'loss': 0.7232, 'grad_norm': 4.125, 'learning_rate': 2.0431763078900075e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 445.34, 'epoch': 5.64}
 56%|███████████████████████████████████████████████████████▎                                          | 4030/7135 [3:40:25<2:40:25,  3.10s/it] 56%|███████████████████████████████████████████████████████▎                                          | 4031/7135 [3:40:28<2:45:02,  3.19s/it] 57%|███████████████████████████████████████████████████████▍                                          | 4032/7135 [3:40:32<3:00:34,  3.49s/it] 57%|███████████████████████████████████████████████████████▍                                          | 4033/7135 [3:40:35<2:53:17,  3.35s/it] 57%|███████████████████████████████████████████████████████▍                                          | 4034/7135 [3:40:38<2:50:59,  3.31s/it] 57%|███████████████████████████████████████████████████████▍                                          | 4035/7135 [3:40:42<2:50:45,  3.31s/it] 57%|███████████████████████████████████████████████████████▍                                          | 4036/7135 [3:40:45<2:52:54,  3.35s/it] 57%|███████████████████████████████████████████████████████▍                                          | 4037/7135 [3:40:49<2:58:00,  3.45s/it] 57%|███████████████████████████████████████████████████████▍                                          | 4038/7135 [3:40:52<2:59:13,  3.47s/it] 57%|███████████████████████████████████████████████████████▍                                          | 4039/7135 [3:40:55<2:45:43,  3.21s/it] 57%|███████████████████████████████████████████████████████▍                                          | 4040/7135 [3:40:58<2:36:46,  3.04s/it]                                                                                                                                               {'loss': 0.8707, 'grad_norm': 5.28125, 'learning_rate': 2.032204714652635e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 487.27, 'epoch': 5.66}
 57%|███████████████████████████████████████████████████████▍                                          | 4040/7135 [3:40:58<2:36:46,  3.04s/it] 57%|███████████████████████████████████████████████████████▌                                          | 4041/7135 [3:41:01<2:38:42,  3.08s/it] 57%|███████████████████████████████████████████████████████▌                                          | 4042/7135 [3:41:04<2:36:32,  3.04s/it] 57%|███████████████████████████████████████████████████████▌                                          | 4043/7135 [3:41:07<2:36:44,  3.04s/it] 57%|███████████████████████████████████████████████████████▌                                          | 4044/7135 [3:41:10<2:45:04,  3.20s/it] 57%|███████████████████████████████████████████████████████▌                                          | 4045/7135 [3:41:14<2:49:44,  3.30s/it] 57%|███████████████████████████████████████████████████████▌                                          | 4046/7135 [3:41:17<2:50:39,  3.31s/it] 57%|███████████████████████████████████████████████████████▌                                          | 4047/7135 [3:41:20<2:43:42,  3.18s/it] 57%|███████████████████████████████████████████████████████▌                                          | 4048/7135 [3:41:23<2:44:19,  3.19s/it] 57%|███████████████████████████████████████████████████████▌                                          | 4049/7135 [3:41:27<2:45:49,  3.22s/it] 57%|███████████████████████████████████████████████████████▋                                          | 4050/7135 [3:41:30<2:48:21,  3.27s/it]                                                                                                                                               {'loss': 0.8182, 'grad_norm': 4.0625, 'learning_rate': 2.0212424502341265e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 359.98, 'epoch': 5.67}
 57%|███████████████████████████████████████████████████████▋                                          | 4050/7135 [3:41:30<2:48:21,  3.27s/it] 57%|███████████████████████████████████████████████████████▋                                          | 4051/7135 [3:41:33<2:48:00,  3.27s/it] 57%|███████████████████████████████████████████████████████▋                                          | 4052/7135 [3:41:37<2:46:39,  3.24s/it] 57%|███████████████████████████████████████████████████████▋                                          | 4053/7135 [3:41:40<2:43:37,  3.19s/it] 57%|███████████████████████████████████████████████████████▋                                          | 4054/7135 [3:41:43<2:41:07,  3.14s/it] 57%|███████████████████████████████████████████████████████▋                                          | 4055/7135 [3:41:47<2:54:01,  3.39s/it] 57%|███████████████████████████████████████████████████████▋                                          | 4056/7135 [3:41:50<2:57:09,  3.45s/it] 57%|███████████████████████████████████████████████████████▋                                          | 4057/7135 [3:41:53<2:50:56,  3.33s/it] 57%|███████████████████████████████████████████████████████▋                                          | 4058/7135 [3:41:56<2:49:46,  3.31s/it] 57%|███████████████████████████████████████████████████████▊                                          | 4059/7135 [3:41:59<2:41:16,  3.15s/it] 57%|███████████████████████████████████████████████████████▊                                          | 4060/7135 [3:42:03<2:43:29,  3.19s/it]                                                                                                                                               {'loss': 0.8858, 'grad_norm': 5.0625, 'learning_rate': 2.010289733245023e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 363.23, 'epoch': 5.69}
 57%|███████████████████████████████████████████████████████▊                                          | 4060/7135 [3:42:03<2:43:29,  3.19s/it] 57%|███████████████████████████████████████████████████████▊                                          | 4061/7135 [3:42:05<2:39:35,  3.12s/it] 57%|███████████████████████████████████████████████████████▊                                          | 4062/7135 [3:42:09<2:41:07,  3.15s/it] 57%|███████████████████████████████████████████████████████▊                                          | 4063/7135 [3:42:12<2:49:43,  3.32s/it] 57%|███████████████████████████████████████████████████████▊                                          | 4064/7135 [3:42:17<3:04:42,  3.61s/it] 57%|███████████████████████████████████████████████████████▊                                          | 4065/7135 [3:42:20<3:06:06,  3.64s/it] 57%|███████████████████████████████████████████████████████▊                                          | 4066/7135 [3:42:23<2:57:37,  3.47s/it] 57%|███████████████████████████████████████████████████████▊                                          | 4067/7135 [3:42:27<2:52:12,  3.37s/it] 57%|███████████████████████████████████████████████████████▊                                          | 4068/7135 [3:42:30<2:56:05,  3.45s/it] 57%|███████████████████████████████████████████████████████▉                                          | 4069/7135 [3:42:33<2:51:32,  3.36s/it] 57%|███████████████████████████████████████████████████████▉                                          | 4070/7135 [3:42:37<2:48:31,  3.30s/it]                                                                                                                                               {'loss': 0.7468, 'grad_norm': 4.3125, 'learning_rate': 1.9993467821054646e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 431.91, 'epoch': 5.7}
 57%|███████████████████████████████████████████████████████▉                                          | 4070/7135 [3:42:37<2:48:31,  3.30s/it] 57%|███████████████████████████████████████████████████████▉                                          | 4071/7135 [3:42:40<2:43:55,  3.21s/it] 57%|███████████████████████████████████████████████████████▉                                          | 4072/7135 [3:42:43<2:49:34,  3.32s/it] 57%|███████████████████████████████████████████████████████▉                                          | 4073/7135 [3:42:46<2:45:52,  3.25s/it] 57%|███████████████████████████████████████████████████████▉                                          | 4074/7135 [3:42:50<2:47:35,  3.29s/it] 57%|███████████████████████████████████████████████████████▉                                          | 4075/7135 [3:42:53<2:52:07,  3.37s/it] 57%|███████████████████████████████████████████████████████▉                                          | 4076/7135 [3:42:56<2:41:19,  3.16s/it] 57%|███████████████████████████████████████████████████████▉                                          | 4077/7135 [3:42:59<2:46:49,  3.27s/it] 57%|████████████████████████████████████████████████████████                                          | 4078/7135 [3:43:02<2:42:50,  3.20s/it] 57%|████████████████████████████████████████████████████████                                          | 4079/7135 [3:43:06<2:46:59,  3.28s/it] 57%|████████████████████████████████████████████████████████                                          | 4080/7135 [3:43:09<2:40:06,  3.14s/it]                                                                                                                                               {'loss': 0.6868, 'grad_norm': 6.875, 'learning_rate': 1.988413815040844e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 403.95, 'epoch': 5.71}
 57%|████████████████████████████████████████████████████████                                          | 4080/7135 [3:43:09<2:40:06,  3.14s/it] 57%|████████████████████████████████████████████████████████                                          | 4081/7135 [3:43:12<2:46:04,  3.26s/it] 57%|████████████████████████████████████████████████████████                                          | 4082/7135 [3:43:15<2:44:14,  3.23s/it] 57%|████████████████████████████████████████████████████████                                          | 4083/7135 [3:43:19<2:51:53,  3.38s/it] 57%|████████████████████████████████████████████████████████                                          | 4084/7135 [3:43:22<2:42:28,  3.20s/it] 57%|████████████████████████████████████████████████████████                                          | 4085/7135 [3:43:25<2:41:09,  3.17s/it] 57%|████████████████████████████████████████████████████████                                          | 4086/7135 [3:43:28<2:35:51,  3.07s/it] 57%|████████████████████████████████████████████████████████▏                                         | 4087/7135 [3:43:31<2:34:00,  3.03s/it] 57%|████████████████████████████████████████████████████████▏                                         | 4088/7135 [3:43:34<2:33:39,  3.03s/it] 57%|████████████████████████████████████████████████████████▏                                         | 4089/7135 [3:43:37<2:34:49,  3.05s/it] 57%|████████████████████████████████████████████████████████▏                                         | 4090/7135 [3:43:40<2:40:18,  3.16s/it]                                                                                                                                               {'loss': 0.836, 'grad_norm': 3.046875, 'learning_rate': 1.9774910500774472e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 350.85, 'epoch': 5.73}
 57%|████████████████████████████████████████████████████████▏                                         | 4090/7135 [3:43:40<2:40:18,  3.16s/it] 57%|████████████████████████████████████████████████████████▏                                         | 4091/7135 [3:43:43<2:39:59,  3.15s/it] 57%|████████████████████████████████████████████████████████▏                                         | 4092/7135 [3:43:47<2:40:01,  3.16s/it] 57%|████████████████████████████████████████████████████████▏                                         | 4093/7135 [3:43:50<2:36:16,  3.08s/it] 57%|████████████████████████████████████████████████████████▏                                         | 4094/7135 [3:43:53<2:38:19,  3.12s/it] 57%|████████████████████████████████████████████████████████▏                                         | 4095/7135 [3:43:56<2:41:26,  3.19s/it] 57%|████████████████████████████████████████████████████████▎                                         | 4096/7135 [3:43:59<2:43:45,  3.23s/it] 57%|████████████████████████████████████████████████████████▎                                         | 4097/7135 [3:44:02<2:35:23,  3.07s/it] 57%|████████████████████████████████████████████████████████▎                                         | 4098/7135 [3:44:05<2:33:53,  3.04s/it] 57%|████████████████████████████████████████████████████████▎                                         | 4099/7135 [3:44:08<2:36:02,  3.08s/it] 57%|████████████████████████████████████████████████████████▎                                         | 4100/7135 [3:44:11<2:35:39,  3.08s/it]                                                                                                                                               {'loss': 0.8207, 'grad_norm': 5.59375, 'learning_rate': 1.9665787050381102e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 386.13, 'epoch': 5.74}
 57%|████████████████████████████████████████████████████████▎                                         | 4100/7135 [3:44:11<2:35:39,  3.08s/it] 57%|████████████████████████████████████████████████████████▎                                         | 4101/7135 [3:44:14<2:35:55,  3.08s/it] 57%|████████████████████████████████████████████████████████▎                                         | 4102/7135 [3:44:17<2:35:56,  3.09s/it] 58%|████████████████████████████████████████████████████████▎                                         | 4103/7135 [3:44:21<2:38:09,  3.13s/it] 58%|████████████████████████████████████████████████████████▎                                         | 4104/7135 [3:44:24<2:35:32,  3.08s/it] 58%|████████████████████████████████████████████████████████▍                                         | 4105/7135 [3:44:26<2:30:02,  2.97s/it] 58%|████████████████████████████████████████████████████████▍                                         | 4106/7135 [3:44:29<2:26:21,  2.90s/it] 58%|████████████████████████████████████████████████████████▍                                         | 4107/7135 [3:44:32<2:31:03,  2.99s/it] 58%|████████████████████████████████████████████████████████▍                                         | 4108/7135 [3:44:35<2:29:51,  2.97s/it] 58%|████████████████████████████████████████████████████████▍                                         | 4109/7135 [3:44:39<2:38:13,  3.14s/it] 58%|████████████████████████████████████████████████████████▍                                         | 4110/7135 [3:44:42<2:40:41,  3.19s/it]                                                                                                                                               {'loss': 0.7345, 'grad_norm': 5.65625, 'learning_rate': 1.9556769975378766e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 337.95, 'epoch': 5.76}
 58%|████████████████████████████████████████████████████████▍                                         | 4110/7135 [3:44:42<2:40:41,  3.19s/it] 58%|████████████████████████████████████████████████████████▍                                         | 4111/7135 [3:44:45<2:39:39,  3.17s/it] 58%|████████████████████████████████████████████████████████▍                                         | 4112/7135 [3:44:49<2:44:56,  3.27s/it] 58%|████████████████████████████████████████████████████████▍                                         | 4113/7135 [3:44:52<2:45:02,  3.28s/it] 58%|████████████████████████████████████████████████████████▌                                         | 4114/7135 [3:44:56<2:55:56,  3.49s/it] 58%|████████████████████████████████████████████████████████▌                                         | 4115/7135 [3:44:59<2:51:38,  3.41s/it] 58%|████████████████████████████████████████████████████████▌                                         | 4116/7135 [3:45:02<2:42:44,  3.23s/it] 58%|████████████████████████████████████████████████████████▌                                         | 4117/7135 [3:45:05<2:42:47,  3.24s/it] 58%|████████████████████████████████████████████████████████▌                                         | 4118/7135 [3:45:09<2:43:36,  3.25s/it] 58%|████████████████████████████████████████████████████████▌                                         | 4119/7135 [3:45:12<2:41:30,  3.21s/it] 58%|████████████████████████████████████████████████████████▌                                         | 4120/7135 [3:45:15<2:38:26,  3.15s/it]                                                                                                                                               {'loss': 0.7105, 'grad_norm': 4.625, 'learning_rate': 1.9447861449796505e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 372.03, 'epoch': 5.77}
 58%|████████████████████████████████████████████████████████▌                                         | 4120/7135 [3:45:15<2:38:26,  3.15s/it] 58%|████████████████████████████████████████████████████████▌                                         | 4121/7135 [3:45:18<2:37:57,  3.14s/it] 58%|████████████████████████████████████████████████████████▌                                         | 4122/7135 [3:45:22<2:45:41,  3.30s/it] 58%|████████████████████████████████████████████████████████▋                                         | 4123/7135 [3:45:25<2:46:09,  3.31s/it] 58%|████████████████████████████████████████████████████████▋                                         | 4124/7135 [3:45:28<2:40:00,  3.19s/it] 58%|████████████████████████████████████████████████████████▋                                         | 4125/7135 [3:45:32<2:50:28,  3.40s/it] 58%|████████████████████████████████████████████████████████▋                                         | 4126/7135 [3:45:35<2:51:47,  3.43s/it] 58%|████████████████████████████████████████████████████████▋                                         | 4127/7135 [3:45:38<2:44:50,  3.29s/it] 58%|████████████████████████████████████████████████████████▋                                         | 4128/7135 [3:45:41<2:43:33,  3.26s/it] 58%|████████████████████████████████████████████████████████▋                                         | 4129/7135 [3:45:45<2:43:59,  3.27s/it] 58%|████████████████████████████████████████████████████████▋                                         | 4130/7135 [3:45:48<2:48:07,  3.36s/it]                                                                                                                                               {'loss': 0.7282, 'grad_norm': 4.03125, 'learning_rate': 1.9339063645498676e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 341.86, 'epoch': 5.78}
 58%|████████████████████████████████████████████████████████▋                                         | 4130/7135 [3:45:48<2:48:07,  3.36s/it] 58%|████████████████████████████████████████████████████████▋                                         | 4131/7135 [3:45:51<2:42:43,  3.25s/it] 58%|████████████████████████████████████████████████████████▊                                         | 4132/7135 [3:45:54<2:41:19,  3.22s/it] 58%|████████████████████████████████████████████████████████▊                                         | 4133/7135 [3:45:57<2:35:16,  3.10s/it] 58%|████████████████████████████████████████████████████████▊                                         | 4134/7135 [3:46:00<2:38:28,  3.17s/it] 58%|████████████████████████████████████████████████████████▊                                         | 4135/7135 [3:46:03<2:33:55,  3.08s/it] 58%|████████████████████████████████████████████████████████▊                                         | 4136/7135 [3:46:06<2:33:06,  3.06s/it] 58%|████████████████████████████████████████████████████████▊                                         | 4137/7135 [3:46:09<2:31:40,  3.04s/it] 58%|████████████████████████████████████████████████████████▊                                         | 4138/7135 [3:46:12<2:28:49,  2.98s/it] 58%|████████████████████████████████████████████████████████▊                                         | 4139/7135 [3:46:16<2:35:19,  3.11s/it] 58%|████████████████████████████████████████████████████████▊                                         | 4140/7135 [3:46:19<2:33:18,  3.07s/it]                                                                                                                                               {'loss': 0.7623, 'grad_norm': 4.625, 'learning_rate': 1.923037873214165e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 429.37, 'epoch': 5.8}
 58%|████████████████████████████████████████████████████████▊                                         | 4140/7135 [3:46:19<2:33:18,  3.07s/it] 58%|████████████████████████████████████████████████████████▉                                         | 4141/7135 [3:46:22<2:31:30,  3.04s/it] 58%|████████████████████████████████████████████████████████▉                                         | 4142/7135 [3:46:25<2:33:42,  3.08s/it] 58%|████████████████████████████████████████████████████████▉                                         | 4143/7135 [3:46:28<2:33:04,  3.07s/it] 58%|████████████████████████████████████████████████████████▉                                         | 4144/7135 [3:46:31<2:32:20,  3.06s/it] 58%|████████████████████████████████████████████████████████▉                                         | 4145/7135 [3:46:34<2:40:59,  3.23s/it] 58%|████████████████████████████████████████████████████████▉                                         | 4146/7135 [3:46:38<2:41:50,  3.25s/it] 58%|████████████████████████████████████████████████████████▉                                         | 4147/7135 [3:46:41<2:39:46,  3.21s/it] 58%|████████████████████████████████████████████████████████▉                                         | 4148/7135 [3:46:44<2:36:54,  3.15s/it] 58%|████████████████████████████████████████████████████████▉                                         | 4149/7135 [3:46:48<2:46:07,  3.34s/it] 58%|█████████████████████████████████████████████████████████                                         | 4150/7135 [3:46:51<2:42:54,  3.27s/it]                                                                                                                                               {'loss': 0.7708, 'grad_norm': 4.84375, 'learning_rate': 1.9121808877130475e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 393.48, 'epoch': 5.81}
 58%|█████████████████████████████████████████████████████████                                         | 4150/7135 [3:46:51<2:42:54,  3.27s/it] 58%|█████████████████████████████████████████████████████████                                         | 4151/7135 [3:46:54<2:44:32,  3.31s/it] 58%|█████████████████████████████████████████████████████████                                         | 4152/7135 [3:46:58<2:57:56,  3.58s/it] 58%|█████████████████████████████████████████████████████████                                         | 4153/7135 [3:47:01<2:48:34,  3.39s/it] 58%|█████████████████████████████████████████████████████████                                         | 4154/7135 [3:47:05<2:45:40,  3.33s/it] 58%|█████████████████████████████████████████████████████████                                         | 4155/7135 [3:47:08<2:40:43,  3.24s/it] 58%|█████████████████████████████████████████████████████████                                         | 4156/7135 [3:47:11<2:38:22,  3.19s/it] 58%|█████████████████████████████████████████████████████████                                         | 4157/7135 [3:47:13<2:32:51,  3.08s/it] 58%|█████████████████████████████████████████████████████████                                         | 4158/7135 [3:47:16<2:29:09,  3.01s/it] 58%|█████████████████████████████████████████████████████████                                         | 4159/7135 [3:47:20<2:36:25,  3.15s/it] 58%|█████████████████████████████████████████████████████████▏                                        | 4160/7135 [3:47:23<2:32:03,  3.07s/it]                                                                                                                                               {'loss': 0.7986, 'grad_norm': 5.46875, 'learning_rate': 1.9013356245575693e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 432.86, 'epoch': 5.83}
 58%|█████████████████████████████████████████████████████████▏                                        | 4160/7135 [3:47:23<2:32:03,  3.07s/it] 58%|█████████████████████████████████████████████████████████▏                                        | 4161/7135 [3:47:26<2:32:36,  3.08s/it] 58%|█████████████████████████████████████████████████████████▏                                        | 4162/7135 [3:47:29<2:33:36,  3.10s/it] 58%|█████████████████████████████████████████████████████████▏                                        | 4163/7135 [3:47:33<2:44:28,  3.32s/it] 58%|█████████████████████████████████████████████████████████▏                                        | 4164/7135 [3:47:36<2:40:50,  3.25s/it] 58%|█████████████████████████████████████████████████████████▏                                        | 4165/7135 [3:47:39<2:33:42,  3.11s/it] 58%|█████████████████████████████████████████████████████████▏                                        | 4166/7135 [3:47:42<2:32:09,  3.07s/it] 58%|█████████████████████████████████████████████████████████▏                                        | 4167/7135 [3:47:44<2:26:45,  2.97s/it] 58%|█████████████████████████████████████████████████████████▏                                        | 4168/7135 [3:47:47<2:27:29,  2.98s/it] 58%|█████████████████████████████████████████████████████████▎                                        | 4169/7135 [3:47:50<2:26:54,  2.97s/it] 58%|█████████████████████████████████████████████████████████▎                                        | 4170/7135 [3:47:54<2:34:08,  3.12s/it]                                                                                                                                               {'loss': 0.7791, 'grad_norm': 4.875, 'learning_rate': 1.8905023000250207e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 349.65, 'epoch': 5.84}
 58%|█████████████████████████████████████████████████████████▎                                        | 4170/7135 [3:47:54<2:34:08,  3.12s/it] 58%|█████████████████████████████████████████████████████████▎                                        | 4171/7135 [3:47:57<2:34:44,  3.13s/it] 58%|█████████████████████████████████████████████████████████▎                                        | 4172/7135 [3:48:00<2:34:34,  3.13s/it] 58%|█████████████████████████████████████████████████████████▎                                        | 4173/7135 [3:48:04<2:41:23,  3.27s/it] 59%|█████████████████████████████████████████████████████████▎                                        | 4174/7135 [3:48:07<2:36:49,  3.18s/it] 59%|█████████████████████████████████████████████████████████▎                                        | 4175/7135 [3:48:10<2:41:47,  3.28s/it] 59%|█████████████████████████████████████████████████████████▎                                        | 4176/7135 [3:48:13<2:39:48,  3.24s/it] 59%|█████████████████████████████████████████████████████████▎                                        | 4177/7135 [3:48:17<2:41:06,  3.27s/it] 59%|█████████████████████████████████████████████████████████▍                                        | 4178/7135 [3:48:20<2:39:55,  3.25s/it] 59%|█████████████████████████████████████████████████████████▍                                        | 4179/7135 [3:48:23<2:46:59,  3.39s/it] 59%|█████████████████████████████████████████████████████████▍                                        | 4180/7135 [3:48:27<2:52:52,  3.51s/it]                                                                                                                                               {'loss': 0.7329, 'grad_norm': 5.875, 'learning_rate': 1.8796811301546076e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 345.71, 'epoch': 5.86}
 59%|█████████████████████████████████████████████████████████▍                                        | 4180/7135 [3:48:27<2:52:52,  3.51s/it] 59%|█████████████████████████████████████████████████████████▍                                        | 4181/7135 [3:48:30<2:46:38,  3.38s/it] 59%|█████████████████████████████████████████████████████████▍                                        | 4182/7135 [3:48:34<2:44:46,  3.35s/it] 59%|█████████████████████████████████████████████████████████▍                                        | 4183/7135 [3:48:36<2:37:04,  3.19s/it] 59%|█████████████████████████████████████████████████████████▍                                        | 4184/7135 [3:48:41<2:52:59,  3.52s/it] 59%|█████████████████████████████████████████████████████████▍                                        | 4185/7135 [3:48:43<2:40:28,  3.26s/it] 59%|█████████████████████████████████████████████████████████▍                                        | 4186/7135 [3:48:47<2:42:33,  3.31s/it] 59%|█████████████████████████████████████████████████████████▌                                        | 4187/7135 [3:48:50<2:40:07,  3.26s/it] 59%|█████████████████████████████████████████████████████████▌                                        | 4188/7135 [3:48:53<2:44:15,  3.34s/it] 59%|█████████████████████████████████████████████████████████▌                                        | 4189/7135 [3:48:57<2:42:28,  3.31s/it] 59%|█████████████████████████████████████████████████████████▌                                        | 4190/7135 [3:49:00<2:41:42,  3.29s/it]                                                                                                                                               {'loss': 0.7166, 'grad_norm': 5.1875, 'learning_rate': 1.8688723307431456e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 357.42, 'epoch': 5.87}
 59%|█████████████████████████████████████████████████████████▌                                        | 4190/7135 [3:49:00<2:41:42,  3.29s/it] 59%|█████████████████████████████████████████████████████████▌                                        | 4191/7135 [3:49:03<2:41:56,  3.30s/it] 59%|█████████████████████████████████████████████████████████▌                                        | 4192/7135 [3:49:06<2:34:24,  3.15s/it] 59%|█████████████████████████████████████████████████████████▌                                        | 4193/7135 [3:49:09<2:34:18,  3.15s/it] 59%|█████████████████████████████████████████████████████████▌                                        | 4194/7135 [3:49:12<2:34:44,  3.16s/it] 59%|█████████████████████████████████████████████████████████▌                                        | 4195/7135 [3:49:16<2:35:00,  3.16s/it] 59%|█████████████████████████████████████████████████████████▋                                        | 4196/7135 [3:49:19<2:38:46,  3.24s/it] 59%|█████████████████████████████████████████████████████████▋                                        | 4197/7135 [3:49:23<2:48:01,  3.43s/it] 59%|█████████████████████████████████████████████████████████▋                                        | 4198/7135 [3:49:26<2:44:06,  3.35s/it] 59%|█████████████████████████████████████████████████████████▋                                        | 4199/7135 [3:49:29<2:40:10,  3.27s/it] 59%|█████████████████████████████████████████████████████████▋                                        | 4200/7135 [3:49:32<2:39:30,  3.26s/it]                                                                                                                                               {'loss': 0.6972, 'grad_norm': 3.984375, 'learning_rate': 1.8580761173407617e-06, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 384.09, 'epoch': 5.88}
 59%|█████████████████████████████████████████████████████████▋                                        | 4200/7135 [3:49:32<2:39:30,  3.26s/it] 59%|█████████████████████████████████████████████████████████▋                                        | 4201/7135 [3:49:35<2:32:30,  3.12s/it] 59%|█████████████████████████████████████████████████████████▋                                        | 4202/7135 [3:49:39<2:35:49,  3.19s/it] 59%|█████████████████████████████████████████████████████████▋                                        | 4203/7135 [3:49:41<2:30:13,  3.07s/it] 59%|█████████████████████████████████████████████████████████▋                                        | 4204/7135 [3:49:45<2:33:49,  3.15s/it] 59%|█████████████████████████████████████████████████████████▊                                        | 4205/7135 [3:49:48<2:31:51,  3.11s/it] 59%|█████████████████████████████████████████████████████████▊                                        | 4206/7135 [3:49:51<2:33:06,  3.14s/it] 59%|█████████████████████████████████████████████████████████▊                                        | 4207/7135 [3:49:54<2:39:39,  3.27s/it] 59%|█████████████████████████████████████████████████████████▊                                        | 4208/7135 [3:49:58<2:39:46,  3.28s/it] 59%|█████████████████████████████████████████████████████████▊                                        | 4209/7135 [3:50:01<2:37:55,  3.24s/it] 59%|█████████████████████████████████████████████████████████▊                                        | 4210/7135 [3:50:04<2:31:04,  3.10s/it]                                                                                                                                               {'loss': 0.7268, 'grad_norm': 5.90625, 'learning_rate': 1.8472927052465863e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 416.92, 'epoch': 5.9}
 59%|█████████████████████████████████████████████████████████▊                                        | 4210/7135 [3:50:04<2:31:04,  3.10s/it] 59%|█████████████████████████████████████████████████████████▊                                        | 4211/7135 [3:50:07<2:30:28,  3.09s/it] 59%|█████████████████████████████████████████████████████████▊                                        | 4212/7135 [3:50:10<2:36:09,  3.21s/it] 59%|█████████████████████████████████████████████████████████▊                                        | 4213/7135 [3:50:14<2:38:29,  3.25s/it] 59%|█████████████████████████████████████████████████████████▉                                        | 4214/7135 [3:50:17<2:37:00,  3.23s/it] 59%|█████████████████████████████████████████████████████████▉                                        | 4215/7135 [3:50:20<2:35:39,  3.20s/it] 59%|█████████████████████████████████████████████████████████▉                                        | 4216/7135 [3:50:23<2:39:21,  3.28s/it] 59%|█████████████████████████████████████████████████████████▉                                        | 4217/7135 [3:50:27<2:45:27,  3.40s/it] 59%|█████████████████████████████████████████████████████████▉                                        | 4218/7135 [3:50:31<2:55:36,  3.61s/it] 59%|█████████████████████████████████████████████████████████▉                                        | 4219/7135 [3:50:34<2:49:26,  3.49s/it] 59%|█████████████████████████████████████████████████████████▉                                        | 4220/7135 [3:50:38<2:48:57,  3.48s/it]                                                                                                                                               {'loss': 0.6935, 'grad_norm': 5.8125, 'learning_rate': 1.836522309504467e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 443.78, 'epoch': 5.91}
 59%|█████████████████████████████████████████████████████████▉                                        | 4220/7135 [3:50:38<2:48:57,  3.48s/it] 59%|█████████████████████████████████████████████████████████▉                                        | 4221/7135 [3:50:41<2:40:13,  3.30s/it] 59%|█████████████████████████████████████████████████████████▉                                        | 4222/7135 [3:50:44<2:34:20,  3.18s/it] 59%|██████████████████████████████████████████████████████████                                        | 4223/7135 [3:50:47<2:35:40,  3.21s/it] 59%|██████████████████████████████████████████████████████████                                        | 4224/7135 [3:50:50<2:33:27,  3.16s/it] 59%|██████████████████████████████████████████████████████████                                        | 4225/7135 [3:50:53<2:28:15,  3.06s/it] 59%|██████████████████████████████████████████████████████████                                        | 4226/7135 [3:50:57<2:44:27,  3.39s/it] 59%|██████████████████████████████████████████████████████████                                        | 4227/7135 [3:50:59<2:31:34,  3.13s/it] 59%|██████████████████████████████████████████████████████████                                        | 4228/7135 [3:51:02<2:27:03,  3.04s/it] 59%|██████████████████████████████████████████████████████████                                        | 4229/7135 [3:51:05<2:30:59,  3.12s/it] 59%|██████████████████████████████████████████████████████████                                        | 4230/7135 [3:51:09<2:31:17,  3.12s/it]                                                                                                                                               {'loss': 0.6788, 'grad_norm': 5.65625, 'learning_rate': 1.8257651448986807e-06, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 514.37, 'epoch': 5.93}
 59%|██████████████████████████████████████████████████████████                                        | 4230/7135 [3:51:09<2:31:17,  3.12s/it] 59%|██████████████████████████████████████████████████████████                                        | 4231/7135 [3:51:13<2:45:33,  3.42s/it] 59%|██████████████████████████████████████████████████████████▏                                       | 4232/7135 [3:51:16<2:41:31,  3.34s/it] 59%|██████████████████████████████████████████████████████████▏                                       | 4233/7135 [3:51:19<2:36:30,  3.24s/it] 59%|██████████████████████████████████████████████████████████▏                                       | 4234/7135 [3:51:21<2:27:06,  3.04s/it] 59%|██████████████████████████████████████████████████████████▏                                       | 4235/7135 [3:51:25<2:27:30,  3.05s/it] 59%|██████████████████████████████████████████████████████████▏                                       | 4236/7135 [3:51:28<2:39:12,  3.30s/it] 59%|██████████████████████████████████████████████████████████▏                                       | 4237/7135 [3:51:32<2:42:03,  3.36s/it] 59%|██████████████████████████████████████████████████████████▏                                       | 4238/7135 [3:51:35<2:38:15,  3.28s/it] 59%|██████████████████████████████████████████████████████████▏                                       | 4239/7135 [3:51:38<2:35:43,  3.23s/it] 59%|██████████████████████████████████████████████████████████▏                                       | 4240/7135 [3:51:41<2:29:49,  3.11s/it]                                                                                                                                               {'loss': 0.8471, 'grad_norm': 5.125, 'learning_rate': 1.815021425949644e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 551.16, 'epoch': 5.94}
 59%|██████████████████████████████████████████████████████████▏                                       | 4240/7135 [3:51:41<2:29:49,  3.11s/it] 59%|██████████████████████████████████████████████████████████▎                                       | 4241/7135 [3:51:44<2:29:56,  3.11s/it] 59%|██████████████████████████████████████████████████████████▎                                       | 4242/7135 [3:51:48<2:40:23,  3.33s/it] 59%|██████████████████████████████████████████████████████████▎                                       | 4243/7135 [3:51:51<2:32:40,  3.17s/it] 59%|██████████████████████████████████████████████████████████▎                                       | 4244/7135 [3:51:53<2:25:08,  3.01s/it] 59%|██████████████████████████████████████████████████████████▎                                       | 4245/7135 [3:51:57<2:34:02,  3.20s/it] 60%|██████████████████████████████████████████████████████████▎                                       | 4246/7135 [3:52:00<2:37:33,  3.27s/it] 60%|██████████████████████████████████████████████████████████▎                                       | 4247/7135 [3:52:03<2:31:41,  3.15s/it] 60%|██████████████████████████████████████████████████████████▎                                       | 4248/7135 [3:52:07<2:35:31,  3.23s/it] 60%|██████████████████████████████████████████████████████████▎                                       | 4249/7135 [3:52:10<2:30:50,  3.14s/it] 60%|██████████████████████████████████████████████████████████▎                                       | 4250/7135 [3:52:13<2:33:13,  3.19s/it]                                                                                                                                               {'loss': 0.6902, 'grad_norm': 3.96875, 'learning_rate': 1.8042913669096391e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 366.01, 'epoch': 5.95}
 60%|██████████████████████████████████████████████████████████▎                                       | 4250/7135 [3:52:13<2:33:13,  3.19s/it] 60%|██████████████████████████████████████████████████████████▍                                       | 4251/7135 [3:52:16<2:30:57,  3.14s/it] 60%|██████████████████████████████████████████████████████████▍                                       | 4252/7135 [3:52:19<2:35:58,  3.25s/it] 60%|██████████████████████████████████████████████████████████▍                                       | 4253/7135 [3:52:23<2:34:07,  3.21s/it] 60%|██████████████████████████████████████████████████████████▍                                       | 4254/7135 [3:52:26<2:35:44,  3.24s/it] 60%|██████████████████████████████████████████████████████████▍                                       | 4255/7135 [3:52:29<2:30:02,  3.13s/it] 60%|██████████████████████████████████████████████████████████▍                                       | 4256/7135 [3:52:32<2:30:53,  3.14s/it] 60%|██████████████████████████████████████████████████████████▍                                       | 4257/7135 [3:52:35<2:27:27,  3.07s/it] 60%|██████████████████████████████████████████████████████████▍                                       | 4258/7135 [3:52:38<2:30:16,  3.13s/it] 60%|██████████████████████████████████████████████████████████▍                                       | 4259/7135 [3:52:41<2:33:03,  3.19s/it] 60%|██████████████████████████████████████████████████████████▌                                       | 4260/7135 [3:52:45<2:38:26,  3.31s/it]                                                                                                                                               {'loss': 0.816, 'grad_norm': 6.34375, 'learning_rate': 1.7935751817585444e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 364.57, 'epoch': 5.97}
 60%|██████████████████████████████████████████████████████████▌                                       | 4260/7135 [3:52:45<2:38:26,  3.31s/it] 60%|██████████████████████████████████████████████████████████▌                                       | 4261/7135 [3:52:48<2:40:30,  3.35s/it] 60%|██████████████████████████████████████████████████████████▌                                       | 4262/7135 [3:52:52<2:38:17,  3.31s/it] 60%|██████████████████████████████████████████████████████████▌                                       | 4263/7135 [3:52:55<2:37:39,  3.29s/it] 60%|██████████████████████████████████████████████████████████▌                                       | 4264/7135 [3:52:58<2:31:54,  3.17s/it] 60%|██████████████████████████████████████████████████████████▌                                       | 4265/7135 [3:53:01<2:30:21,  3.14s/it] 60%|██████████████████████████████████████████████████████████▌                                       | 4266/7135 [3:53:04<2:26:09,  3.06s/it] 60%|██████████████████████████████████████████████████████████▌                                       | 4267/7135 [3:53:07<2:30:30,  3.15s/it] 60%|██████████████████████████████████████████████████████████▌                                       | 4268/7135 [3:53:10<2:28:32,  3.11s/it] 60%|██████████████████████████████████████████████████████████▋                                       | 4269/7135 [3:53:13<2:24:57,  3.03s/it] 60%|██████████████████████████████████████████████████████████▋                                       | 4270/7135 [3:53:16<2:29:14,  3.13s/it]                                                                                                                                               {'loss': 0.7974, 'grad_norm': 5.03125, 'learning_rate': 1.78287308419956e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 383.92, 'epoch': 5.98}
 60%|██████████████████████████████████████████████████████████▋                                       | 4270/7135 [3:53:16<2:29:14,  3.13s/it] 60%|██████████████████████████████████████████████████████████▋                                       | 4271/7135 [3:53:19<2:23:08,  3.00s/it] 60%|██████████████████████████████████████████████████████████▋                                       | 4272/7135 [3:53:22<2:28:17,  3.11s/it] 60%|██████████████████████████████████████████████████████████▋                                       | 4273/7135 [3:53:26<2:32:22,  3.19s/it] 60%|██████████████████████████████████████████████████████████▋                                       | 4274/7135 [3:53:30<2:39:38,  3.35s/it] 60%|██████████████████████████████████████████████████████████▋                                       | 4275/7135 [3:53:33<2:38:30,  3.33s/it] 60%|██████████████████████████████████████████████████████████▋                                       | 4276/7135 [3:53:36<2:33:34,  3.22s/it] 60%|██████████████████████████████████████████████████████████▋                                       | 4277/7135 [3:53:39<2:31:55,  3.19s/it] 60%|██████████████████████████████████████████████████████████▊                                       | 4278/7135 [3:53:42<2:33:38,  3.23s/it] 60%|██████████████████████████████████████████████████████████▊                                       | 4279/7135 [3:53:45<2:33:55,  3.23s/it] 60%|██████████████████████████████████████████████████████████▊                                       | 4280/7135 [3:53:49<2:38:48,  3.34s/it]                                                                                                                                               {'loss': 0.9124, 'grad_norm': 5.625, 'learning_rate': 1.772185287654951e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 343.19, 'epoch': 6.0}
 60%|██████████████████████████████████████████████████████████▊                                       | 4280/7135 [3:53:49<2:38:48,  3.34s/it] 60%|██████████████████████████████████████████████████████████▊                                       | 4281/7135 [3:53:52<2:28:27,  3.12s/it] 60%|██████████████████████████████████████████████████████████▊                                       | 4282/7135 [3:53:55<2:27:03,  3.09s/it] 60%|██████████████████████████████████████████████████████████▊                                       | 4283/7135 [3:53:58<2:29:34,  3.15s/it] 60%|██████████████████████████████████████████████████████████▊                                       | 4284/7135 [3:53:59<2:06:10,  2.66s/it][2025-12-23 18:18:05,608] [INFO] [axolotl.core.trainers.base._save:671] [PID:5064] Saving model checkpoint to ./outputs/qwen3-4b-instruct-abd-full-train/checkpoint-4284
 60%|██████████████████████████████████████████████████████████▎                                      | 4285/7135 [3:55:04<16:42:06, 21.10s/it] 60%|██████████████████████████████████████████████████████████▎                                      | 4286/7135 [3:55:07<12:27:32, 15.74s/it] 60%|██████████████████████████████████████████████████████████▉                                       | 4287/7135 [3:55:11<9:38:46, 12.19s/it] 60%|██████████████████████████████████████████████████████████▉                                       | 4288/7135 [3:55:14<7:27:37,  9.43s/it] 60%|██████████████████████████████████████████████████████████▉                                       | 4289/7135 [3:55:17<6:00:04,  7.59s/it] 60%|██████████████████████████████████████████████████████████▉                                       | 4290/7135 [3:55:20<4:56:00,  6.24s/it]                                                                                                                                               {'loss': 0.7333, 'grad_norm': 3.515625, 'learning_rate': 1.7615120052617923e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 416.58, 'epoch': 6.01}
 60%|██████████████████████████████████████████████████████████▉                                       | 4290/7135 [3:55:20<4:56:00,  6.24s/it] 60%|██████████████████████████████████████████████████████████▉                                       | 4291/7135 [3:55:23<4:10:04,  5.28s/it] 60%|██████████████████████████████████████████████████████████▉                                       | 4292/7135 [3:55:27<3:46:36,  4.78s/it] 60%|██████████████████████████████████████████████████████████▉                                       | 4293/7135 [3:55:31<3:35:26,  4.55s/it] 60%|██████████████████████████████████████████████████████████▉                                       | 4294/7135 [3:55:34<3:18:52,  4.20s/it] 60%|██████████████████████████████████████████████████████████▉                                       | 4295/7135 [3:55:39<3:25:59,  4.35s/it] 60%|███████████████████████████████████████████████████████████                                       | 4296/7135 [3:55:42<3:08:39,  3.99s/it] 60%|███████████████████████████████████████████████████████████                                       | 4297/7135 [3:55:46<3:03:40,  3.88s/it] 60%|███████████████████████████████████████████████████████████                                       | 4298/7135 [3:55:49<2:53:17,  3.67s/it] 60%|███████████████████████████████████████████████████████████                                       | 4299/7135 [3:55:52<2:45:21,  3.50s/it] 60%|███████████████████████████████████████████████████████████                                       | 4300/7135 [3:55:56<2:48:54,  3.57s/it]                                                                                                                                               {'loss': 0.8533, 'grad_norm': 2.046875, 'learning_rate': 1.7508534498677137e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 487.81, 'epoch': 6.02}
 60%|███████████████████████████████████████████████████████████                                       | 4300/7135 [3:55:56<2:48:54,  3.57s/it] 60%|███████████████████████████████████████████████████████████                                       | 4301/7135 [3:55:59<2:41:13,  3.41s/it] 60%|███████████████████████████████████████████████████████████                                       | 4302/7135 [3:56:03<2:52:13,  3.65s/it] 60%|███████████████████████████████████████████████████████████                                       | 4303/7135 [3:56:06<2:39:45,  3.38s/it] 60%|███████████████████████████████████████████████████████████                                       | 4304/7135 [3:56:09<2:40:43,  3.41s/it] 60%|███████████████████████████████████████████████████████████▏                                      | 4305/7135 [3:56:12<2:38:50,  3.37s/it] 60%|███████████████████████████████████████████████████████████▏                                      | 4306/7135 [3:56:16<2:36:49,  3.33s/it] 60%|███████████████████████████████████████████████████████████▏                                      | 4307/7135 [3:56:19<2:30:38,  3.20s/it] 60%|███████████████████████████████████████████████████████████▏                                      | 4308/7135 [3:56:22<2:34:15,  3.27s/it] 60%|███████████████████████████████████████████████████████████▏                                      | 4309/7135 [3:56:26<2:39:36,  3.39s/it] 60%|███████████████████████████████████████████████████████████▏                                      | 4310/7135 [3:56:28<2:29:03,  3.17s/it]                                                                                                                                               {'loss': 0.754, 'grad_norm': 5.59375, 'learning_rate': 1.740209834026658e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 439.03, 'epoch': 6.04}
 60%|███████████████████████████████████████████████████████████▏                                      | 4310/7135 [3:56:28<2:29:03,  3.17s/it] 60%|███████████████████████████████████████████████████████████▏                                      | 4311/7135 [3:56:32<2:34:16,  3.28s/it] 60%|███████████████████████████████████████████████████████████▏                                      | 4312/7135 [3:56:35<2:34:40,  3.29s/it] 60%|███████████████████████████████████████████████████████████▏                                      | 4313/7135 [3:56:38<2:31:33,  3.22s/it] 60%|███████████████████████████████████████████████████████████▎                                      | 4314/7135 [3:56:42<2:32:51,  3.25s/it] 60%|███████████████████████████████████████████████████████████▎                                      | 4315/7135 [3:56:45<2:30:39,  3.21s/it] 60%|███████████████████████████████████████████████████████████▎                                      | 4316/7135 [3:56:48<2:27:09,  3.13s/it] 61%|███████████████████████████████████████████████████████████▎                                      | 4317/7135 [3:56:51<2:27:34,  3.14s/it] 61%|███████████████████████████████████████████████████████████▎                                      | 4318/7135 [3:56:53<2:21:52,  3.02s/it] 61%|███████████████████████████████████████████████████████████▎                                      | 4319/7135 [3:56:56<2:19:33,  2.97s/it] 61%|███████████████████████████████████████████████████████████▎                                      | 4320/7135 [3:56:59<2:16:26,  2.91s/it]                                                                                                                                               {'loss': 0.6828, 'grad_norm': 3.71875, 'learning_rate': 1.7295813699946447e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 429.65, 'epoch': 6.05}
 61%|███████████████████████████████████████████████████████████▎                                      | 4320/7135 [3:56:59<2:16:26,  2.91s/it] 61%|███████████████████████████████████████████████████████████▎                                      | 4321/7135 [3:57:02<2:17:55,  2.94s/it] 61%|███████████████████████████████████████████████████████████▎                                      | 4322/7135 [3:57:05<2:18:14,  2.95s/it] 61%|███████████████████████████████████████████████████████████▍                                      | 4323/7135 [3:57:08<2:20:08,  2.99s/it] 61%|███████████████████████████████████████████████████████████▍                                      | 4324/7135 [3:57:12<2:26:27,  3.13s/it] 61%|███████████████████████████████████████████████████████████▍                                      | 4325/7135 [3:57:15<2:25:37,  3.11s/it] 61%|███████████████████████████████████████████████████████████▍                                      | 4326/7135 [3:57:18<2:22:01,  3.03s/it] 61%|███████████████████████████████████████████████████████████▍                                      | 4327/7135 [3:57:21<2:23:30,  3.07s/it] 61%|███████████████████████████████████████████████████████████▍                                      | 4328/7135 [3:57:24<2:21:33,  3.03s/it] 61%|███████████████████████████████████████████████████████████▍                                      | 4329/7135 [3:57:27<2:24:20,  3.09s/it] 61%|███████████████████████████████████████████████████████████▍                                      | 4330/7135 [3:57:30<2:30:11,  3.21s/it]                                                                                                                                               {'loss': 0.7424, 'grad_norm': 5.34375, 'learning_rate': 1.7189682697255311e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 352.95, 'epoch': 6.06}
 61%|███████████████████████████████████████████████████████████▍                                      | 4330/7135 [3:57:30<2:30:11,  3.21s/it] 61%|███████████████████████████████████████████████████████████▍                                      | 4331/7135 [3:57:34<2:31:07,  3.23s/it] 61%|███████████████████████████████████████████████████████████▌                                      | 4332/7135 [3:57:37<2:29:23,  3.20s/it] 61%|███████████████████████████████████████████████████████████▌                                      | 4333/7135 [3:57:40<2:26:18,  3.13s/it] 61%|███████████████████████████████████████████████████████████▌                                      | 4334/7135 [3:57:43<2:24:51,  3.10s/it] 61%|███████████████████████████████████████████████████████████▌                                      | 4335/7135 [3:57:46<2:20:17,  3.01s/it] 61%|███████████████████████████████████████████████████████████▌                                      | 4336/7135 [3:57:49<2:21:05,  3.02s/it] 61%|███████████████████████████████████████████████████████████▌                                      | 4337/7135 [3:57:51<2:18:34,  2.97s/it] 61%|███████████████████████████████████████████████████████████▌                                      | 4338/7135 [3:57:55<2:29:12,  3.20s/it] 61%|███████████████████████████████████████████████████████████▌                                      | 4339/7135 [3:57:59<2:33:50,  3.30s/it] 61%|███████████████████████████████████████████████████████████▌                                      | 4340/7135 [3:58:03<2:43:14,  3.50s/it]                                                                                                                                               {'loss': 0.7179, 'grad_norm': 5.25, 'learning_rate': 1.7083707448667885e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 271.32, 'epoch': 6.08}
 61%|███████████████████████████████████████████████████████████▌                                      | 4340/7135 [3:58:03<2:43:14,  3.50s/it] 61%|███████████████████████████████████████████████████████████▌                                      | 4341/7135 [3:58:06<2:43:22,  3.51s/it] 61%|███████████████████████████████████████████████████████████▋                                      | 4342/7135 [3:58:09<2:31:36,  3.26s/it] 61%|███████████████████████████████████████████████████████████▋                                      | 4343/7135 [3:58:12<2:28:53,  3.20s/it] 61%|███████████████████████████████████████████████████████████▋                                      | 4344/7135 [3:58:16<2:36:05,  3.36s/it] 61%|███████████████████████████████████████████████████████████▋                                      | 4345/7135 [3:58:19<2:31:59,  3.27s/it] 61%|███████████████████████████████████████████████████████████▋                                      | 4346/7135 [3:58:21<2:24:40,  3.11s/it] 61%|███████████████████████████████████████████████████████████▋                                      | 4347/7135 [3:58:25<2:23:47,  3.09s/it] 61%|███████████████████████████████████████████████████████████▋                                      | 4348/7135 [3:58:28<2:22:43,  3.07s/it] 61%|███████████████████████████████████████████████████████████▋                                      | 4349/7135 [3:58:31<2:26:26,  3.15s/it] 61%|███████████████████████████████████████████████████████████▋                                      | 4350/7135 [3:58:34<2:27:00,  3.17s/it]                                                                                                                                               {'loss': 0.7604, 'grad_norm': 4.3125, 'learning_rate': 1.6977890067552868e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 339.18, 'epoch': 6.09}
 61%|███████████████████████████████████████████████████████████▋                                      | 4350/7135 [3:58:34<2:27:00,  3.17s/it] 61%|███████████████████████████████████████████████████████████▊                                      | 4351/7135 [3:58:37<2:27:05,  3.17s/it] 61%|███████████████████████████████████████████████████████████▊                                      | 4352/7135 [3:58:40<2:26:57,  3.17s/it] 61%|███████████████████████████████████████████████████████████▊                                      | 4353/7135 [3:58:44<2:38:42,  3.42s/it] 61%|███████████████████████████████████████████████████████████▊                                      | 4354/7135 [3:58:48<2:38:04,  3.41s/it] 61%|███████████████████████████████████████████████████████████▊                                      | 4355/7135 [3:58:51<2:31:03,  3.26s/it] 61%|███████████████████████████████████████████████████████████▊                                      | 4356/7135 [3:58:54<2:36:06,  3.37s/it] 61%|███████████████████████████████████████████████████████████▊                                      | 4357/7135 [3:58:57<2:26:32,  3.17s/it] 61%|███████████████████████████████████████████████████████████▊                                      | 4358/7135 [3:59:00<2:26:00,  3.15s/it] 61%|███████████████████████████████████████████████████████████▊                                      | 4359/7135 [3:59:03<2:21:09,  3.05s/it] 61%|███████████████████████████████████████████████████████████▉                                      | 4360/7135 [3:59:06<2:20:54,  3.05s/it]                                                                                                                                               {'loss': 0.9999, 'grad_norm': 5.8125, 'learning_rate': 1.6872232664130692e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 438.33, 'epoch': 6.11}
 61%|███████████████████████████████████████████████████████████▉                                      | 4360/7135 [3:59:06<2:20:54,  3.05s/it] 61%|███████████████████████████████████████████████████████████▉                                      | 4361/7135 [3:59:09<2:25:57,  3.16s/it] 61%|███████████████████████████████████████████████████████████▉                                      | 4362/7135 [3:59:12<2:23:00,  3.09s/it] 61%|███████████████████████████████████████████████████████████▉                                      | 4363/7135 [3:59:16<2:30:26,  3.26s/it] 61%|███████████████████████████████████████████████████████████▉                                      | 4364/7135 [3:59:19<2:24:48,  3.14s/it] 61%|███████████████████████████████████████████████████████████▉                                      | 4365/7135 [3:59:22<2:24:50,  3.14s/it] 61%|███████████████████████████████████████████████████████████▉                                      | 4366/7135 [3:59:25<2:21:06,  3.06s/it] 61%|███████████████████████████████████████████████████████████▉                                      | 4367/7135 [3:59:28<2:25:24,  3.15s/it] 61%|███████████████████████████████████████████████████████████▉                                      | 4368/7135 [3:59:31<2:24:21,  3.13s/it] 61%|████████████████████████████████████████████████████████████                                      | 4369/7135 [3:59:34<2:20:19,  3.04s/it] 61%|████████████████████████████████████████████████████████████                                      | 4370/7135 [3:59:37<2:20:10,  3.04s/it]                                                                                                                                               {'loss': 0.6734, 'grad_norm': 4.5, 'learning_rate': 1.6766737345431544e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 449.61, 'epoch': 6.12}
 61%|████████████████████████████████████████████████████████████                                      | 4370/7135 [3:59:37<2:20:10,  3.04s/it] 61%|████████████████████████████████████████████████████████████                                      | 4371/7135 [3:59:40<2:18:06,  3.00s/it] 61%|████████████████████████████████████████████████████████████                                      | 4372/7135 [3:59:44<2:24:48,  3.14s/it] 61%|████████████████████████████████████████████████████████████                                      | 4373/7135 [3:59:47<2:30:46,  3.28s/it] 61%|████████████████████████████████████████████████████████████                                      | 4374/7135 [3:59:50<2:24:29,  3.14s/it] 61%|████████████████████████████████████████████████████████████                                      | 4375/7135 [3:59:53<2:23:54,  3.13s/it] 61%|████████████████████████████████████████████████████████████                                      | 4376/7135 [3:59:56<2:24:42,  3.15s/it] 61%|████████████████████████████████████████████████████████████                                      | 4377/7135 [4:00:00<2:26:12,  3.18s/it] 61%|████████████████████████████████████████████████████████████▏                                     | 4378/7135 [4:00:02<2:19:25,  3.03s/it] 61%|████████████████████████████████████████████████████████████▏                                     | 4379/7135 [4:00:05<2:19:35,  3.04s/it] 61%|████████████████████████████████████████████████████████████▏                                     | 4380/7135 [4:00:09<2:31:43,  3.30s/it]                                                                                                                                               {'loss': 0.7561, 'grad_norm': 5.3125, 'learning_rate': 1.6661406215253276e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 312.51, 'epoch': 6.13}
 61%|████████████████████████████████████████████████████████████▏                                     | 4380/7135 [4:00:09<2:31:43,  3.30s/it] 61%|████████████████████████████████████████████████████████████▏                                     | 4381/7135 [4:00:13<2:36:49,  3.42s/it] 61%|████████████████████████████████████████████████████████████▏                                     | 4382/7135 [4:00:16<2:30:58,  3.29s/it] 61%|████████████████████████████████████████████████████████████▏                                     | 4383/7135 [4:00:19<2:28:00,  3.23s/it] 61%|████████████████████████████████████████████████████████████▏                                     | 4384/7135 [4:00:22<2:31:13,  3.30s/it] 61%|████████████████████████████████████████████████████████████▏                                     | 4385/7135 [4:00:26<2:30:42,  3.29s/it] 61%|████████████████████████████████████████████████████████████▏                                     | 4386/7135 [4:00:29<2:33:05,  3.34s/it] 61%|████████████████████████████████████████████████████████████▎                                     | 4387/7135 [4:00:32<2:28:13,  3.24s/it] 61%|████████████████████████████████████████████████████████████▎                                     | 4388/7135 [4:00:35<2:24:55,  3.17s/it] 62%|████████████████████████████████████████████████████████████▎                                     | 4389/7135 [4:00:38<2:16:53,  2.99s/it] 62%|████████████████████████████████████████████████████████████▎                                     | 4390/7135 [4:00:41<2:16:02,  2.97s/it]                                                                                                                                               {'loss': 0.8028, 'grad_norm': 6.1875, 'learning_rate': 1.6556241374119463e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 415.16, 'epoch': 6.15}
 62%|████████████████████████████████████████████████████████████▎                                     | 4390/7135 [4:00:41<2:16:02,  2.97s/it] 62%|████████████████████████████████████████████████████████████▎                                     | 4391/7135 [4:00:44<2:18:42,  3.03s/it] 62%|████████████████████████████████████████████████████████████▎                                     | 4392/7135 [4:00:47<2:20:02,  3.06s/it] 62%|████████████████████████████████████████████████████████████▎                                     | 4393/7135 [4:00:51<2:29:27,  3.27s/it] 62%|████████████████████████████████████████████████████████████▎                                     | 4394/7135 [4:00:54<2:24:44,  3.17s/it] 62%|████████████████████████████████████████████████████████████▎                                     | 4395/7135 [4:00:58<2:40:57,  3.52s/it] 62%|████████████████████████████████████████████████████████████▍                                     | 4396/7135 [4:01:01<2:35:45,  3.41s/it] 62%|████████████████████████████████████████████████████████████▍                                     | 4397/7135 [4:01:04<2:31:11,  3.31s/it] 62%|████████████████████████████████████████████████████████████▍                                     | 4398/7135 [4:01:07<2:21:14,  3.10s/it] 62%|████████████████████████████████████████████████████████████▍                                     | 4399/7135 [4:01:10<2:18:53,  3.05s/it] 62%|████████████████████████████████████████████████████████████▍                                     | 4400/7135 [4:01:13<2:17:41,  3.02s/it]                                                                                                                                               {'loss': 0.6353, 'grad_norm': 4.84375, 'learning_rate': 1.6451244919237576e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 378.01, 'epoch': 6.16}
 62%|████████████████████████████████████████████████████████████▍                                     | 4400/7135 [4:01:13<2:17:41,  3.02s/it] 62%|████████████████████████████████████████████████████████████▍                                     | 4401/7135 [4:01:15<2:13:35,  2.93s/it] 62%|████████████████████████████████████████████████████████████▍                                     | 4402/7135 [4:01:19<2:22:49,  3.14s/it] 62%|████████████████████████████████████████████████████████████▍                                     | 4403/7135 [4:01:22<2:25:10,  3.19s/it] 62%|████████████████████████████████████████████████████████████▍                                     | 4404/7135 [4:01:26<2:24:54,  3.18s/it] 62%|████████████████████████████████████████████████████████████▌                                     | 4405/7135 [4:01:28<2:21:09,  3.10s/it] 62%|████████████████████████████████████████████████████████████▌                                     | 4406/7135 [4:01:32<2:20:41,  3.09s/it] 62%|████████████████████████████████████████████████████████████▌                                     | 4407/7135 [4:01:35<2:19:24,  3.07s/it] 62%|████████████████████████████████████████████████████████████▌                                     | 4408/7135 [4:01:38<2:23:30,  3.16s/it] 62%|████████████████████████████████████████████████████████████▌                                     | 4409/7135 [4:01:41<2:26:59,  3.24s/it] 62%|████████████████████████████████████████████████████████████▌                                     | 4410/7135 [4:01:44<2:22:46,  3.14s/it]                                                                                                                                               {'loss': 0.7111, 'grad_norm': 5.65625, 'learning_rate': 1.6346418944457065e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 405.54, 'epoch': 6.18}
 62%|████████████████████████████████████████████████████████████▌                                     | 4410/7135 [4:01:44<2:22:46,  3.14s/it] 62%|████████████████████████████████████████████████████████████▌                                     | 4411/7135 [4:01:47<2:17:39,  3.03s/it] 62%|████████████████████████████████████████████████████████████▌                                     | 4412/7135 [4:01:50<2:22:41,  3.14s/it] 62%|████████████████████████████████████████████████████████████▌                                     | 4413/7135 [4:01:54<2:31:32,  3.34s/it] 62%|████████████████████████████████████████████████████████████▋                                     | 4414/7135 [4:01:58<2:32:40,  3.37s/it] 62%|████████████████████████████████████████████████████████████▋                                     | 4415/7135 [4:02:01<2:32:19,  3.36s/it] 62%|████████████████████████████████████████████████████████████▋                                     | 4416/7135 [4:02:04<2:31:41,  3.35s/it] 62%|████████████████████████████████████████████████████████████▋                                     | 4417/7135 [4:02:07<2:26:11,  3.23s/it] 62%|████████████████████████████████████████████████████████████▋                                     | 4418/7135 [4:02:10<2:25:35,  3.22s/it] 62%|████████████████████████████████████████████████████████████▋                                     | 4419/7135 [4:02:14<2:31:44,  3.35s/it] 62%|████████████████████████████████████████████████████████████▋                                     | 4420/7135 [4:02:17<2:23:17,  3.17s/it]                                                                                                                                               {'loss': 1.1395, 'grad_norm': 6.6875, 'learning_rate': 1.6241765540227667e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 571.0, 'epoch': 6.19}
 62%|████████████████████████████████████████████████████████████▋                                     | 4420/7135 [4:02:17<2:23:17,  3.17s/it] 62%|████████████████████████████████████████████████████████████▋                                     | 4421/7135 [4:02:20<2:21:12,  3.12s/it] 62%|████████████████████████████████████████████████████████████▋                                     | 4422/7135 [4:02:23<2:22:24,  3.15s/it] 62%|████████████████████████████████████████████████████████████▊                                     | 4423/7135 [4:02:26<2:24:33,  3.20s/it] 62%|████████████████████████████████████████████████████████████▊                                     | 4424/7135 [4:02:29<2:21:53,  3.14s/it] 62%|████████████████████████████████████████████████████████████▊                                     | 4425/7135 [4:02:33<2:33:20,  3.40s/it] 62%|████████████████████████████████████████████████████████████▊                                     | 4426/7135 [4:02:36<2:28:27,  3.29s/it] 62%|████████████████████████████████████████████████████████████▊                                     | 4427/7135 [4:02:39<2:22:37,  3.16s/it] 62%|████████████████████████████████████████████████████████████▊                                     | 4428/7135 [4:02:43<2:26:04,  3.24s/it] 62%|████████████████████████████████████████████████████████████▊                                     | 4429/7135 [4:02:46<2:22:45,  3.17s/it] 62%|████████████████████████████████████████████████████████████▊                                     | 4430/7135 [4:02:49<2:26:54,  3.26s/it]                                                                                                                                               {'loss': 0.7571, 'grad_norm': 5.46875, 'learning_rate': 1.613728679355771e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 345.98, 'epoch': 6.2}
 62%|████████████████████████████████████████████████████████████▊                                     | 4430/7135 [4:02:49<2:26:54,  3.26s/it] 62%|████████████████████████████████████████████████████████████▊                                     | 4431/7135 [4:02:52<2:20:38,  3.12s/it] 62%|████████████████████████████████████████████████████████████▊                                     | 4432/7135 [4:02:56<2:38:42,  3.52s/it] 62%|████████████████████████████████████████████████████████████▉                                     | 4433/7135 [4:03:00<2:34:29,  3.43s/it] 62%|████████████████████████████████████████████████████████████▉                                     | 4434/7135 [4:03:03<2:26:05,  3.25s/it] 62%|████████████████████████████████████████████████████████████▉                                     | 4435/7135 [4:03:05<2:22:04,  3.16s/it] 62%|████████████████████████████████████████████████████████████▉                                     | 4436/7135 [4:03:09<2:29:07,  3.32s/it] 62%|████████████████████████████████████████████████████████████▉                                     | 4437/7135 [4:03:12<2:28:08,  3.29s/it] 62%|████████████████████████████████████████████████████████████▉                                     | 4438/7135 [4:03:16<2:33:07,  3.41s/it] 62%|████████████████████████████████████████████████████████████▉                                     | 4439/7135 [4:03:19<2:29:16,  3.32s/it] 62%|████████████████████████████████████████████████████████████▉                                     | 4440/7135 [4:03:23<2:38:08,  3.52s/it]                                                                                                                                               {'loss': 0.7608, 'grad_norm': 4.4375, 'learning_rate': 1.6032984787972477e-06, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 382.8, 'epoch': 6.22}
 62%|████████████████████████████████████████████████████████████▉                                     | 4440/7135 [4:03:23<2:38:08,  3.52s/it] 62%|████████████████████████████████████████████████████████████▉                                     | 4441/7135 [4:03:27<2:36:40,  3.49s/it] 62%|█████████████████████████████████████████████████████████████                                     | 4442/7135 [4:03:30<2:29:21,  3.33s/it] 62%|█████████████████████████████████████████████████████████████                                     | 4443/7135 [4:03:33<2:26:50,  3.27s/it] 62%|█████████████████████████████████████████████████████████████                                     | 4444/7135 [4:03:36<2:28:41,  3.32s/it] 62%|█████████████████████████████████████████████████████████████                                     | 4445/7135 [4:03:39<2:29:49,  3.34s/it] 62%|█████████████████████████████████████████████████████████████                                     | 4446/7135 [4:03:43<2:26:29,  3.27s/it] 62%|█████████████████████████████████████████████████████████████                                     | 4447/7135 [4:03:46<2:22:46,  3.19s/it] 62%|█████████████████████████████████████████████████████████████                                     | 4448/7135 [4:03:49<2:23:40,  3.21s/it] 62%|█████████████████████████████████████████████████████████████                                     | 4449/7135 [4:03:52<2:26:19,  3.27s/it] 62%|█████████████████████████████████████████████████████████████                                     | 4450/7135 [4:03:56<2:29:37,  3.34s/it]                                                                                                                                               {'loss': 0.9068, 'grad_norm': 5.1875, 'learning_rate': 1.5928861603472636e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 416.15, 'epoch': 6.23}
 62%|█████████████████████████████████████████████████████████████                                     | 4450/7135 [4:03:56<2:29:37,  3.34s/it] 62%|█████████████████████████████████████████████████████████████▏                                    | 4451/7135 [4:03:59<2:22:03,  3.18s/it] 62%|█████████████████████████████████████████████████████████████▏                                    | 4452/7135 [4:04:01<2:16:36,  3.06s/it] 62%|█████████████████████████████████████████████████████████████▏                                    | 4453/7135 [4:04:04<2:14:20,  3.01s/it] 62%|█████████████████████████████████████████████████████████████▏                                    | 4454/7135 [4:04:09<2:31:42,  3.40s/it] 62%|█████████████████████████████████████████████████████████████▏                                    | 4455/7135 [4:04:12<2:27:36,  3.30s/it] 62%|█████████████████████████████████████████████████████████████▏                                    | 4456/7135 [4:04:14<2:19:59,  3.14s/it] 62%|█████████████████████████████████████████████████████████████▏                                    | 4457/7135 [4:04:18<2:25:55,  3.27s/it] 62%|█████████████████████████████████████████████████████████████▏                                    | 4458/7135 [4:04:21<2:19:48,  3.13s/it] 62%|█████████████████████████████████████████████████████████████▏                                    | 4459/7135 [4:04:24<2:18:42,  3.11s/it] 63%|█████████████████████████████████████████████████████████████▎                                    | 4460/7135 [4:04:27<2:22:34,  3.20s/it]                                                                                                                                               {'loss': 0.6885, 'grad_norm': 5.84375, 'learning_rate': 1.5824919316492837e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 354.17, 'epoch': 6.25}
 63%|█████████████████████████████████████████████████████████████▎                                    | 4460/7135 [4:04:27<2:22:34,  3.20s/it] 63%|█████████████████████████████████████████████████████████████▎                                    | 4461/7135 [4:04:30<2:22:08,  3.19s/it] 63%|█████████████████████████████████████████████████████████████▎                                    | 4462/7135 [4:04:34<2:24:19,  3.24s/it] 63%|█████████████████████████████████████████████████████████████▎                                    | 4463/7135 [4:04:37<2:23:25,  3.22s/it] 63%|█████████████████████████████████████████████████████████████▎                                    | 4464/7135 [4:04:41<2:29:03,  3.35s/it] 63%|█████████████████████████████████████████████████████████████▎                                    | 4465/7135 [4:04:43<2:18:39,  3.12s/it] 63%|█████████████████████████████████████████████████████████████▎                                    | 4466/7135 [4:04:47<2:23:41,  3.23s/it] 63%|█████████████████████████████████████████████████████████████▎                                    | 4467/7135 [4:04:51<2:33:17,  3.45s/it] 63%|█████████████████████████████████████████████████████████████▎                                    | 4468/7135 [4:04:54<2:28:26,  3.34s/it] 63%|█████████████████████████████████████████████████████████████▍                                    | 4469/7135 [4:04:57<2:24:43,  3.26s/it] 63%|█████████████████████████████████████████████████████████████▍                                    | 4470/7135 [4:05:00<2:22:10,  3.20s/it]                                                                                                                                               {'loss': 0.7754, 'grad_norm': 4.6875, 'learning_rate': 1.572115999986022e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 378.78, 'epoch': 6.26}
 63%|█████████████████████████████████████████████████████████████▍                                    | 4470/7135 [4:05:00<2:22:10,  3.20s/it] 63%|█████████████████████████████████████████████████████████████▍                                    | 4471/7135 [4:05:03<2:18:03,  3.11s/it] 63%|█████████████████████████████████████████████████████████████▍                                    | 4472/7135 [4:05:06<2:20:00,  3.15s/it] 63%|█████████████████████████████████████████████████████████████▍                                    | 4473/7135 [4:05:09<2:23:32,  3.24s/it] 63%|█████████████████████████████████████████████████████████████▍                                    | 4474/7135 [4:05:13<2:25:30,  3.28s/it] 63%|█████████████████████████████████████████████████████████████▍                                    | 4475/7135 [4:05:16<2:22:06,  3.21s/it] 63%|█████████████████████████████████████████████████████████████▍                                    | 4476/7135 [4:05:19<2:18:23,  3.12s/it] 63%|█████████████████████████████████████████████████████████████▍                                    | 4477/7135 [4:05:22<2:14:29,  3.04s/it] 63%|█████████████████████████████████████████████████████████████▌                                    | 4478/7135 [4:05:25<2:18:09,  3.12s/it] 63%|█████████████████████████████████████████████████████████████▌                                    | 4479/7135 [4:05:28<2:15:12,  3.05s/it] 63%|█████████████████████████████████████████████████████████████▌                                    | 4480/7135 [4:05:31<2:18:09,  3.12s/it]                                                                                                                                               {'loss': 0.7239, 'grad_norm': 4.59375, 'learning_rate': 1.5617585722753114e-06, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 407.57, 'epoch': 6.27}
 63%|█████████████████████████████████████████████████████████████▌                                    | 4480/7135 [4:05:31<2:18:09,  3.12s/it] 63%|█████████████████████████████████████████████████████████████▌                                    | 4481/7135 [4:05:34<2:17:29,  3.11s/it] 63%|█████████████████████████████████████████████████████████████▌                                    | 4482/7135 [4:05:37<2:19:56,  3.16s/it] 63%|█████████████████████████████████████████████████████████████▌                                    | 4483/7135 [4:05:41<2:23:02,  3.24s/it] 63%|█████████████████████████████████████████████████████████████▌                                    | 4484/7135 [4:05:44<2:19:49,  3.16s/it] 63%|█████████████████████████████████████████████████████████████▌                                    | 4485/7135 [4:05:47<2:15:17,  3.06s/it] 63%|█████████████████████████████████████████████████████████████▌                                    | 4486/7135 [4:05:50<2:15:36,  3.07s/it] 63%|█████████████████████████████████████████████████████████████▋                                    | 4487/7135 [4:05:53<2:13:10,  3.02s/it] 63%|█████████████████████████████████████████████████████████████▋                                    | 4488/7135 [4:05:56<2:12:14,  3.00s/it] 63%|█████████████████████████████████████████████████████████████▋                                    | 4489/7135 [4:05:59<2:16:00,  3.08s/it] 63%|█████████████████████████████████████████████████████████████▋                                    | 4490/7135 [4:06:02<2:09:42,  2.94s/it]                                                                                                                                               {'loss': 0.7197, 'grad_norm': 5.0625, 'learning_rate': 1.5514198550659792e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 536.54, 'epoch': 6.29}
 63%|█████████████████████████████████████████████████████████████▋                                    | 4490/7135 [4:06:02<2:09:42,  2.94s/it] 63%|█████████████████████████████████████████████████████████████▋                                    | 4491/7135 [4:06:04<2:06:00,  2.86s/it] 63%|█████████████████████████████████████████████████████████████▋                                    | 4492/7135 [4:06:07<2:10:05,  2.95s/it] 63%|█████████████████████████████████████████████████████████████▋                                    | 4493/7135 [4:06:11<2:18:37,  3.15s/it] 63%|█████████████████████████████████████████████████████████████▋                                    | 4494/7135 [4:06:14<2:19:37,  3.17s/it] 63%|█████████████████████████████████████████████████████████████▋                                    | 4495/7135 [4:06:17<2:16:35,  3.10s/it] 63%|█████████████████████████████████████████████████████████████▊                                    | 4496/7135 [4:06:20<2:19:19,  3.17s/it] 63%|█████████████████████████████████████████████████████████████▊                                    | 4497/7135 [4:06:24<2:26:49,  3.34s/it] 63%|█████████████████████████████████████████████████████████████▊                                    | 4498/7135 [4:06:27<2:26:30,  3.33s/it] 63%|█████████████████████████████████████████████████████████████▊                                    | 4499/7135 [4:06:31<2:23:51,  3.27s/it] 63%|█████████████████████████████████████████████████████████████▊                                    | 4500/7135 [4:06:33<2:18:12,  3.15s/it]                                                                                                                                               {'loss': 0.703, 'grad_norm': 5.125, 'learning_rate': 1.541100054533725e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 396.11, 'epoch': 6.3}
 63%|█████████████████████████████████████████████████████████████▊                                    | 4500/7135 [4:06:34<2:18:12,  3.15s/it] 63%|█████████████████████████████████████████████████████████████▊                                    | 4501/7135 [4:06:36<2:13:25,  3.04s/it] 63%|█████████████████████████████████████████████████████████████▊                                    | 4502/7135 [4:06:39<2:09:39,  2.95s/it] 63%|█████████████████████████████████████████████████████████████▊                                    | 4503/7135 [4:06:43<2:18:58,  3.17s/it] 63%|█████████████████████████████████████████████████████████████▊                                    | 4504/7135 [4:06:46<2:17:47,  3.14s/it] 63%|█████████████████████████████████████████████████████████████▉                                    | 4505/7135 [4:06:49<2:14:35,  3.07s/it] 63%|█████████████████████████████████████████████████████████████▉                                    | 4506/7135 [4:06:52<2:17:25,  3.14s/it] 63%|█████████████████████████████████████████████████████████████▉                                    | 4507/7135 [4:06:56<2:26:44,  3.35s/it] 63%|█████████████████████████████████████████████████████████████▉                                    | 4508/7135 [4:07:00<2:33:07,  3.50s/it] 63%|█████████████████████████████████████████████████████████████▉                                    | 4509/7135 [4:07:03<2:32:24,  3.48s/it] 63%|█████████████████████████████████████████████████████████████▉                                    | 4510/7135 [4:07:07<2:37:50,  3.61s/it]                                                                                                                                               {'loss': 0.929, 'grad_norm': 4.5, 'learning_rate': 1.5307993764770084e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 359.51, 'epoch': 6.32}
 63%|█████████████████████████████████████████████████████████████▉                                    | 4510/7135 [4:07:07<2:37:50,  3.61s/it] 63%|█████████████████████████████████████████████████████████████▉                                    | 4511/7135 [4:07:10<2:33:52,  3.52s/it] 63%|█████████████████████████████████████████████████████████████▉                                    | 4512/7135 [4:07:13<2:25:32,  3.33s/it] 63%|█████████████████████████████████████████████████████████████▉                                    | 4513/7135 [4:07:16<2:20:02,  3.20s/it] 63%|██████████████████████████████████████████████████████████████                                    | 4514/7135 [4:07:19<2:15:30,  3.10s/it] 63%|██████████████████████████████████████████████████████████████                                    | 4515/7135 [4:07:22<2:17:02,  3.14s/it] 63%|██████████████████████████████████████████████████████████████                                    | 4516/7135 [4:07:26<2:19:19,  3.19s/it] 63%|██████████████████████████████████████████████████████████████                                    | 4517/7135 [4:07:29<2:19:04,  3.19s/it] 63%|██████████████████████████████████████████████████████████████                                    | 4518/7135 [4:07:32<2:14:19,  3.08s/it] 63%|██████████████████████████████████████████████████████████████                                    | 4519/7135 [4:07:34<2:09:59,  2.98s/it] 63%|██████████████████████████████████████████████████████████████                                    | 4520/7135 [4:07:38<2:14:51,  3.09s/it]                                                                                                                                               {'loss': 0.6671, 'grad_norm': 4.46875, 'learning_rate': 1.52051802631295e-06, 'memory/max_active (GiB)': 35.13, 'memory/max_allocated (GiB)': 35.13, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 308.31, 'epoch': 6.33}
 63%|██████████████████████████████████████████████████████████████                                    | 4520/7135 [4:07:38<2:14:51,  3.09s/it] 63%|██████████████████████████████████████████████████████████████                                    | 4521/7135 [4:07:41<2:15:10,  3.10s/it] 63%|██████████████████████████████████████████████████████████████                                    | 4522/7135 [4:07:44<2:18:06,  3.17s/it] 63%|██████████████████████████████████████████████████████████████                                    | 4523/7135 [4:07:47<2:12:59,  3.05s/it] 63%|██████████████████████████████████████████████████████████████▏                                   | 4524/7135 [4:07:50<2:15:53,  3.12s/it] 63%|██████████████████████████████████████████████████████████████▏                                   | 4525/7135 [4:07:54<2:20:39,  3.23s/it] 63%|██████████████████████████████████████████████████████████████▏                                   | 4526/7135 [4:07:57<2:24:16,  3.32s/it] 63%|██████████████████████████████████████████████████████████████▏                                   | 4527/7135 [4:08:01<2:25:12,  3.34s/it] 63%|██████████████████████████████████████████████████████████████▏                                   | 4528/7135 [4:08:03<2:17:27,  3.16s/it] 63%|██████████████████████████████████████████████████████████████▏                                   | 4529/7135 [4:08:06<2:17:13,  3.16s/it] 63%|██████████████████████████████████████████████████████████████▏                                   | 4530/7135 [4:08:09<2:10:46,  3.01s/it]                                                                                                                                               {'loss': 0.7039, 'grad_norm': 6.375, 'learning_rate': 1.5102562090732292e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 457.67, 'epoch': 6.34}
 63%|██████████████████████████████████████████████████████████████▏                                   | 4530/7135 [4:08:09<2:10:46,  3.01s/it] 64%|██████████████████████████████████████████████████████████████▏                                   | 4531/7135 [4:08:12<2:10:07,  3.00s/it] 64%|██████████████████████████████████████████████████████████████▏                                   | 4532/7135 [4:08:15<2:11:45,  3.04s/it] 64%|██████████████████████████████████████████████████████████████▎                                   | 4533/7135 [4:08:18<2:06:43,  2.92s/it] 64%|██████████████████████████████████████████████████████████████▎                                   | 4534/7135 [4:08:21<2:06:37,  2.92s/it] 64%|██████████████████████████████████████████████████████████████▎                                   | 4535/7135 [4:08:24<2:11:19,  3.03s/it] 64%|██████████████████████████████████████████████████████████████▎                                   | 4536/7135 [4:08:27<2:13:16,  3.08s/it] 64%|██████████████████████████████████████████████████████████████▎                                   | 4537/7135 [4:08:30<2:14:47,  3.11s/it] 64%|██████████████████████████████████████████████████████████████▎                                   | 4538/7135 [4:08:33<2:12:08,  3.05s/it] 64%|██████████████████████████████████████████████████████████████▎                                   | 4539/7135 [4:08:36<2:09:31,  2.99s/it] 64%|██████████████████████████████████████████████████████████████▎                                   | 4540/7135 [4:08:39<2:08:21,  2.97s/it]                                                                                                                                               {'loss': 0.7158, 'grad_norm': 6.40625, 'learning_rate': 1.500014129399998e-06, 'memory/max_active (GiB)': 34.73, 'memory/max_allocated (GiB)': 34.73, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 412.07, 'epoch': 6.36}
 64%|██████████████████████████████████████████████████████████████▎                                   | 4540/7135 [4:08:39<2:08:21,  2.97s/it] 64%|██████████████████████████████████████████████████████████████▎                                   | 4541/7135 [4:08:42<2:09:27,  2.99s/it] 64%|██████████████████████████████████████████████████████████████▍                                   | 4542/7135 [4:08:45<2:13:04,  3.08s/it] 64%|██████████████████████████████████████████████████████████████▍                                   | 4543/7135 [4:08:49<2:13:29,  3.09s/it] 64%|██████████████████████████████████████████████████████████████▍                                   | 4544/7135 [4:08:52<2:14:07,  3.11s/it] 64%|██████████████████████████████████████████████████████████████▍                                   | 4545/7135 [4:08:55<2:22:32,  3.30s/it] 64%|██████████████████████████████████████████████████████████████▍                                   | 4546/7135 [4:08:59<2:19:37,  3.24s/it] 64%|██████████████████████████████████████████████████████████████▍                                   | 4547/7135 [4:09:02<2:15:43,  3.15s/it] 64%|██████████████████████████████████████████████████████████████▍                                   | 4548/7135 [4:09:05<2:15:39,  3.15s/it] 64%|██████████████████████████████████████████████████████████████▍                                   | 4549/7135 [4:09:07<2:09:48,  3.01s/it] 64%|██████████████████████████████████████████████████████████████▍                                   | 4550/7135 [4:09:10<2:06:49,  2.94s/it]                                                                                                                                               {'loss': 0.7779, 'grad_norm': 4.78125, 'learning_rate': 1.4897919915418027e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 440.55, 'epoch': 6.37}
 64%|██████████████████████████████████████████████████████████████▍                                   | 4550/7135 [4:09:10<2:06:49,  2.94s/it] 64%|██████████████████████████████████████████████████████████████▌                                   | 4551/7135 [4:09:13<2:02:10,  2.84s/it] 64%|██████████████████████████████████████████████████████████████▌                                   | 4552/7135 [4:09:16<2:09:25,  3.01s/it] 64%|██████████████████████████████████████████████████████████████▌                                   | 4553/7135 [4:09:20<2:16:16,  3.17s/it] 64%|██████████████████████████████████████████████████████████████▌                                   | 4554/7135 [4:09:23<2:15:48,  3.16s/it] 64%|██████████████████████████████████████████████████████████████▌                                   | 4555/7135 [4:09:26<2:18:15,  3.22s/it] 64%|██████████████████████████████████████████████████████████████▌                                   | 4556/7135 [4:09:29<2:16:44,  3.18s/it] 64%|██████████████████████████████████████████████████████████████▌                                   | 4557/7135 [4:09:32<2:10:51,  3.05s/it] 64%|██████████████████████████████████████████████████████████████▌                                   | 4558/7135 [4:09:35<2:08:22,  2.99s/it] 64%|██████████████████████████████████████████████████████████████▌                                   | 4559/7135 [4:09:38<2:07:03,  2.96s/it] 64%|██████████████████████████████████████████████████████████████▋                                   | 4560/7135 [4:09:41<2:13:31,  3.11s/it]                                                                                                                                               {'loss': 0.7155, 'grad_norm': 4.75, 'learning_rate': 1.4795899993495049e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 371.99, 'epoch': 6.39}
 64%|██████████████████████████████████████████████████████████████▋                                   | 4560/7135 [4:09:41<2:13:31,  3.11s/it] 64%|██████████████████████████████████████████████████████████████▋                                   | 4561/7135 [4:09:44<2:06:44,  2.95s/it] 64%|██████████████████████████████████████████████████████████████▋                                   | 4562/7135 [4:09:47<2:09:15,  3.01s/it] 64%|██████████████████████████████████████████████████████████████▋                                   | 4563/7135 [4:09:50<2:12:26,  3.09s/it] 64%|██████████████████████████████████████████████████████████████▋                                   | 4564/7135 [4:09:54<2:19:51,  3.26s/it] 64%|██████████████████████████████████████████████████████████████▋                                   | 4565/7135 [4:09:57<2:19:10,  3.25s/it] 64%|██████████████████████████████████████████████████████████████▋                                   | 4566/7135 [4:10:01<2:28:05,  3.46s/it] 64%|██████████████████████████████████████████████████████████████▋                                   | 4567/7135 [4:10:04<2:20:10,  3.28s/it] 64%|██████████████████████████████████████████████████████████████▋                                   | 4568/7135 [4:10:07<2:20:59,  3.30s/it] 64%|██████████████████████████████████████████████████████████████▊                                   | 4569/7135 [4:10:10<2:16:07,  3.18s/it] 64%|██████████████████████████████████████████████████████████████▊                                   | 4570/7135 [4:10:14<2:21:12,  3.30s/it]                                                                                                                                               {'loss': 0.8464, 'grad_norm': 6.03125, 'learning_rate': 1.4694083562722202e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 311.72, 'epoch': 6.4}
 64%|██████████████████████████████████████████████████████████████▊                                   | 4570/7135 [4:10:14<2:21:12,  3.30s/it] 64%|██████████████████████████████████████████████████████████████▊                                   | 4571/7135 [4:10:17<2:17:14,  3.21s/it] 64%|██████████████████████████████████████████████████████████████▊                                   | 4572/7135 [4:10:20<2:24:21,  3.38s/it] 64%|██████████████████████████████████████████████████████████████▊                                   | 4573/7135 [4:10:23<2:16:58,  3.21s/it] 64%|██████████████████████████████████████████████████████████████▊                                   | 4574/7135 [4:10:26<2:12:56,  3.11s/it] 64%|██████████████████████████████████████████████████████████████▊                                   | 4575/7135 [4:10:29<2:12:29,  3.11s/it] 64%|██████████████████████████████████████████████████████████████▊                                   | 4576/7135 [4:10:33<2:16:29,  3.20s/it] 64%|██████████████████████████████████████████████████████████████▊                                   | 4577/7135 [4:10:36<2:14:31,  3.16s/it] 64%|██████████████████████████████████████████████████████████████▉                                   | 4578/7135 [4:10:39<2:13:03,  3.12s/it] 64%|██████████████████████████████████████████████████████████████▉                                   | 4579/7135 [4:10:43<2:23:37,  3.37s/it] 64%|██████████████████████████████████████████████████████████████▉                                   | 4580/7135 [4:10:46<2:17:41,  3.23s/it]                                                                                                                                               {'loss': 0.7432, 'grad_norm': 5.03125, 'learning_rate': 1.4592472653532616e-06, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 419.09, 'epoch': 6.41}
 64%|██████████████████████████████████████████████████████████████▉                                   | 4580/7135 [4:10:46<2:17:41,  3.23s/it] 64%|██████████████████████████████████████████████████████████████▉                                   | 4581/7135 [4:10:49<2:17:50,  3.24s/it] 64%|██████████████████████████████████████████████████████████████▉                                   | 4582/7135 [4:10:52<2:13:32,  3.14s/it] 64%|██████████████████████████████████████████████████████████████▉                                   | 4583/7135 [4:10:55<2:10:45,  3.07s/it] 64%|██████████████████████████████████████████████████████████████▉                                   | 4584/7135 [4:10:58<2:15:46,  3.19s/it] 64%|██████████████████████████████████████████████████████████████▉                                   | 4585/7135 [4:11:01<2:16:24,  3.21s/it] 64%|██████████████████████████████████████████████████████████████▉                                   | 4586/7135 [4:11:05<2:25:06,  3.42s/it] 64%|███████████████████████████████████████████████████████████████                                   | 4587/7135 [4:11:09<2:22:13,  3.35s/it] 64%|███████████████████████████████████████████████████████████████                                   | 4588/7135 [4:11:11<2:14:50,  3.18s/it] 64%|███████████████████████████████████████████████████████████████                                   | 4589/7135 [4:11:14<2:13:11,  3.14s/it] 64%|███████████████████████████████████████████████████████████████                                   | 4590/7135 [4:11:18<2:15:26,  3.19s/it]                                                                                                                                               {'loss': 0.7425, 'grad_norm': 2.609375, 'learning_rate': 1.4491069292260867e-06, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 393.48, 'epoch': 6.43}
 64%|███████████████████████████████████████████████████████████████                                   | 4590/7135 [4:11:18<2:15:26,  3.19s/it] 64%|███████████████████████████████████████████████████████████████                                   | 4591/7135 [4:11:21<2:11:27,  3.10s/it] 64%|███████████████████████████████████████████████████████████████                                   | 4592/7135 [4:11:24<2:20:46,  3.32s/it] 64%|███████████████████████████████████████████████████████████████                                   | 4593/7135 [4:11:27<2:16:00,  3.21s/it] 64%|███████████████████████████████████████████████████████████████                                   | 4594/7135 [4:11:31<2:15:02,  3.19s/it] 64%|███████████████████████████████████████████████████████████████                                   | 4595/7135 [4:11:33<2:09:27,  3.06s/it] 64%|███████████████████████████████████████████████████████████████▏                                  | 4596/7135 [4:11:36<2:10:34,  3.09s/it] 64%|███████████████████████████████████████████████████████████████▏                                  | 4597/7135 [4:11:40<2:22:26,  3.37s/it] 64%|███████████████████████████████████████████████████████████████▏                                  | 4598/7135 [4:11:44<2:20:17,  3.32s/it] 64%|███████████████████████████████████████████████████████████████▏                                  | 4599/7135 [4:11:47<2:21:33,  3.35s/it] 64%|███████████████████████████████████████████████████████████████▏                                  | 4600/7135 [4:11:50<2:14:32,  3.18s/it]                                                                                                                                               {'loss': 0.8503, 'grad_norm': 6.03125, 'learning_rate': 1.4389875501102602e-06, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 461.77, 'epoch': 6.44}
 64%|███████████████████████████████████████████████████████████████▏                                  | 4600/7135 [4:11:50<2:14:32,  3.18s/it] 64%|███████████████████████████████████████████████████████████████▏                                  | 4601/7135 [4:11:53<2:11:11,  3.11s/it] 64%|███████████████████████████████████████████████████████████████▏                                  | 4602/7135 [4:11:56<2:16:37,  3.24s/it] 65%|███████████████████████████████████████████████████████████████▏                                  | 4603/7135 [4:11:59<2:12:11,  3.13s/it] 65%|███████████████████████████████████████████████████████████████▏                                  | 4604/7135 [4:12:03<2:15:10,  3.20s/it] 65%|███████████████████████████████████████████████████████████████▎                                  | 4605/7135 [4:12:06<2:12:25,  3.14s/it] 65%|███████████████████████████████████████████████████████████████▎                                  | 4606/7135 [4:12:09<2:10:54,  3.11s/it] 65%|███████████████████████████████████████████████████████████████▎                                  | 4607/7135 [4:12:12<2:12:13,  3.14s/it] 65%|███████████████████████████████████████████████████████████████▎                                  | 4608/7135 [4:12:16<2:20:20,  3.33s/it] 65%|███████████████████████████████████████████████████████████████▎                                  | 4609/7135 [4:12:19<2:18:59,  3.30s/it] 65%|███████████████████████████████████████████████████████████████▎                                  | 4610/7135 [4:12:22<2:17:30,  3.27s/it]                                                                                                                                               {'loss': 0.7252, 'grad_norm': 6.0625, 'learning_rate': 1.4288893298074207e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 473.01, 'epoch': 6.46}
 65%|███████████████████████████████████████████████████████████████▎                                  | 4610/7135 [4:12:22<2:17:30,  3.27s/it] 65%|███████████████████████████████████████████████████████████████▎                                  | 4611/7135 [4:12:25<2:07:50,  3.04s/it] 65%|███████████████████████████████████████████████████████████████▎                                  | 4612/7135 [4:12:28<2:18:23,  3.29s/it] 65%|███████████████████████████████████████████████████████████████▎                                  | 4613/7135 [4:12:31<2:15:14,  3.22s/it] 65%|███████████████████████████████████████████████████████████████▎                                  | 4614/7135 [4:12:35<2:19:37,  3.32s/it] 65%|███████████████████████████████████████████████████████████████▍                                  | 4615/7135 [4:12:38<2:20:39,  3.35s/it] 65%|███████████████████████████████████████████████████████████████▍                                  | 4616/7135 [4:12:41<2:14:20,  3.20s/it] 65%|███████████████████████████████████████████████████████████████▍                                  | 4617/7135 [4:12:44<2:11:29,  3.13s/it] 65%|███████████████████████████████████████████████████████████████▍                                  | 4618/7135 [4:12:47<2:10:53,  3.12s/it] 65%|███████████████████████████████████████████████████████████████▍                                  | 4619/7135 [4:12:51<2:14:02,  3.20s/it] 65%|███████████████████████████████████████████████████████████████▍                                  | 4620/7135 [4:12:54<2:12:58,  3.17s/it]                                                                                                                                               {'loss': 0.7569, 'grad_norm': 4.03125, 'learning_rate': 1.4188124696972556e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 398.94, 'epoch': 6.47}
 65%|███████████████████████████████████████████████████████████████▍                                  | 4620/7135 [4:12:54<2:12:58,  3.17s/it] 65%|███████████████████████████████████████████████████████████████▍                                  | 4621/7135 [4:12:57<2:10:26,  3.11s/it] 65%|███████████████████████████████████████████████████████████████▍                                  | 4622/7135 [4:13:00<2:12:42,  3.17s/it] 65%|███████████████████████████████████████████████████████████████▍                                  | 4623/7135 [4:13:04<2:16:57,  3.27s/it] 65%|███████████████████████████████████████████████████████████████▌                                  | 4624/7135 [4:13:07<2:17:15,  3.28s/it] 65%|███████████████████████████████████████████████████████████████▌                                  | 4625/7135 [4:13:10<2:12:57,  3.18s/it] 65%|███████████████████████████████████████████████████████████████▌                                  | 4626/7135 [4:13:13<2:13:58,  3.20s/it] 65%|███████████████████████████████████████████████████████████████▌                                  | 4627/7135 [4:13:16<2:15:04,  3.23s/it] 65%|███████████████████████████████████████████████████████████████▌                                  | 4628/7135 [4:13:19<2:12:59,  3.18s/it] 65%|███████████████████████████████████████████████████████████████▌                                  | 4629/7135 [4:13:23<2:11:56,  3.16s/it] 65%|███████████████████████████████████████████████████████████████▌                                  | 4630/7135 [4:13:26<2:14:21,  3.22s/it]                                                                                                                                               {'loss': 0.7512, 'grad_norm': 4.9375, 'learning_rate': 1.4087571707334825e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 371.37, 'epoch': 6.48}
 65%|███████████████████████████████████████████████████████████████▌                                  | 4630/7135 [4:13:26<2:14:21,  3.22s/it] 65%|███████████████████████████████████████████████████████████████▌                                  | 4631/7135 [4:13:29<2:15:15,  3.24s/it] 65%|███████████████████████████████████████████████████████████████▌                                  | 4632/7135 [4:13:32<2:11:26,  3.15s/it] 65%|███████████████████████████████████████████████████████████████▋                                  | 4633/7135 [4:13:35<2:09:04,  3.10s/it] 65%|███████████████████████████████████████████████████████████████▋                                  | 4634/7135 [4:13:39<2:13:06,  3.19s/it] 65%|███████████████████████████████████████████████████████████████▋                                  | 4635/7135 [4:13:41<2:08:00,  3.07s/it] 65%|███████████████████████████████████████████████████████████████▋                                  | 4636/7135 [4:13:45<2:17:16,  3.30s/it] 65%|███████████████████████████████████████████████████████████████▋                                  | 4637/7135 [4:13:48<2:09:16,  3.11s/it] 65%|███████████████████████████████████████████████████████████████▋                                  | 4638/7135 [4:13:51<2:09:35,  3.11s/it] 65%|███████████████████████████████████████████████████████████████▋                                  | 4639/7135 [4:13:54<2:06:34,  3.04s/it] 65%|███████████████████████████████████████████████████████████████▋                                  | 4640/7135 [4:13:57<2:04:58,  3.01s/it]                                                                                                                                               {'loss': 0.7365, 'grad_norm': 4.8125, 'learning_rate': 1.398723633439849e-06, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 400.46, 'epoch': 6.5}
 65%|███████████████████████████████████████████████████████████████▋                                  | 4640/7135 [4:13:57<2:04:58,  3.01s/it] 65%|███████████████████████████████████████████████████████████████▋                                  | 4641/7135 [4:14:00<2:07:28,  3.07s/it] 65%|███████████████████████████████████████████████████████████████▊                                  | 4642/7135 [4:14:04<2:18:14,  3.33s/it] 65%|███████████████████████████████████████████████████████████████▊                                  | 4643/7135 [4:14:07<2:14:12,  3.23s/it] 65%|███████████████████████████████████████████████████████████████▊                                  | 4644/7135 [4:14:10<2:16:26,  3.29s/it] 65%|███████████████████████████████████████████████████████████████▊                                  | 4645/7135 [4:14:13<2:09:43,  3.13s/it] 65%|███████████████████████████████████████████████████████████████▊                                  | 4646/7135 [4:14:16<2:11:45,  3.18s/it] 65%|███████████████████████████████████████████████████████████████▊                                  | 4647/7135 [4:14:19<2:07:28,  3.07s/it] 65%|███████████████████████████████████████████████████████████████▊                                  | 4648/7135 [4:14:23<2:14:20,  3.24s/it] 65%|███████████████████████████████████████████████████████████████▊                                  | 4649/7135 [4:14:26<2:11:05,  3.16s/it] 65%|███████████████████████████████████████████████████████████████▊                                  | 4650/7135 [4:14:30<2:20:37,  3.40s/it]                                                                                                                                               {'loss': 0.6899, 'grad_norm': 4.0, 'learning_rate': 1.3887120579061264e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 356.32, 'epoch': 6.51}
 65%|███████████████████████████████████████████████████████████████▊                                  | 4650/7135 [4:14:30<2:20:37,  3.40s/it] 65%|███████████████████████████████████████████████████████████████▉                                  | 4651/7135 [4:14:33<2:18:23,  3.34s/it] 65%|███████████████████████████████████████████████████████████████▉                                  | 4652/7135 [4:14:36<2:10:46,  3.16s/it] 65%|███████████████████████████████████████████████████████████████▉                                  | 4653/7135 [4:14:39<2:17:17,  3.32s/it] 65%|███████████████████████████████████████████████████████████████▉                                  | 4654/7135 [4:14:43<2:21:18,  3.42s/it] 65%|███████████████████████████████████████████████████████████████▉                                  | 4655/7135 [4:14:47<2:23:05,  3.46s/it] 65%|███████████████████████████████████████████████████████████████▉                                  | 4656/7135 [4:14:50<2:16:59,  3.32s/it] 65%|███████████████████████████████████████████████████████████████▉                                  | 4657/7135 [4:14:53<2:21:26,  3.42s/it] 65%|███████████████████████████████████████████████████████████████▉                                  | 4658/7135 [4:14:56<2:17:33,  3.33s/it] 65%|███████████████████████████████████████████████████████████████▉                                  | 4659/7135 [4:15:00<2:16:49,  3.32s/it] 65%|████████████████████████████████████████████████████████████████                                  | 4660/7135 [4:15:03<2:14:43,  3.27s/it]                                                                                                                                               {'loss': 0.7151, 'grad_norm': 5.5, 'learning_rate': 1.3787226437841229e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 371.74, 'epoch': 6.53}
 65%|████████████████████████████████████████████████████████████████                                  | 4660/7135 [4:15:03<2:14:43,  3.27s/it] 65%|████████████████████████████████████████████████████████████████                                  | 4661/7135 [4:15:06<2:10:26,  3.16s/it] 65%|████████████████████████████████████████████████████████████████                                  | 4662/7135 [4:15:11<2:33:54,  3.73s/it] 65%|████████████████████████████████████████████████████████████████                                  | 4663/7135 [4:15:14<2:28:02,  3.59s/it] 65%|████████████████████████████████████████████████████████████████                                  | 4664/7135 [4:15:17<2:18:53,  3.37s/it] 65%|████████████████████████████████████████████████████████████████                                  | 4665/7135 [4:15:21<2:21:29,  3.44s/it] 65%|████████████████████████████████████████████████████████████████                                  | 4666/7135 [4:15:24<2:17:38,  3.34s/it] 65%|████████████████████████████████████████████████████████████████                                  | 4667/7135 [4:15:27<2:13:58,  3.26s/it] 65%|████████████████████████████████████████████████████████████████                                  | 4668/7135 [4:15:30<2:14:51,  3.28s/it] 65%|████████████████████████████████████████████████████████████████▏                                 | 4669/7135 [4:15:33<2:14:15,  3.27s/it] 65%|████████████████████████████████████████████████████████████████▏                                 | 4670/7135 [4:15:37<2:16:16,  3.32s/it]                                                                                                                                               {'loss': 0.8984, 'grad_norm': 5.46875, 'learning_rate': 1.3687555902837018e-06, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 547.14, 'epoch': 6.54}
 65%|████████████████████████████████████████████████████████████████▏                                 | 4670/7135 [4:15:37<2:16:16,  3.32s/it] 65%|████████████████████████████████████████████████████████████████▏                                 | 4671/7135 [4:15:40<2:13:06,  3.24s/it] 65%|████████████████████████████████████████████████████████████████▏                                 | 4672/7135 [4:15:43<2:10:04,  3.17s/it] 65%|████████████████████████████████████████████████████████████████▏                                 | 4673/7135 [4:15:46<2:08:03,  3.12s/it] 66%|████████████████████████████████████████████████████████████████▏                                 | 4674/7135 [4:15:49<2:07:13,  3.10s/it] 66%|████████████████████████████████████████████████████████████████▏                                 | 4675/7135 [4:15:52<2:04:41,  3.04s/it] 66%|████████████████████████████████████████████████████████████████▏                                 | 4676/7135 [4:15:55<2:09:57,  3.17s/it] 66%|████████████████████████████████████████████████████████████████▏                                 | 4677/7135 [4:15:59<2:16:42,  3.34s/it] 66%|████████████████████████████████████████████████████████████████▎                                 | 4678/7135 [4:16:02<2:09:09,  3.15s/it] 66%|████████████████████████████████████████████████████████████████▎                                 | 4679/7135 [4:16:05<2:11:25,  3.21s/it] 66%|████████████████████████████████████████████████████████████████▎                                 | 4680/7135 [4:16:08<2:09:10,  3.16s/it]                                                                                                                                               {'loss': 0.6188, 'grad_norm': 6.375, 'learning_rate': 1.3588110961688084e-06, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 376.9, 'epoch': 6.56}
 66%|████████████████████████████████████████████████████████████████▎                                 | 4680/7135 [4:16:08<2:09:10,  3.16s/it] 66%|████████████████████████████████████████████████████████████████▎                                 | 4681/7135 [4:16:11<2:07:48,  3.12s/it] 66%|████████████████████████████████████████████████████████████████▎                                 | 4682/7135 [4:16:15<2:15:06,  3.30s/it] 66%|████████████████████████████████████████████████████████████████▎                                 | 4683/7135 [4:16:18<2:12:04,  3.23s/it] 66%|████████████████████████████████████████████████████████████████▎                                 | 4684/7135 [4:16:21<2:12:18,  3.24s/it] 66%|████████████████████████████████████████████████████████████████▎                                 | 4685/7135 [4:16:24<2:13:39,  3.27s/it] 66%|████████████████████████████████████████████████████████████████▎                                 | 4686/7135 [4:16:28<2:10:47,  3.20s/it] 66%|████████████████████████████████████████████████████████████████▍                                 | 4687/7135 [4:16:30<2:07:30,  3.13s/it] 66%|████████████████████████████████████████████████████████████████▍                                 | 4688/7135 [4:16:34<2:06:26,  3.10s/it] 66%|████████████████████████████████████████████████████████████████▍                                 | 4689/7135 [4:16:37<2:08:27,  3.15s/it] 66%|████████████████████████████████████████████████████████████████▍                                 | 4690/7135 [4:16:40<2:09:53,  3.19s/it]                                                                                                                                               {'loss': 0.8593, 'grad_norm': 5.4375, 'learning_rate': 1.3488893597535086e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 412.03, 'epoch': 6.57}
 66%|████████████████████████████████████████████████████████████████▍                                 | 4690/7135 [4:16:40<2:09:53,  3.19s/it] 66%|████████████████████████████████████████████████████████████████▍                                 | 4691/7135 [4:16:43<2:09:04,  3.17s/it] 66%|████████████████████████████████████████████████████████████████▍                                 | 4692/7135 [4:16:46<2:06:59,  3.12s/it] 66%|████████████████████████████████████████████████████████████████▍                                 | 4693/7135 [4:16:49<2:05:30,  3.08s/it] 66%|████████████████████████████████████████████████████████████████▍                                 | 4694/7135 [4:16:52<2:02:30,  3.01s/it] 66%|████████████████████████████████████████████████████████████████▍                                 | 4695/7135 [4:16:55<2:06:07,  3.10s/it] 66%|████████████████████████████████████████████████████████████████▌                                 | 4696/7135 [4:16:59<2:09:09,  3.18s/it] 66%|████████████████████████████████████████████████████████████████▌                                 | 4697/7135 [4:17:02<2:07:58,  3.15s/it] 66%|████████████████████████████████████████████████████████████████▌                                 | 4698/7135 [4:17:05<2:10:50,  3.22s/it] 66%|████████████████████████████████████████████████████████████████▌                                 | 4699/7135 [4:17:09<2:13:21,  3.28s/it] 66%|████████████████████████████████████████████████████████████████▌                                 | 4700/7135 [4:17:12<2:15:13,  3.33s/it]                                                                                                                                               {'loss': 0.7954, 'grad_norm': 4.71875, 'learning_rate': 1.3389905788980296e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 358.26, 'epoch': 6.58}
 66%|████████████████████████████████████████████████████████████████▌                                 | 4700/7135 [4:17:12<2:15:13,  3.33s/it] 66%|████████████████████████████████████████████████████████████████▌                                 | 4701/7135 [4:17:15<2:15:59,  3.35s/it] 66%|████████████████████████████████████████████████████████████████▌                                 | 4702/7135 [4:17:19<2:12:41,  3.27s/it] 66%|████████████████████████████████████████████████████████████████▌                                 | 4703/7135 [4:17:21<2:05:36,  3.10s/it] 66%|████████████████████████████████████████████████████████████████▌                                 | 4704/7135 [4:17:25<2:09:53,  3.21s/it] 66%|████████████████████████████████████████████████████████████████▌                                 | 4705/7135 [4:17:28<2:10:16,  3.22s/it] 66%|████████████████████████████████████████████████████████████████▋                                 | 4706/7135 [4:17:31<2:08:40,  3.18s/it] 66%|████████████████████████████████████████████████████████████████▋                                 | 4707/7135 [4:17:34<2:07:36,  3.15s/it] 66%|████████████████████████████████████████████████████████████████▋                                 | 4708/7135 [4:17:37<2:03:05,  3.04s/it] 66%|████████████████████████████████████████████████████████████████▋                                 | 4709/7135 [4:17:40<2:06:26,  3.13s/it] 66%|████████████████████████████████████████████████████████████████▋                                 | 4710/7135 [4:17:43<2:03:37,  3.06s/it]                                                                                                                                               {'loss': 0.7028, 'grad_norm': 4.625, 'learning_rate': 1.3291149510048165e-06, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 445.47, 'epoch': 6.6}
 66%|████████████████████████████████████████████████████████████████▋                                 | 4710/7135 [4:17:43<2:03:37,  3.06s/it] 66%|██████████████████████████████████████████████████▏                         | 4711/7135 [4:17:46<2:04:46,  3.09s/it]                       66%|██████████████████████████████████████████████████▏                         | 4712/7135 [4:17:50<2:07:05,  3.15s/it] 66%|██████████████████████████████████████████████████▏                         | 4713/7135 [4:17:53<2:09:12,  3.20s/it] 66%|██████████████████████████████████████████████████▏                         | 4714/7135 [4:17:56<2:12:08,  3.27s/it] 66%|██████████████████████████████████████████████████▏                         | 4715/7135 [4:18:00<2:13:51,  3.32s/it] 66%|██████████████████████████████████████████████████▏                         | 4716/7135 [4:18:03<2:15:30,  3.36s/it] 66%|██████████████████████████████████████████████████▏                         | 4717/7135 [4:18:06<2:13:14,  3.31s/it] 66%|██████████████████████████████████████████████████▎                         | 4718/7135 [4:18:09<2:06:52,  3.15s/it] 66%|██████████████████████████████████████████████████▎                         | 4719/7135 [4:18:13<2:12:54,  3.30s/it] 66%|██████████████████████████████████████████████████▎                         | 4720/7135 [4:18:16<2:14:58,  3.35s/it]                                                                                                                         {'loss': 0.7738, 'grad_norm': 4.1875, 'learning_rate': 1.3192626730145986e-06, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 381.33, 'epoch': 6.61}
 66%|██████████████████████████████████████████████████▎                         | 4720/7135 [4:18:16<2:14:58,  3.35s/it] 66%|██████████████████████████████████████████████████▎                         | 4721/7135 [4:18:19<2:11:32,  3.27s/it] 66%|██████████████████████████████████████████████████▎                         | 4722/7135 [4:18:23<2:10:29,  3.24s/it] 66%|██████████████████████████████████████████████████▎                         | 4723/7135 [4:18:26<2:17:24,  3.42s/it] 66%|██████████████████████████████████████████████████▎                         | 4724/7135 [4:18:30<2:20:52,  3.51s/it] 66%|██████████████████████████████████████████████████▎                         | 4725/7135 [4:18:33<2:17:47,  3.43s/it] 66%|██████████████████████████████████████████████████▎                         | 4726/7135 [4:18:37<2:19:52,  3.48s/it] 66%|██████████████████████████████████████████████████▎                         | 4727/7135 [4:18:40<2:17:37,  3.43s/it] 66%|██████████████████████████████████████████████████▎                         | 4728/7135 [4:18:43<2:10:48,  3.26s/it] 66%|██████████████████████████████████████████████████▎                         | 4729/7135 [4:18:46<2:08:16,  3.20s/it] 66%|██████████████████████████████████████████████████▍                         | 4730/7135 [4:18:49<2:04:46,  3.11s/it]                                                                                                                         {'loss': 0.6754, 'grad_norm': 5.53125, 'learning_rate': 1.3094339414024566e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 441.4, 'epoch': 6.63}
 66%|██████████████████████████████████████████████████▍                         | 4730/7135 [4:18:49<2:04:46,  3.11s/it] 66%|██████████████████████████████████████████████████▍                         | 4731/7135 [4:18:52<2:02:04,  3.05s/it] 66%|██████████████████████████████████████████████████▍                         | 4732/7135 [4:18:55<1:59:48,  2.99s/it] 66%|██████████████████████████████████████████████████▍                         | 4733/7135 [4:18:58<2:05:46,  3.14s/it] 66%|██████████████████████████████████████████████████▍                         | 4734/7135 [4:19:01<2:02:58,  3.07s/it] 66%|██████████████████████████████████████████████████▍                         | 4735/7135 [4:19:05<2:06:40,  3.17s/it] 66%|██████████████████████████████████████████████████▍                         | 4736/7135 [4:19:08<2:11:10,  3.28s/it] 66%|██████████████████████████████████████████████████▍                         | 4737/7135 [4:19:11<2:08:15,  3.21s/it] 66%|██████████████████████████████████████████████████▍                         | 4738/7135 [4:19:14<2:04:24,  3.11s/it] 66%|██████████████████████████████████████████████████▍                         | 4739/7135 [4:19:17<2:04:14,  3.11s/it] 66%|██████████████████████████████████████████████████▍                         | 4740/7135 [4:19:20<2:02:47,  3.08s/it]                                                                                                                         {'loss': 0.6901, 'grad_norm': 4.3125, 'learning_rate': 1.2996289521739065e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 380.95, 'epoch': 6.64}
 66%|██████████████████████████████████████████████████▍                         | 4740/7135 [4:19:20<2:02:47,  3.08s/it] 66%|██████████████████████████████████████████████████▍                         | 4741/7135 [4:19:23<2:01:41,  3.05s/it] 66%|██████████████████████████████████████████████████▌                         | 4742/7135 [4:19:26<2:03:19,  3.09s/it] 66%|██████████████████████████████████████████████████▌                         | 4743/7135 [4:19:29<2:01:01,  3.04s/it] 66%|██████████████████████████████████████████████████▌                         | 4744/7135 [4:19:33<2:03:48,  3.11s/it] 67%|██████████████████████████████████████████████████▌                         | 4745/7135 [4:19:36<2:11:18,  3.30s/it] 67%|██████████████████████████████████████████████████▌                         | 4746/7135 [4:19:39<2:09:02,  3.24s/it] 67%|██████████████████████████████████████████████████▌                         | 4747/7135 [4:19:43<2:11:26,  3.30s/it] 67%|██████████████████████████████████████████████████▌                         | 4748/7135 [4:19:46<2:09:23,  3.25s/it] 67%|██████████████████████████████████████████████████▌                         | 4749/7135 [4:19:49<2:04:16,  3.12s/it] 67%|██████████████████████████████████████████████████▌                         | 4750/7135 [4:19:52<2:01:20,  3.05s/it]                                                                                                                         {'loss': 0.654, 'grad_norm': 4.6875, 'learning_rate': 1.2898479008609946e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 423.65, 'epoch': 6.65}
 67%|██████████████████████████████████████████████████▌                         | 4750/7135 [4:19:52<2:01:20,  3.05s/it] 67%|██████████████████████████████████████████████████▌                         | 4751/7135 [4:19:55<2:05:13,  3.15s/it] 67%|██████████████████████████████████████████████████▌                         | 4752/7135 [4:19:59<2:16:02,  3.43s/it] 67%|██████████████████████████████████████████████████▋                         | 4753/7135 [4:20:02<2:14:15,  3.38s/it] 67%|██████████████████████████████████████████████████▋                         | 4754/7135 [4:20:05<2:08:29,  3.24s/it] 67%|██████████████████████████████████████████████████▋                         | 4755/7135 [4:20:08<2:07:10,  3.21s/it] 67%|██████████████████████████████████████████████████▋                         | 4756/7135 [4:20:12<2:10:58,  3.30s/it] 67%|██████████████████████████████████████████████████▋                         | 4757/7135 [4:20:15<2:08:51,  3.25s/it] 67%|██████████████████████████████████████████████████▋                         | 4758/7135 [4:20:18<2:09:30,  3.27s/it] 67%|██████████████████████████████████████████████████▋                         | 4759/7135 [4:20:22<2:08:31,  3.25s/it] 67%|██████████████████████████████████████████████████▋                         | 4760/7135 [4:20:25<2:10:12,  3.29s/it]                                                                                                                         {'loss': 0.6897, 'grad_norm': 5.875, 'learning_rate': 1.2800909825183921e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 328.9, 'epoch': 6.67}
 67%|██████████████████████████████████████████████████▋                         | 4760/7135 [4:20:25<2:10:12,  3.29s/it] 67%|██████████████████████████████████████████████████▋                         | 4761/7135 [4:20:28<2:08:23,  3.25s/it] 67%|██████████████████████████████████████████████████▋                         | 4762/7135 [4:20:31<2:09:14,  3.27s/it] 67%|██████████████████████████████████████████████████▋                         | 4763/7135 [4:20:35<2:06:20,  3.20s/it] 67%|██████████████████████████████████████████████████▋                         | 4764/7135 [4:20:38<2:04:19,  3.15s/it] 67%|██████████████████████████████████████████████████▊                         | 4765/7135 [4:20:41<2:03:37,  3.13s/it] 67%|██████████████████████████████████████████████████▊                         | 4766/7135 [4:20:44<2:02:25,  3.10s/it] 67%|██████████████████████████████████████████████████▊                         | 4767/7135 [4:20:47<2:02:29,  3.10s/it] 67%|██████████████████████████████████████████████████▊                         | 4768/7135 [4:20:50<2:03:23,  3.13s/it] 67%|██████████████████████████████████████████████████▊                         | 4769/7135 [4:20:54<2:08:36,  3.26s/it] 67%|██████████████████████████████████████████████████▊                         | 4770/7135 [4:20:56<2:04:19,  3.15s/it]                                                                                                                         {'loss': 0.8234, 'grad_norm': 5.875, 'learning_rate': 1.2703583917195095e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 439.38, 'epoch': 6.68}
 67%|██████████████████████████████████████████████████▊                         | 4770/7135 [4:20:56<2:04:19,  3.15s/it] 67%|██████████████████████████████████████████████████▊                         | 4771/7135 [4:21:00<2:03:56,  3.15s/it] 67%|██████████████████████████████████████████████████▊                         | 4772/7135 [4:21:02<1:59:05,  3.02s/it] 67%|██████████████████████████████████████████████████▊                         | 4773/7135 [4:21:05<1:59:06,  3.03s/it] 67%|██████████████████████████████████████████████████▊                         | 4774/7135 [4:21:09<2:03:32,  3.14s/it] 67%|██████████████████████████████████████████████████▊                         | 4775/7135 [4:21:12<2:03:38,  3.14s/it] 67%|██████████████████████████████████████████████████▊                         | 4776/7135 [4:21:16<2:13:01,  3.38s/it] 67%|██████████████████████████████████████████████████▉                         | 4777/7135 [4:21:19<2:05:55,  3.20s/it] 67%|██████████████████████████████████████████████████▉                         | 4778/7135 [4:21:22<2:04:14,  3.16s/it] 67%|██████████████████████████████████████████████████▉                         | 4779/7135 [4:21:25<2:03:08,  3.14s/it] 67%|██████████████████████████████████████████████████▉                         | 4780/7135 [4:21:28<2:07:07,  3.24s/it]                                                                                                                         {'loss': 0.7265, 'grad_norm': 4.125, 'learning_rate': 1.2606503225526145e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 364.2, 'epoch': 6.7}
 67%|██████████████████████████████████████████████████▉                         | 4780/7135 [4:21:28<2:07:07,  3.24s/it] 67%|██████████████████████████████████████████████████▉                         | 4781/7135 [4:21:31<2:05:32,  3.20s/it] 67%|██████████████████████████████████████████████████▉                         | 4782/7135 [4:21:34<2:03:14,  3.14s/it] 67%|██████████████████████████████████████████████████▉                         | 4783/7135 [4:21:37<2:02:50,  3.13s/it] 67%|██████████████████████████████████████████████████▉                         | 4784/7135 [4:21:41<2:06:11,  3.22s/it] 67%|██████████████████████████████████████████████████▉                         | 4785/7135 [4:21:44<2:06:07,  3.22s/it] 67%|██████████████████████████████████████████████████▉                         | 4786/7135 [4:21:47<2:00:31,  3.08s/it] 67%|██████████████████████████████████████████████████▉                         | 4787/7135 [4:21:50<1:57:23,  3.00s/it] 67%|███████████████████████████████████████████████████                         | 4788/7135 [4:21:53<2:02:36,  3.13s/it] 67%|███████████████████████████████████████████████████                         | 4789/7135 [4:21:57<2:10:13,  3.33s/it] 67%|███████████████████████████████████████████████████                         | 4790/7135 [4:22:00<2:09:42,  3.32s/it]                                                                                                                         {'loss': 0.7041, 'grad_norm': 3.890625, 'learning_rate': 1.2509669686169619e-06, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 335.89, 'epoch': 6.71}
 67%|███████████████████████████████████████████████████                         | 4790/7135 [4:22:00<2:09:42,  3.32s/it] 67%|███████████████████████████████████████████████████                         | 4791/7135 [4:22:04<2:12:10,  3.38s/it] 67%|███████████████████████████████████████████████████                         | 4792/7135 [4:22:07<2:12:56,  3.40s/it] 67%|███████████████████████████████████████████████████                         | 4793/7135 [4:22:10<2:06:00,  3.23s/it] 67%|███████████████████████████████████████████████████                         | 4794/7135 [4:22:13<2:02:39,  3.14s/it] 67%|███████████████████████████████████████████████████                         | 4795/7135 [4:22:17<2:14:30,  3.45s/it] 67%|███████████████████████████████████████████████████                         | 4796/7135 [4:22:20<2:12:17,  3.39s/it] 67%|███████████████████████████████████████████████████                         | 4797/7135 [4:22:24<2:09:34,  3.33s/it] 67%|███████████████████████████████████████████████████                         | 4798/7135 [4:22:26<2:04:07,  3.19s/it] 67%|███████████████████████████████████████████████████                         | 4799/7135 [4:22:30<2:04:57,  3.21s/it] 67%|███████████████████████████████████████████████████▏                        | 4800/7135 [4:22:33<2:10:03,  3.34s/it]                                                                                                                         {'loss': 0.8638, 'grad_norm': 3.953125, 'learning_rate': 1.2413085230189322e-06, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 308.89, 'epoch': 6.72}
 67%|███████████████████████████████████████████████████▏                        | 4800/7135 [4:22:33<2:10:03,  3.34s/it] 67%|███████████████████████████████████████████████████▏                        | 4801/7135 [4:22:37<2:11:09,  3.37s/it] 67%|███████████████████████████████████████████████████▏                        | 4802/7135 [4:22:40<2:04:59,  3.21s/it] 67%|███████████████████████████████████████████████████▏                        | 4803/7135 [4:22:43<2:05:57,  3.24s/it] 67%|███████████████████████████████████████████████████▏                        | 4804/7135 [4:22:46<2:06:22,  3.25s/it] 67%|███████████████████████████████████████████████████▏                        | 4805/7135 [4:22:49<2:04:41,  3.21s/it] 67%|███████████████████████████████████████████████████▏                        | 4806/7135 [4:22:53<2:08:39,  3.31s/it] 67%|███████████████████████████████████████████████████▏                        | 4807/7135 [4:22:56<2:11:23,  3.39s/it] 67%|███████████████████████████████████████████████████▏                        | 4808/7135 [4:22:59<2:04:18,  3.21s/it] 67%|███████████████████████████████████████████████████▏                        | 4809/7135 [4:23:02<2:03:23,  3.18s/it] 67%|███████████████████████████████████████████████████▏                        | 4810/7135 [4:23:05<2:01:40,  3.14s/it]                                                                                                                         {'loss': 0.7859, 'grad_norm': 6.1875, 'learning_rate': 1.2316751783681853e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 423.03, 'epoch': 6.74}
 67%|███████████████████████████████████████████████████▏                        | 4810/7135 [4:23:05<2:01:40,  3.14s/it] 67%|███████████████████████████████████████████████████▏                        | 4811/7135 [4:23:08<1:58:16,  3.05s/it] 67%|███████████████████████████████████████████████████▎                        | 4812/7135 [4:23:11<2:00:00,  3.10s/it] 67%|███████████████████████████████████████████████████▎                        | 4813/7135 [4:23:14<1:55:32,  2.99s/it] 67%|███████████████████████████████████████████████████▎                        | 4814/7135 [4:23:18<1:59:51,  3.10s/it] 67%|███████████████████████████████████████████████████▎                        | 4815/7135 [4:23:21<2:03:01,  3.18s/it] 67%|███████████████████████████████████████████████████▎                        | 4816/7135 [4:23:24<2:02:12,  3.16s/it] 68%|███████████████████████████████████████████████████▎                        | 4817/7135 [4:23:27<1:59:43,  3.10s/it] 68%|███████████████████████████████████████████████████▎                        | 4818/7135 [4:23:30<2:02:10,  3.16s/it] 68%|███████████████████████████████████████████████████▎                        | 4819/7135 [4:23:33<1:58:30,  3.07s/it] 68%|███████████████████████████████████████████████████▎                        | 4820/7135 [4:23:36<1:57:31,  3.05s/it]                                                                                                                         {'loss': 0.7639, 'grad_norm': 5.21875, 'learning_rate': 1.222067126773811e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 413.71, 'epoch': 6.75}
 68%|███████████████████████████████████████████████████▎                        | 4820/7135 [4:23:36<1:57:31,  3.05s/it] 68%|███████████████████████████████████████████████████▎                        | 4821/7135 [4:23:39<2:00:29,  3.12s/it] 68%|███████████████████████████████████████████████████▎                        | 4822/7135 [4:23:43<2:04:08,  3.22s/it] 68%|███████████████████████████████████████████████████▎                        | 4823/7135 [4:23:46<2:02:26,  3.18s/it] 68%|███████████████████████████████████████████████████▍                        | 4824/7135 [4:23:49<2:01:52,  3.16s/it] 68%|███████████████████████████████████████████████████▍                        | 4825/7135 [4:23:53<2:05:27,  3.26s/it] 68%|███████████████████████████████████████████████████▍                        | 4826/7135 [4:23:56<2:02:50,  3.19s/it] 68%|███████████████████████████████████████████████████▍                        | 4827/7135 [4:23:59<2:05:57,  3.27s/it] 68%|███████████████████████████████████████████████████▍                        | 4828/7135 [4:24:02<2:04:30,  3.24s/it] 68%|███████████████████████████████████████████████████▍                        | 4829/7135 [4:24:05<2:02:45,  3.19s/it] 68%|███████████████████████████████████████████████████▍                        | 4830/7135 [4:24:08<2:01:36,  3.17s/it]                                                                                                                         {'loss': 0.6597, 'grad_norm': 5.8125, 'learning_rate': 1.2124845598405036e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 344.52, 'epoch': 6.77}
 68%|███████████████████████████████████████████████████▍                        | 4830/7135 [4:24:08<2:01:36,  3.17s/it] 68%|███████████████████████████████████████████████████▍                        | 4831/7135 [4:24:12<2:04:48,  3.25s/it] 68%|███████████████████████████████████████████████████▍                        | 4832/7135 [4:24:16<2:13:38,  3.48s/it] 68%|███████████████████████████████████████████████████▍                        | 4833/7135 [4:24:19<2:05:09,  3.26s/it] 68%|███████████████████████████████████████████████████▍                        | 4834/7135 [4:24:22<2:06:57,  3.31s/it] 68%|███████████████████████████████████████████████████▌                        | 4835/7135 [4:24:25<2:07:02,  3.31s/it] 68%|███████████████████████████████████████████████████▌                        | 4836/7135 [4:24:28<2:01:45,  3.18s/it] 68%|███████████████████████████████████████████████████▌                        | 4837/7135 [4:24:31<1:56:46,  3.05s/it] 68%|███████████████████████████████████████████████████▌                        | 4838/7135 [4:24:34<1:53:51,  2.97s/it] 68%|███████████████████████████████████████████████████▌                        | 4839/7135 [4:24:37<1:55:50,  3.03s/it] 68%|███████████████████████████████████████████████████▌                        | 4840/7135 [4:24:41<2:03:56,  3.24s/it]                                                                                                                         {'loss': 0.7982, 'grad_norm': 5.21875, 'learning_rate': 1.2029276686647423e-06, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 300.1, 'epoch': 6.78}
 68%|███████████████████████████████████████████████████▌                        | 4840/7135 [4:24:41<2:03:56,  3.24s/it] 68%|███████████████████████████████████████████████████▌                        | 4841/7135 [4:24:44<2:08:24,  3.36s/it] 68%|███████████████████████████████████████████████████▌                        | 4842/7135 [4:24:47<2:04:14,  3.25s/it] 68%|███████████████████████████████████████████████████▌                        | 4843/7135 [4:24:51<2:13:13,  3.49s/it] 68%|███████████████████████████████████████████████████▌                        | 4844/7135 [4:24:55<2:12:50,  3.48s/it] 68%|███████████████████████████████████████████████████▌                        | 4845/7135 [4:24:58<2:09:29,  3.39s/it] 68%|███████████████████████████████████████████████████▌                        | 4846/7135 [4:25:01<2:02:10,  3.20s/it] 68%|███████████████████████████████████████████████████▋                        | 4847/7135 [4:25:04<2:00:30,  3.16s/it] 68%|███████████████████████████████████████████████████▋                        | 4848/7135 [4:25:07<2:00:09,  3.15s/it] 68%|███████████████████████████████████████████████████▋                        | 4849/7135 [4:25:10<2:02:30,  3.22s/it] 68%|███████████████████████████████████████████████████▋                        | 4850/7135 [4:25:14<2:04:29,  3.27s/it]                                                                                                                         {'loss': 0.8808, 'grad_norm': 5.78125, 'learning_rate': 1.1933966438309752e-06, 'memory/max_active (GiB)': 44.58, 'memory/max_allocated (GiB)': 44.58, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 433.5, 'epoch': 6.79}
 68%|███████████████████████████████████████████████████▋                        | 4850/7135 [4:25:14<2:04:29,  3.27s/it] 68%|███████████████████████████████████████████████████▋                        | 4851/7135 [4:25:17<2:06:09,  3.31s/it] 68%|███████████████████████████████████████████████████▋                        | 4852/7135 [4:25:20<2:05:14,  3.29s/it] 68%|███████████████████████████████████████████████████▋                        | 4853/7135 [4:25:24<2:03:28,  3.25s/it] 68%|███████████████████████████████████████████████████▋                        | 4854/7135 [4:25:27<2:01:18,  3.19s/it] 68%|███████████████████████████████████████████████████▋                        | 4855/7135 [4:25:30<1:58:43,  3.12s/it] 68%|███████████████████████████████████████████████████▋                        | 4856/7135 [4:25:32<1:56:01,  3.05s/it] 68%|███████████████████████████████████████████████████▋                        | 4857/7135 [4:25:35<1:52:23,  2.96s/it] 68%|███████████████████████████████████████████████████▋                        | 4858/7135 [4:25:39<1:57:15,  3.09s/it] 68%|███████████████████████████████████████████████████▊                        | 4859/7135 [4:25:42<1:59:12,  3.14s/it] 68%|███████████████████████████████████████████████████▊                        | 4860/7135 [4:25:45<1:59:41,  3.16s/it]                                                                                                                         {'loss': 0.7114, 'grad_norm': 3.671875, 'learning_rate': 1.1838916754078214e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 380.35, 'epoch': 6.81}
 68%|███████████████████████████████████████████████████▊                        | 4860/7135 [4:25:45<1:59:41,  3.16s/it] 68%|███████████████████████████████████████████████████▊                        | 4861/7135 [4:25:48<2:00:02,  3.17s/it] 68%|███████████████████████████████████████████████████▊                        | 4862/7135 [4:25:51<1:57:11,  3.09s/it] 68%|███████████████████████████████████████████████████▊                        | 4863/7135 [4:25:55<2:01:53,  3.22s/it] 68%|███████████████████████████████████████████████████▊                        | 4864/7135 [4:25:58<1:59:51,  3.17s/it] 68%|███████████████████████████████████████████████████▊                        | 4865/7135 [4:26:01<1:59:16,  3.15s/it] 68%|███████████████████████████████████████████████████▊                        | 4866/7135 [4:26:04<1:56:52,  3.09s/it] 68%|███████████████████████████████████████████████████▊                        | 4867/7135 [4:26:07<2:00:35,  3.19s/it] 68%|███████████████████████████████████████████████████▊                        | 4868/7135 [4:26:10<2:00:57,  3.20s/it] 68%|███████████████████████████████████████████████████▊                        | 4869/7135 [4:26:14<2:03:00,  3.26s/it] 68%|███████████████████████████████████████████████████▊                        | 4870/7135 [4:26:17<2:05:28,  3.32s/it]                                                                                                                         {'loss': 0.6597, 'grad_norm': 4.59375, 'learning_rate': 1.1744129529442832e-06, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 402.9, 'epoch': 6.82}
 68%|███████████████████████████████████████████████████▊                        | 4870/7135 [4:26:17<2:05:28,  3.32s/it] 68%|███████████████████████████████████████████████████▉                        | 4871/7135 [4:26:21<2:05:15,  3.32s/it] 68%|███████████████████████████████████████████████████▉                        | 4872/7135 [4:26:24<2:07:48,  3.39s/it] 68%|███████████████████████████████████████████████████▉                        | 4873/7135 [4:26:27<2:01:20,  3.22s/it] 68%|███████████████████████████████████████████████████▉                        | 4874/7135 [4:26:30<2:03:27,  3.28s/it] 68%|███████████████████████████████████████████████████▉                        | 4875/7135 [4:26:33<1:59:36,  3.18s/it] 68%|███████████████████████████████████████████████████▉                        | 4876/7135 [4:26:36<1:57:24,  3.12s/it] 68%|███████████████████████████████████████████████████▉                        | 4877/7135 [4:26:39<1:56:25,  3.09s/it] 68%|███████████████████████████████████████████████████▉                        | 4878/7135 [4:26:42<1:54:57,  3.06s/it] 68%|███████████████████████████████████████████████████▉                        | 4879/7135 [4:26:46<2:00:26,  3.20s/it] 68%|███████████████████████████████████████████████████▉                        | 4880/7135 [4:26:49<1:59:02,  3.17s/it]                                                                                                                         {'loss': 0.69, 'grad_norm': 5.125, 'learning_rate': 1.1649606654659604e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 383.55, 'epoch': 6.84}
 68%|███████████████████████████████████████████████████▉                        | 4880/7135 [4:26:49<1:59:02,  3.17s/it] 68%|███████████████████████████████████████████████████▉                        | 4881/7135 [4:26:52<1:56:07,  3.09s/it] 68%|████████████████████████████████████████████████████                        | 4882/7135 [4:26:55<1:59:29,  3.18s/it] 68%|████████████████████████████████████████████████████                        | 4883/7135 [4:26:58<1:58:40,  3.16s/it] 68%|████████████████████████████████████████████████████                        | 4884/7135 [4:27:01<1:57:47,  3.14s/it] 68%|████████████████████████████████████████████████████                        | 4885/7135 [4:27:05<1:58:02,  3.15s/it] 68%|████████████████████████████████████████████████████                        | 4886/7135 [4:27:08<2:05:30,  3.35s/it] 68%|████████████████████████████████████████████████████                        | 4887/7135 [4:27:12<2:06:55,  3.39s/it] 69%|████████████████████████████████████████████████████                        | 4888/7135 [4:27:15<2:05:46,  3.36s/it] 69%|████████████████████████████████████████████████████                        | 4889/7135 [4:27:18<2:04:18,  3.32s/it] 69%|████████████████████████████████████████████████████                        | 4890/7135 [4:27:22<2:04:16,  3.32s/it]                                                                                                                         {'loss': 0.7452, 'grad_norm': 2.875, 'learning_rate': 1.1555350014712851e-06, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 409.83, 'epoch': 6.85}
 69%|████████████████████████████████████████████████████                        | 4890/7135 [4:27:22<2:04:16,  3.32s/it] 69%|████████████████████████████████████████████████████                        | 4891/7135 [4:27:25<2:03:53,  3.31s/it] 69%|████████████████████████████████████████████████████                        | 4892/7135 [4:27:28<2:03:20,  3.30s/it] 69%|████████████████████████████████████████████████████                        | 4893/7135 [4:27:31<1:56:01,  3.11s/it] 69%|████████████████████████████████████████████████████▏                       | 4894/7135 [4:27:34<1:55:46,  3.10s/it] 69%|████████████████████████████████████████████████████▏                       | 4895/7135 [4:27:38<1:59:56,  3.21s/it] 69%|████████████████████████████████████████████████████▏                       | 4896/7135 [4:27:41<1:57:41,  3.15s/it] 69%|████████████████████████████████████████████████████▏                       | 4897/7135 [4:27:44<1:56:56,  3.14s/it] 69%|████████████████████████████████████████████████████▏                       | 4898/7135 [4:27:47<1:58:46,  3.19s/it] 69%|████████████████████████████████████████████████████▏                       | 4899/7135 [4:27:50<1:58:52,  3.19s/it] 69%|████████████████████████████████████████████████████▏                       | 4900/7135 [4:27:53<1:58:05,  3.17s/it]                                                                                                                         {'loss': 0.6641, 'grad_norm': 4.59375, 'learning_rate': 1.1461361489277609e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 413.2, 'epoch': 6.86}
 69%|████████████████████████████████████████████████████▏                       | 4900/7135 [4:27:53<1:58:05,  3.17s/it] 69%|████████████████████████████████████████████████████▏                       | 4901/7135 [4:27:57<2:01:35,  3.27s/it] 69%|████████████████████████████████████████████████████▏                       | 4902/7135 [4:28:00<1:59:37,  3.21s/it] 69%|████████████████████████████████████████████████████▏                       | 4903/7135 [4:28:03<2:02:13,  3.29s/it] 69%|████████████████████████████████████████████████████▏                       | 4904/7135 [4:28:07<2:07:04,  3.42s/it] 69%|████████████████████████████████████████████████████▏                       | 4905/7135 [4:28:10<2:02:53,  3.31s/it] 69%|████████████████████████████████████████████████████▎                       | 4906/7135 [4:28:13<1:59:08,  3.21s/it] 69%|████████████████████████████████████████████████████▎                       | 4907/7135 [4:28:16<1:59:42,  3.22s/it] 69%|████████████████████████████████████████████████████▎                       | 4908/7135 [4:28:20<2:00:21,  3.24s/it] 69%|████████████████████████████████████████████████████▎                       | 4909/7135 [4:28:23<1:58:09,  3.18s/it] 69%|████████████████████████████████████████████████████▎                       | 4910/7135 [4:28:26<1:59:19,  3.22s/it]                                                                                                                         {'loss': 0.6674, 'grad_norm': 4.75, 'learning_rate': 1.1367642952682154e-06, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 340.85, 'epoch': 6.88}
 69%|████████████████████████████████████████████████████▎                       | 4910/7135 [4:28:26<1:59:19,  3.22s/it] 69%|████████████████████████████████████████████████████▎                       | 4911/7135 [4:28:29<2:00:59,  3.26s/it] 69%|████████████████████████████████████████████████████▎                       | 4912/7135 [4:28:33<2:02:15,  3.30s/it] 69%|████████████████████████████████████████████████████▎                       | 4913/7135 [4:28:36<1:59:13,  3.22s/it] 69%|████████████████████████████████████████████████████▎                       | 4914/7135 [4:28:39<2:00:39,  3.26s/it] 69%|████████████████████████████████████████████████████▎                       | 4915/7135 [4:28:42<2:02:11,  3.30s/it] 69%|████████████████████████████████████████████████████▎                       | 4916/7135 [4:28:46<2:02:38,  3.32s/it] 69%|████████████████████████████████████████████████████▎                       | 4917/7135 [4:28:49<2:01:32,  3.29s/it] 69%|████████████████████████████████████████████████████▍                       | 4918/7135 [4:28:52<1:59:18,  3.23s/it] 69%|████████████████████████████████████████████████████▍                       | 4919/7135 [4:28:55<1:59:14,  3.23s/it] 69%|████████████████████████████████████████████████████▍                       | 4920/7135 [4:28:58<1:55:04,  3.12s/it]                                                                                                                         {'loss': 0.7038, 'grad_norm': 6.5, 'learning_rate': 1.1274196273870603e-06, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 407.26, 'epoch': 6.89}
 69%|████████████████████████████████████████████████████▍                       | 4920/7135 [4:28:58<1:55:04,  3.12s/it] 69%|████████████████████████████████████████████████████▍                       | 4921/7135 [4:29:01<1:54:44,  3.11s/it] 69%|████████████████████████████████████████████████████▍                       | 4922/7135 [4:29:04<1:54:28,  3.10s/it] 69%|████████████████████████████████████████████████████▍                       | 4923/7135 [4:29:07<1:50:25,  3.00s/it] 69%|████████████████████████████████████████████████████▍                       | 4924/7135 [4:29:10<1:52:35,  3.06s/it] 69%|████████████████████████████████████████████████████▍                       | 4925/7135 [4:29:13<1:49:16,  2.97s/it] 69%|████████████████████████████████████████████████████▍                       | 4926/7135 [4:29:16<1:49:39,  2.98s/it] 69%|████████████████████████████████████████████████████▍                       | 4927/7135 [4:29:19<1:51:36,  3.03s/it] 69%|████████████████████████████████████████████████████▍                       | 4928/7135 [4:29:22<1:50:00,  2.99s/it] 69%|████████████████████████████████████████████████████▌                       | 4929/7135 [4:29:25<1:50:15,  3.00s/it] 69%|████████████████████████████████████████████████████▌                       | 4930/7135 [4:29:29<1:55:07,  3.13s/it]                                                                                                                         {'loss': 0.727, 'grad_norm': 5.0625, 'learning_rate': 1.1181023316365692e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 344.72, 'epoch': 6.91}
 69%|████████████████████████████████████████████████████▌                       | 4930/7135 [4:29:29<1:55:07,  3.13s/it] 69%|████████████████████████████████████████████████████▌                       | 4931/7135 [4:29:32<1:53:02,  3.08s/it] 69%|████████████████████████████████████████████████████▌                       | 4932/7135 [4:29:35<2:01:33,  3.31s/it] 69%|████████████████████████████████████████████████████▌                       | 4933/7135 [4:29:39<2:05:50,  3.43s/it] 69%|████████████████████████████████████████████████████▌                       | 4934/7135 [4:29:43<2:06:51,  3.46s/it] 69%|████████████████████████████████████████████████████▌                       | 4935/7135 [4:29:46<2:05:06,  3.41s/it] 69%|████████████████████████████████████████████████████▌                       | 4936/7135 [4:29:49<2:03:13,  3.36s/it] 69%|████████████████████████████████████████████████████▌                       | 4937/7135 [4:29:53<2:06:20,  3.45s/it] 69%|████████████████████████████████████████████████████▌                       | 4938/7135 [4:29:57<2:18:45,  3.79s/it] 69%|████████████████████████████████████████████████████▌                       | 4939/7135 [4:30:01<2:12:12,  3.61s/it] 69%|████████████████████████████████████████████████████▌                       | 4940/7135 [4:30:04<2:07:33,  3.49s/it]                                                                                                                         {'loss': 0.8056, 'grad_norm': 6.0625, 'learning_rate': 1.1088125938231548e-06, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 514.44, 'epoch': 6.92}
 69%|████████████████████████████████████████████████████▌                       | 4940/7135 [4:30:04<2:07:33,  3.49s/it] 69%|████████████████████████████████████████████████████▋                       | 4941/7135 [4:30:07<2:08:04,  3.50s/it] 69%|████████████████████████████████████████████████████▋                       | 4942/7135 [4:30:11<2:10:06,  3.56s/it] 69%|████████████████████████████████████████████████████▋                       | 4943/7135 [4:30:14<2:01:22,  3.32s/it] 69%|████████████████████████████████████████████████████▋                       | 4944/7135 [4:30:17<2:02:06,  3.34s/it] 69%|████████████████████████████████████████████████████▋                       | 4945/7135 [4:30:21<2:03:43,  3.39s/it] 69%|████████████████████████████████████████████████████▋                       | 4946/7135 [4:30:24<2:05:37,  3.44s/it] 69%|████████████████████████████████████████████████████▋                       | 4947/7135 [4:30:28<2:10:51,  3.59s/it] 69%|████████████████████████████████████████████████████▋                       | 4948/7135 [4:30:32<2:09:46,  3.56s/it] 69%|████████████████████████████████████████████████████▋                       | 4949/7135 [4:30:35<2:01:29,  3.33s/it] 69%|████████████████████████████████████████████████████▋                       | 4950/7135 [4:30:39<2:10:47,  3.59s/it]                                                                                                                         {'loss': 0.6629, 'grad_norm': 1.390625, 'learning_rate': 1.0995505992036668e-06, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 411.19, 'epoch': 6.93}
 69%|████████████████████████████████████████████████████▋                       | 4950/7135 [4:30:39<2:10:47,  3.59s/it] 69%|████████████████████████████████████████████████████▋                       | 4951/7135 [4:30:42<2:09:56,  3.57s/it] 69%|████████████████████████████████████████████████████▋                       | 4952/7135 [4:30:45<2:00:58,  3.32s/it] 69%|████████████████████████████████████████████████████▊                       | 4953/7135 [4:30:48<1:55:08,  3.17s/it] 69%|████████████████████████████████████████████████████▊                       | 4954/7135 [4:30:51<1:52:19,  3.09s/it] 69%|████████████████████████████████████████████████████▊                       | 4955/7135 [4:30:54<1:50:22,  3.04s/it] 69%|████████████████████████████████████████████████████▊                       | 4956/7135 [4:30:57<1:52:06,  3.09s/it] 69%|████████████████████████████████████████████████████▊                       | 4957/7135 [4:31:00<1:50:32,  3.05s/it] 69%|████████████████████████████████████████████████████▊                       | 4958/7135 [4:31:03<1:54:58,  3.17s/it] 70%|████████████████████████████████████████████████████▊                       | 4959/7135 [4:31:07<1:57:59,  3.25s/it] 70%|████████████████████████████████████████████████████▊                       | 4960/7135 [4:31:09<1:51:17,  3.07s/it]                                                                                                                         {'loss': 0.7457, 'grad_norm': 5.71875, 'learning_rate': 1.0903165324817009e-06, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 445.95, 'epoch': 6.95}
 70%|████████████████████████████████████████████████████▊                       | 4960/7135 [4:31:09<1:51:17,  3.07s/it] 70%|████████████████████████████████████████████████████▊                       | 4961/7135 [4:31:12<1:50:09,  3.04s/it] 70%|████████████████████████████████████████████████████▊                       | 4962/7135 [4:31:16<1:57:07,  3.23s/it] 70%|████████████████████████████████████████████████████▊                       | 4963/7135 [4:31:19<1:58:06,  3.26s/it] 70%|████████████████████████████████████████████████████▉                       | 4964/7135 [4:31:24<2:10:56,  3.62s/it] 70%|████████████████████████████████████████████████████▉                       | 4965/7135 [4:31:27<2:02:01,  3.37s/it] 70%|████████████████████████████████████████████████████▉                       | 4966/7135 [4:31:29<1:57:11,  3.24s/it] 70%|████████████████████████████████████████████████████▉                       | 4967/7135 [4:31:33<2:00:31,  3.34s/it] 70%|████████████████████████████████████████████████████▉                       | 4968/7135 [4:31:36<1:55:18,  3.19s/it] 70%|████████████████████████████████████████████████████▉                       | 4969/7135 [4:31:40<2:05:59,  3.49s/it] 70%|████████████████████████████████████████████████████▉                       | 4970/7135 [4:31:43<1:57:24,  3.25s/it]                                                                                                                         {'loss': 0.7126, 'grad_norm': 5.375, 'learning_rate': 1.081110577803908e-06, 'memory/max_active (GiB)': 42.47, 'memory/max_allocated (GiB)': 42.47, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 530.49, 'epoch': 6.96}
 70%|████████████████████████████████████████████████████▉                       | 4970/7135 [4:31:43<1:57:24,  3.25s/it] 70%|████████████████████████████████████████████████████▉                       | 4971/7135 [4:31:46<1:57:41,  3.26s/it] 70%|████████████████████████████████████████████████████▉                       | 4972/7135 [4:31:49<1:55:03,  3.19s/it] 70%|████████████████████████████████████████████████████▉                       | 4973/7135 [4:31:52<1:54:51,  3.19s/it] 70%|████████████████████████████████████████████████████▉                       | 4974/7135 [4:31:56<1:55:39,  3.21s/it] 70%|████████████████████████████████████████████████████▉                       | 4975/7135 [4:31:59<1:59:21,  3.32s/it] 70%|█████████████████████████████████████████████████████                       | 4976/7135 [4:32:03<2:00:27,  3.35s/it] 70%|█████████████████████████████████████████████████████                       | 4977/7135 [4:32:06<2:02:01,  3.39s/it] 70%|█████████████████████████████████████████████████████                       | 4978/7135 [4:32:09<1:57:50,  3.28s/it] 70%|█████████████████████████████████████████████████████                       | 4979/7135 [4:32:12<1:54:53,  3.20s/it] 70%|█████████████████████████████████████████████████████                       | 4980/7135 [4:32:15<1:54:01,  3.17s/it]                                                                                                                         {'loss': 0.7928, 'grad_norm': 5.40625, 'learning_rate': 1.0719329187563272e-06, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 423.52, 'epoch': 6.98}
 70%|█████████████████████████████████████████████████████                       | 4980/7135 [4:32:15<1:54:01,  3.17s/it] 70%|█████████████████████████████████████████████████████                       | 4981/7135 [4:32:18<1:53:39,  3.17s/it] 70%|█████████████████████████████████████████████████████                       | 4982/7135 [4:32:21<1:53:50,  3.17s/it] 70%|█████████████████████████████████████████████████████                       | 4983/7135 [4:32:24<1:50:28,  3.08s/it] 70%|█████████████████████████████████████████████████████                       | 4984/7135 [4:32:27<1:48:22,  3.02s/it] 70%|█████████████████████████████████████████████████████                       | 4985/7135 [4:32:30<1:48:15,  3.02s/it] 70%|█████████████████████████████████████████████████████                       | 4986/7135 [4:32:33<1:50:02,  3.07s/it] 70%|█████████████████████████████████████████████████████                       | 4987/7135 [4:32:37<1:51:00,  3.10s/it] 70%|█████████████████████████████████████████████████████▏                      | 4988/7135 [4:32:40<1:55:46,  3.24s/it] 70%|█████████████████████████████████████████████████████▏                      | 4989/7135 [4:32:44<1:57:22,  3.28s/it] 70%|█████████████████████████████████████████████████████▏                      | 4990/7135 [4:32:47<2:00:26,  3.37s/it]                                                                                                                         {'loss': 0.6868, 'grad_norm': 5.09375, 'learning_rate': 1.0627837383607248e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 374.64, 'epoch': 6.99}
 70%|█████████████████████████████████████████████████████▏                      | 4990/7135 [4:32:47<2:00:26,  3.37s/it] 70%|█████████████████████████████████████████████████████▏                      | 4991/7135 [4:32:50<1:55:11,  3.22s/it] 70%|█████████████████████████████████████████████████████▏                      | 4992/7135 [4:32:53<1:51:50,  3.13s/it] 70%|█████████████████████████████████████████████████████▏                      | 4993/7135 [4:32:56<1:49:59,  3.08s/it] 70%|█████████████████████████████████████████████████████▏                      | 4994/7135 [4:32:59<1:51:03,  3.11s/it] 70%|█████████████████████████████████████████████████████▏                      | 4995/7135 [4:33:03<2:02:44,  3.44s/it] 70%|█████████████████████████████████████████████████████▏                      | 4996/7135 [4:33:06<1:58:07,  3.31s/it] 70%|█████████████████████████████████████████████████████▏                      | 4997/7135 [4:33:09<1:53:58,  3.20s/it] 70%|█████████████████████████████████████████████████████▏                      | 4998/7135 [4:33:11<1:34:22,  2.65s/it][2025-12-23 18:57:16,763] [INFO] [axolotl.core.trainers.base._save:671] [PID:5064] Saving model checkpoint to ./outputs/qwen3-4b-instruct-abd-full-train/checkpoint-4998
 70%|████████████████████████████████████████████████████▌                      | 4999/7135 [4:34:12<12:03:10, 20.31s/it] 70%|█████████████████████████████████████████████████████▎                      | 5000/7135 [4:34:15<8:58:00, 15.12s/it]                                                                                                                         {'loss': 0.6578, 'grad_norm': 5.0625, 'learning_rate': 1.0536632190709414e-06, 'memory/max_active (GiB)': 37.88, 'memory/max_allocated (GiB)': 37.88, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 362.78, 'epoch': 7.0}
 70%|█████████████████████████████████████████████████████▎                      | 5000/7135 [4:34:15<8:58:00, 15.12s/it] 70%|█████████████████████████████████████████████████████▎                      | 5001/7135 [4:34:18<6:50:59, 11.56s/it] 70%|█████████████████████████████████████████████████████▎                      | 5002/7135 [4:34:22<5:21:35,  9.05s/it] 70%|█████████████████████████████████████████████████████▎                      | 5003/7135 [4:34:25<4:24:29,  7.44s/it] 70%|█████████████████████████████████████████████████████▎                      | 5004/7135 [4:34:29<3:40:35,  6.21s/it] 70%|█████████████████████████████████████████████████████▎                      | 5005/7135 [4:34:32<3:06:22,  5.25s/it] 70%|█████████████████████████████████████████████████████▎                      | 5006/7135 [4:34:34<2:40:56,  4.54s/it] 70%|█████████████████████████████████████████████████████▎                      | 5007/7135 [4:34:37<2:20:54,  3.97s/it] 70%|█████████████████████████████████████████████████████▎                      | 5008/7135 [4:34:40<2:12:39,  3.74s/it] 70%|█████████████████████████████████████████████████████▎                      | 5009/7135 [4:34:43<2:04:25,  3.51s/it] 70%|█████████████████████████████████████████████████████▎                      | 5010/7135 [4:34:47<2:08:06,  3.62s/it]                                                                                                                         {'loss': 0.7349, 'grad_norm': 5.53125, 'learning_rate': 1.0445715427692557e-06, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 313.0, 'epoch': 7.02}
 70%|█████████████████████████████████████████████████████▎                      | 5010/7135 [4:34:47<2:08:06,  3.62s/it] 70%|█████████████████████████████████████████████████████▍                      | 5011/7135 [4:34:50<2:04:11,  3.51s/it] 70%|█████████████████████████████████████████████████████▍                      | 5012/7135 [4:34:53<1:57:38,  3.32s/it] 70%|█████████████████████████████████████████████████████▍                      | 5013/7135 [4:34:56<1:52:25,  3.18s/it] 70%|█████████████████████████████████████████████████████▍                      | 5014/7135 [4:34:59<1:50:37,  3.13s/it] 70%|█████████████████████████████████████████████████████▍                      | 5015/7135 [4:35:03<1:53:18,  3.21s/it] 70%|█████████████████████████████████████████████████████▍                      | 5016/7135 [4:35:06<1:54:17,  3.24s/it] 70%|█████████████████████████████████████████████████████▍                      | 5017/7135 [4:35:10<1:58:56,  3.37s/it] 70%|█████████████████████████████████████████████████████▍                      | 5018/7135 [4:35:13<1:55:03,  3.26s/it] 70%|█████████████████████████████████████████████████████▍                      | 5019/7135 [4:35:15<1:48:17,  3.07s/it] 70%|█████████████████████████████████████████████████████▍                      | 5020/7135 [4:35:19<1:51:33,  3.16s/it]                                                                                                                         {'loss': 0.6242, 'grad_norm': 5.1875, 'learning_rate': 1.0355088907627565e-06, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 348.76, 'epoch': 7.03}
 70%|█████████████████████████████████████████████████████▍                      | 5020/7135 [4:35:19<1:51:33,  3.16s/it] 70%|█████████████████████████████████████████████████████▍                      | 5021/7135 [4:35:22<1:52:08,  3.18s/it] 70%|█████████████████████████████████████████████████████▍                      | 5022/7135 [4:35:25<1:56:51,  3.32s/it] 70%|█████████████████████████████████████████████████████▌                      | 5023/7135 [4:35:29<1:59:29,  3.39s/it] 70%|█████████████████████████████████████████████████████▌                      | 5024/7135 [4:35:32<1:56:14,  3.30s/it] 70%|█████████████████████████████████████████████████████▌                      | 5025/7135 [4:35:36<1:57:33,  3.34s/it] 70%|█████████████████████████████████████████████████████▌                      | 5026/7135 [4:35:38<1:52:02,  3.19s/it] 70%|█████████████████████████████████████████████████████▌                      | 5027/7135 [4:35:42<1:56:58,  3.33s/it] 70%|█████████████████████████████████████████████████████▌                      | 5028/7135 [4:35:46<2:01:15,  3.45s/it] 70%|█████████████████████████████████████████████████████▌                      | 5029/7135 [4:35:49<1:57:07,  3.34s/it] 70%|█████████████████████████████████████████████████████▌                      | 5030/7135 [4:35:53<2:03:31,  3.52s/it]                                                                                                                         {'loss': 0.8527, 'grad_norm': 4.53125, 'learning_rate': 1.0264754437797264e-06, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 430.44, 'epoch': 7.04}
 70%|█████████████████████████████████████████████████████▌                      | 5030/7135 [4:35:53<2:03:31,  3.52s/it] 71%|█████████████████████████████████████████████████████▌                      | 5031/7135 [4:35:56<1:55:40,  3.30s/it] 71%|█████████████████████████████████████████████████████▌                      | 5032/7135 [4:35:59<1:54:21,  3.26s/it] 71%|█████████████████████████████████████████████████████▌                      | 5033/7135 [4:36:02<1:56:13,  3.32s/it] 71%|█████████████████████████████████████████████████████▌                      | 5034/7135 [4:36:06<1:57:09,  3.35s/it] 71%|█████████████████████████████████████████████████████▋                      | 5035/7135 [4:36:09<2:01:26,  3.47s/it] 71%|█████████████████████████████████████████████████████▋                      | 5036/7135 [4:36:12<1:51:59,  3.20s/it] 71%|█████████████████████████████████████████████████████▋                      | 5037/7135 [4:36:15<1:53:41,  3.25s/it] 71%|█████████████████████████████████████████████████████▋                      | 5038/7135 [4:36:19<1:57:32,  3.36s/it] 71%|█████████████████████████████████████████████████████▋                      | 5039/7135 [4:36:22<1:51:31,  3.19s/it] 71%|█████████████████████████████████████████████████████▋                      | 5040/7135 [4:36:25<1:52:50,  3.23s/it]                                                                                                                         {'loss': 0.8299, 'grad_norm': 4.53125, 'learning_rate': 1.0174713819660418e-06, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 401.37, 'epoch': 7.06}
 71%|█████████████████████████████████████████████████████▋                      | 5040/7135 [4:36:25<1:52:50,  3.23s/it] 71%|█████████████████████████████████████████████████████▋                      | 5041/7135 [4:36:28<1:54:42,  3.29s/it] 71%|█████████████████████████████████████████████████████▋                      | 5042/7135 [4:36:32<1:52:48,  3.23s/it] 71%|█████████████████████████████████████████████████████▋                      | 5043/7135 [4:36:35<1:51:04,  3.19s/it] 71%|█████████████████████████████████████████████████████▋                      | 5044/7135 [4:36:38<1:52:21,  3.22s/it] 71%|█████████████████████████████████████████████████████▋                      | 5045/7135 [4:36:41<1:50:05,  3.16s/it] 71%|█████████████████████████████████████████████████████▋                      | 5046/7135 [4:36:44<1:49:28,  3.14s/it] 71%|█████████████████████████████████████████████████████▊                      | 5047/7135 [4:36:47<1:50:41,  3.18s/it] 71%|█████████████████████████████████████████████████████▊                      | 5048/7135 [4:36:51<1:53:15,  3.26s/it] 71%|█████████████████████████████████████████████████████▊                      | 5049/7135 [4:36:55<1:59:38,  3.44s/it] 71%|█████████████████████████████████████████████████████▊                      | 5050/7135 [4:36:58<1:57:11,  3.37s/it]                                                                                                                         {'loss': 0.8498, 'grad_norm': 5.0, 'learning_rate': 1.0084968848815736e-06, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 448.38, 'epoch': 7.07}
 71%|█████████████████████████████████████████████████████▊                      | 5050/7135 [4:36:58<1:57:11,  3.37s/it] 71%|█████████████████████████████████████████████████████▊                      | 5051/7135 [4:37:01<1:52:27,  3.24s/it] 71%|█████████████████████████████████████████████████████▊                      | 5052/7135 [4:37:04<1:56:54,  3.37s/it] 71%|█████████████████████████████████████████████████████▊                      | 5053/7135 [4:37:08<1:57:04,  3.37s/it] 71%|█████████████████████████████████████████████████████▊                      | 5054/7135 [4:37:11<1:51:32,  3.22s/it] 71%|█████████████████████████████████████████████████████▊                      | 5055/7135 [4:37:14<1:51:35,  3.22s/it] 71%|█████████████████████████████████████████████████████▊                      | 5056/7135 [4:37:17<1:49:42,  3.17s/it] 71%|█████████████████████████████████████████████████████▊                      | 5057/7135 [4:37:20<1:48:42,  3.14s/it] 71%|█████████████████████████████████████████████████████▉                      | 5058/7135 [4:37:23<1:43:27,  2.99s/it] 71%|█████████████████████████████████████████████████████▉                      | 5059/7135 [4:37:26<1:47:38,  3.11s/it] 71%|█████████████████████████████████████████████████████▉                      | 5060/7135 [4:37:29<1:47:15,  3.10s/it]                                                                                                                         {'loss': 0.9128, 'grad_norm': 5.71875, 'learning_rate': 9.995521314966106e-07, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 393.3, 'epoch': 7.09}
 71%|█████████████████████████████████████████████████████▉                      | 5060/7135 [4:37:29<1:47:15,  3.10s/it] 71%|█████████████████████████████████████████████████████▉                      | 5061/7135 [4:37:32<1:46:46,  3.09s/it] 71%|█████████████████████████████████████████████████████▉                      | 5062/7135 [4:37:35<1:47:08,  3.10s/it] 71%|█████████████████████████████████████████████████████▉                      | 5063/7135 [4:37:39<1:47:49,  3.12s/it] 71%|█████████████████████████████████████████████████████▉                      | 5064/7135 [4:37:42<1:47:17,  3.11s/it] 71%|█████████████████████████████████████████████████████▉                      | 5065/7135 [4:37:45<1:45:39,  3.06s/it] 71%|█████████████████████████████████████████████████████▉                      | 5066/7135 [4:37:47<1:43:17,  3.00s/it] 71%|█████████████████████████████████████████████████████▉                      | 5067/7135 [4:37:50<1:41:49,  2.95s/it] 71%|█████████████████████████████████████████████████████▉                      | 5068/7135 [4:37:53<1:41:49,  2.96s/it] 71%|█████████████████████████████████████████████████████▉                      | 5069/7135 [4:37:56<1:44:46,  3.04s/it] 71%|██████████████████████████████████████████████████████                      | 5070/7135 [4:38:00<1:47:47,  3.13s/it]                                                                                                                         {'loss': 0.673, 'grad_norm': 5.34375, 'learning_rate': 9.90637300188293e-07, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 313.79, 'epoch': 7.1}
 71%|██████████████████████████████████████████████████████                      | 5070/7135 [4:38:00<1:47:47,  3.13s/it] 71%|██████████████████████████████████████████████████████                      | 5071/7135 [4:38:03<1:47:49,  3.13s/it] 71%|██████████████████████████████████████████████████████                      | 5072/7135 [4:38:06<1:44:05,  3.03s/it] 71%|██████████████████████████████████████████████████████                      | 5073/7135 [4:38:09<1:44:13,  3.03s/it] 71%|██████████████████████████████████████████████████████                      | 5074/7135 [4:38:11<1:41:22,  2.95s/it] 71%|██████████████████████████████████████████████████████                      | 5075/7135 [4:38:15<1:44:18,  3.04s/it] 71%|██████████████████████████████████████████████████████                      | 5076/7135 [4:38:18<1:41:53,  2.97s/it] 71%|██████████████████████████████████████████████████████                      | 5077/7135 [4:38:21<1:43:35,  3.02s/it] 71%|██████████████████████████████████████████████████████                      | 5078/7135 [4:38:24<1:47:30,  3.14s/it] 71%|██████████████████████████████████████████████████████                      | 5079/7135 [4:38:28<1:50:20,  3.22s/it] 71%|██████████████████████████████████████████████████████                      | 5080/7135 [4:38:31<1:50:19,  3.22s/it]                                                                                                                         {'loss': 0.7118, 'grad_norm': 5.40625, 'learning_rate': 9.817525687370482e-07, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 342.55, 'epoch': 7.11}
 71%|██████████████████████████████████████████████████████                      | 5080/7135 [4:38:31<1:50:19,  3.22s/it] 71%|██████████████████████████████████████████████████████                      | 5081/7135 [4:38:34<1:52:56,  3.30s/it] 71%|██████████████████████████████████████████████████████▏                     | 5082/7135 [4:38:38<1:53:51,  3.33s/it] 71%|██████████████████████████████████████████████████████▏                     | 5083/7135 [4:38:41<1:56:02,  3.39s/it] 71%|██████████████████████████████████████████████████████▏                     | 5084/7135 [4:38:44<1:54:21,  3.35s/it] 71%|██████████████████████████████████████████████████████▏                     | 5085/7135 [4:38:47<1:51:45,  3.27s/it] 71%|██████████████████████████████████████████████████████▏                     | 5086/7135 [4:38:51<1:52:17,  3.29s/it] 71%|██████████████████████████████████████████████████████▏                     | 5087/7135 [4:38:54<1:50:48,  3.25s/it] 71%|██████████████████████████████████████████████████████▏                     | 5088/7135 [4:38:57<1:49:02,  3.20s/it] 71%|██████████████████████████████████████████████████████▏                     | 5089/7135 [4:39:00<1:48:43,  3.19s/it] 71%|██████████████████████████████████████████████████████▏                     | 5090/7135 [4:39:04<1:51:02,  3.26s/it]                                                                                                                         {'loss': 0.7224, 'grad_norm': 5.15625, 'learning_rate': 9.728981143230507e-07, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 343.41, 'epoch': 7.13}
 71%|██████████████████████████████████████████████████████▏                     | 5090/7135 [4:39:04<1:51:02,  3.26s/it] 71%|██████████████████████████████████████████████████████▏                     | 5091/7135 [4:39:07<1:50:24,  3.24s/it] 71%|██████████████████████████████████████████████████████▏                     | 5092/7135 [4:39:10<1:50:57,  3.26s/it] 71%|██████████████████████████████████████████████████████▏                     | 5093/7135 [4:39:13<1:48:54,  3.20s/it] 71%|██████████████████████████████████████████████████████▎                     | 5094/7135 [4:39:17<1:55:41,  3.40s/it] 71%|██████████████████████████████████████████████████████▎                     | 5095/7135 [4:39:20<1:50:30,  3.25s/it] 71%|██████████████████████████████████████████████████████▎                     | 5096/7135 [4:39:23<1:49:21,  3.22s/it] 71%|██████████████████████████████████████████████████████▎                     | 5097/7135 [4:39:26<1:44:33,  3.08s/it] 71%|██████████████████████████████████████████████████████▎                     | 5098/7135 [4:39:29<1:41:00,  2.98s/it] 71%|██████████████████████████████████████████████████████▎                     | 5099/7135 [4:39:32<1:44:43,  3.09s/it] 71%|██████████████████████████████████████████████████████▎                     | 5100/7135 [4:39:35<1:44:37,  3.08s/it]                                                                                                                         {'loss': 0.7013, 'grad_norm': 5.9375, 'learning_rate': 9.640741135226886e-07, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 347.65, 'epoch': 7.14}
 71%|██████████████████████████████████████████████████████▎                     | 5100/7135 [4:39:35<1:44:37,  3.08s/it] 71%|██████████████████████████████████████████████████████▎                     | 5101/7135 [4:39:38<1:48:04,  3.19s/it] 72%|██████████████████████████████████████████████████████▎                     | 5102/7135 [4:39:42<1:48:30,  3.20s/it] 72%|██████████████████████████████████████████████████████▎                     | 5103/7135 [4:39:45<1:45:18,  3.11s/it] 72%|██████████████████████████████████████████████████████▎                     | 5104/7135 [4:39:47<1:42:09,  3.02s/it] 72%|██████████████████████████████████████████████████████▍                     | 5105/7135 [4:39:51<1:51:28,  3.29s/it] 72%|██████████████████████████████████████████████████████▍                     | 5106/7135 [4:39:54<1:48:54,  3.22s/it] 72%|██████████████████████████████████████████████████████▍                     | 5107/7135 [4:39:58<1:55:04,  3.40s/it] 72%|██████████████████████████████████████████████████████▍                     | 5108/7135 [4:40:02<2:00:38,  3.57s/it] 72%|██████████████████████████████████████████████████████▍                     | 5109/7135 [4:40:05<1:53:48,  3.37s/it] 72%|██████████████████████████████████████████████████████▍                     | 5110/7135 [4:40:08<1:48:37,  3.22s/it]                                                                                                                         {'loss': 0.6473, 'grad_norm': 4.5625, 'learning_rate': 9.552807423050397e-07, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 348.99, 'epoch': 7.16}
 72%|██████████████████████████████████████████████████████▍                     | 5110/7135 [4:40:08<1:48:37,  3.22s/it] 72%|██████████████████████████████████████████████████████▍                     | 5111/7135 [4:40:12<1:58:40,  3.52s/it] 72%|██████████████████████████████████████████████████████▍                     | 5112/7135 [4:40:15<1:52:52,  3.35s/it] 72%|██████████████████████████████████████████████████████▍                     | 5113/7135 [4:40:19<1:54:18,  3.39s/it] 72%|██████████████████████████████████████████████████████▍                     | 5114/7135 [4:40:21<1:46:34,  3.16s/it] 72%|██████████████████████████████████████████████████████▍                     | 5115/7135 [4:40:24<1:45:31,  3.13s/it] 72%|██████████████████████████████████████████████████████▍                     | 5116/7135 [4:40:27<1:43:21,  3.07s/it] 72%|██████████████████████████████████████████████████████▌                     | 5117/7135 [4:40:30<1:42:27,  3.05s/it] 72%|██████████████████████████████████████████████████████▌                     | 5118/7135 [4:40:33<1:44:01,  3.09s/it] 72%|██████████████████████████████████████████████████████▌                     | 5119/7135 [4:40:37<1:44:04,  3.10s/it] 72%|██████████████████████████████████████████████████████▌                     | 5120/7135 [4:40:40<1:47:43,  3.21s/it]                                                                                                                         {'loss': 0.7061, 'grad_norm': 4.6875, 'learning_rate': 9.46518176028364e-07, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 354.66, 'epoch': 7.17}
 72%|██████████████████████████████████████████████████████▌                     | 5120/7135 [4:40:40<1:47:43,  3.21s/it] 72%|██████████████████████████████████████████████████████▌                     | 5121/7135 [4:40:43<1:43:00,  3.07s/it] 72%|██████████████████████████████████████████████████████▌                     | 5122/7135 [4:40:46<1:41:25,  3.02s/it] 72%|██████████████████████████████████████████████████████▌                     | 5123/7135 [4:40:48<1:37:29,  2.91s/it] 72%|██████████████████████████████████████████████████████▌                     | 5124/7135 [4:40:51<1:40:30,  3.00s/it] 72%|██████████████████████████████████████████████████████▌                     | 5125/7135 [4:40:54<1:40:12,  2.99s/it] 72%|██████████████████████████████████████████████████████▌                     | 5126/7135 [4:40:58<1:45:34,  3.15s/it] 72%|██████████████████████████████████████████████████████▌                     | 5127/7135 [4:41:01<1:43:58,  3.11s/it] 72%|██████████████████████████████████████████████████████▌                     | 5128/7135 [4:41:04<1:43:09,  3.08s/it] 72%|██████████████████████████████████████████████████████▋                     | 5129/7135 [4:41:07<1:41:19,  3.03s/it] 72%|██████████████████████████████████████████████████████▋                     | 5130/7135 [4:41:10<1:44:44,  3.13s/it]                                                                                                                         {'loss': 0.7642, 'grad_norm': 3.9375, 'learning_rate': 9.377865894366062e-07, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 359.72, 'epoch': 7.19}
 72%|██████████████████████████████████████████████████████▋                     | 5130/7135 [4:41:10<1:44:44,  3.13s/it] 72%|██████████████████████████████████████████████████████▋                     | 5131/7135 [4:41:13<1:38:13,  2.94s/it] 72%|██████████████████████████████████████████████████████▋                     | 5132/7135 [4:41:16<1:45:37,  3.16s/it] 72%|██████████████████████████████████████████████████████▋                     | 5133/7135 [4:41:20<1:46:20,  3.19s/it] 72%|██████████████████████████████████████████████████████▋                     | 5134/7135 [4:41:23<1:44:20,  3.13s/it] 72%|██████████████████████████████████████████████████████▋                     | 5135/7135 [4:41:26<1:46:38,  3.20s/it] 72%|██████████████████████████████████████████████████████▋                     | 5136/7135 [4:41:29<1:47:22,  3.22s/it] 72%|██████████████████████████████████████████████████████▋                     | 5137/7135 [4:41:32<1:41:32,  3.05s/it] 72%|██████████████████████████████████████████████████████▋                     | 5138/7135 [4:41:35<1:43:03,  3.10s/it] 72%|██████████████████████████████████████████████████████▋                     | 5139/7135 [4:41:38<1:40:43,  3.03s/it] 72%|██████████████████████████████████████████████████████▋                     | 5140/7135 [4:41:41<1:41:51,  3.06s/it]                                                                                                                         {'loss': 0.7476, 'grad_norm': 4.71875, 'learning_rate': 9.290861566559115e-07, 'memory/max_active (GiB)': 35.13, 'memory/max_allocated (GiB)': 35.13, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 378.07, 'epoch': 7.2}
 72%|██████████████████████████████████████████████████████▋                     | 5140/7135 [4:41:41<1:41:51,  3.06s/it] 72%|██████████████████████████████████████████████████████▊                     | 5141/7135 [4:41:44<1:42:18,  3.08s/it] 72%|██████████████████████████████████████████████████████▊                     | 5142/7135 [4:41:47<1:43:02,  3.10s/it] 72%|██████████████████████████████████████████████████████▊                     | 5143/7135 [4:41:51<1:45:58,  3.19s/it] 72%|██████████████████████████████████████████████████████▊                     | 5144/7135 [4:41:54<1:45:10,  3.17s/it] 72%|██████████████████████████████████████████████████████▊                     | 5145/7135 [4:41:57<1:46:27,  3.21s/it] 72%|██████████████████████████████████████████████████████▊                     | 5146/7135 [4:42:01<1:50:03,  3.32s/it] 72%|██████████████████████████████████████████████████████▊                     | 5147/7135 [4:42:04<1:46:57,  3.23s/it] 72%|██████████████████████████████████████████████████████▊                     | 5148/7135 [4:42:07<1:48:19,  3.27s/it] 72%|██████████████████████████████████████████████████████▊                     | 5149/7135 [4:42:11<1:54:58,  3.47s/it] 72%|██████████████████████████████████████████████████████▊                     | 5150/7135 [4:42:14<1:52:50,  3.41s/it]                                                                                                                         {'loss': 0.7598, 'grad_norm': 4.78125, 'learning_rate': 9.20417051191152e-07, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 439.33, 'epoch': 7.21}
 72%|██████████████████████████████████████████████████████▊                     | 5150/7135 [4:42:15<1:52:50,  3.41s/it] 72%|██████████████████████████████████████████████████████▊                     | 5151/7135 [4:42:18<1:49:50,  3.32s/it] 72%|██████████████████████████████████████████████████████▉                     | 5152/7135 [4:42:21<1:51:29,  3.37s/it] 72%|██████████████████████████████████████████████████████▉                     | 5153/7135 [4:42:24<1:48:22,  3.28s/it] 72%|██████████████████████████████████████████████████████▉                     | 5154/7135 [4:42:27<1:43:36,  3.14s/it] 72%|██████████████████████████████████████████████████████▉                     | 5155/7135 [4:42:30<1:43:24,  3.13s/it] 72%|██████████████████████████████████████████████████████▉                     | 5156/7135 [4:42:33<1:44:20,  3.16s/it] 72%|██████████████████████████████████████████████████████▉                     | 5157/7135 [4:42:36<1:42:34,  3.11s/it] 72%|██████████████████████████████████████████████████████▉                     | 5158/7135 [4:42:40<1:44:24,  3.17s/it] 72%|██████████████████████████████████████████████████████▉                     | 5159/7135 [4:42:42<1:40:38,  3.06s/it] 72%|██████████████████████████████████████████████████████▉                     | 5160/7135 [4:42:45<1:37:46,  2.97s/it]                                                                                                                         {'loss': 0.7848, 'grad_norm': 5.125, 'learning_rate': 9.117794459224697e-07, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 474.5, 'epoch': 7.23}
 72%|██████████████████████████████████████████████████████▉                     | 5160/7135 [4:42:45<1:37:46,  2.97s/it] 72%|██████████████████████████████████████████████████████▉                     | 5161/7135 [4:42:48<1:35:56,  2.92s/it] 72%|██████████████████████████████████████████████████████▉                     | 5162/7135 [4:42:51<1:38:56,  3.01s/it] 72%|██████████████████████████████████████████████████████▉                     | 5163/7135 [4:42:54<1:41:25,  3.09s/it] 72%|███████████████████████████████████████████████████████                     | 5164/7135 [4:42:57<1:38:35,  3.00s/it] 72%|███████████████████████████████████████████████████████                     | 5165/7135 [4:43:00<1:37:51,  2.98s/it] 72%|███████████████████████████████████████████████████████                     | 5166/7135 [4:43:04<1:42:20,  3.12s/it] 72%|███████████████████████████████████████████████████████                     | 5167/7135 [4:43:07<1:44:14,  3.18s/it] 72%|███████████████████████████████████████████████████████                     | 5168/7135 [4:43:10<1:42:05,  3.11s/it] 72%|███████████████████████████████████████████████████████                     | 5169/7135 [4:43:15<1:57:03,  3.57s/it] 72%|███████████████████████████████████████████████████████                     | 5170/7135 [4:43:18<1:53:21,  3.46s/it]                                                                                                                         {'loss': 0.8747, 'grad_norm': 5.75, 'learning_rate': 9.031735131018238e-07, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 379.55, 'epoch': 7.24}
 72%|███████████████████████████████████████████████████████                     | 5170/7135 [4:43:18<1:53:21,  3.46s/it] 72%|███████████████████████████████████████████████████████                     | 5171/7135 [4:43:21<1:49:16,  3.34s/it] 72%|███████████████████████████████████████████████████████                     | 5172/7135 [4:43:24<1:50:38,  3.38s/it] 73%|███████████████████████████████████████████████████████                     | 5173/7135 [4:43:28<1:55:20,  3.53s/it] 73%|███████████████████████████████████████████████████████                     | 5174/7135 [4:43:31<1:48:35,  3.32s/it] 73%|███████████████████████████████████████████████████████                     | 5175/7135 [4:43:34<1:50:00,  3.37s/it] 73%|███████████████████████████████████████████████████████▏                    | 5176/7135 [4:43:38<1:49:29,  3.35s/it] 73%|███████████████████████████████████████████████████████▏                    | 5177/7135 [4:43:41<1:47:40,  3.30s/it] 73%|███████████████████████████████████████████████████████▏                    | 5178/7135 [4:43:44<1:43:38,  3.18s/it] 73%|███████████████████████████████████████████████████████▏                    | 5179/7135 [4:43:47<1:41:33,  3.12s/it] 73%|███████████████████████████████████████████████████████▏                    | 5180/7135 [4:43:50<1:41:16,  3.11s/it]                                                                                                                         {'loss': 0.723, 'grad_norm': 3.421875, 'learning_rate': 8.945994243495593e-07, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 477.33, 'epoch': 7.26}
 73%|███████████████████████████████████████████████████████▏                    | 5180/7135 [4:43:50<1:41:16,  3.11s/it] 73%|███████████████████████████████████████████████████████▏                    | 5181/7135 [4:43:53<1:41:38,  3.12s/it] 73%|███████████████████████████████████████████████████████▏                    | 5182/7135 [4:43:56<1:37:24,  2.99s/it] 73%|███████████████████████████████████████████████████████▏                    | 5183/7135 [4:43:59<1:39:03,  3.04s/it] 73%|███████████████████████████████████████████████████████▏                    | 5184/7135 [4:44:02<1:35:21,  2.93s/it] 73%|███████████████████████████████████████████████████████▏                    | 5185/7135 [4:44:05<1:36:43,  2.98s/it] 73%|███████████████████████████████████████████████████████▏                    | 5186/7135 [4:44:08<1:42:49,  3.17s/it] 73%|███████████████████████████████████████████████████████▎                    | 5187/7135 [4:44:12<1:48:14,  3.33s/it] 73%|███████████████████████████████████████████████████████▎                    | 5188/7135 [4:44:15<1:47:44,  3.32s/it] 73%|███████████████████████████████████████████████████████▎                    | 5189/7135 [4:44:18<1:45:41,  3.26s/it] 73%|███████████████████████████████████████████████████████▎                    | 5190/7135 [4:44:22<1:46:53,  3.30s/it]                                                                                                                         {'loss': 0.6638, 'grad_norm': 6.0625, 'learning_rate': 8.86057350650986e-07, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 349.78, 'epoch': 7.27}
 73%|███████████████████████████████████████████████████████▎                    | 5190/7135 [4:44:22<1:46:53,  3.30s/it] 73%|███████████████████████████████████████████████████████▎                    | 5191/7135 [4:44:25<1:47:56,  3.33s/it] 73%|███████████████████████████████████████████████████████▎                    | 5192/7135 [4:44:28<1:47:10,  3.31s/it] 73%|███████████████████████████████████████████████████████▎                    | 5193/7135 [4:44:32<1:51:04,  3.43s/it] 73%|███████████████████████████████████████████████████████▎                    | 5194/7135 [4:44:35<1:48:43,  3.36s/it] 73%|███████████████████████████████████████████████████████▎                    | 5195/7135 [4:44:39<1:49:46,  3.40s/it] 73%|███████████████████████████████████████████████████████▎                    | 5196/7135 [4:44:42<1:47:53,  3.34s/it] 73%|███████████████████████████████████████████████████████▎                    | 5197/7135 [4:44:46<1:55:12,  3.57s/it] 73%|███████████████████████████████████████████████████████▎                    | 5198/7135 [4:44:49<1:50:07,  3.41s/it] 73%|███████████████████████████████████████████████████████▍                    | 5199/7135 [4:44:53<1:52:48,  3.50s/it] 73%|███████████████████████████████████████████████████████▍                    | 5200/7135 [4:44:57<1:55:51,  3.59s/it]                                                                                                                         {'loss': 0.8942, 'grad_norm': 2.703125, 'learning_rate': 8.775474623529628e-07, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 488.5, 'epoch': 7.28}
 73%|███████████████████████████████████████████████████████▍                    | 5200/7135 [4:44:57<1:55:51,  3.59s/it] 73%|███████████████████████████████████████████████████████▍                    | 5201/7135 [4:44:59<1:47:35,  3.34s/it] 73%|███████████████████████████████████████████████████████▍                    | 5202/7135 [4:45:04<1:55:03,  3.57s/it] 73%|███████████████████████████████████████████████████████▍                    | 5203/7135 [4:45:07<1:50:31,  3.43s/it] 73%|███████████████████████████████████████████████████████▍                    | 5204/7135 [4:45:10<1:51:48,  3.47s/it] 73%|███████████████████████████████████████████████████████▍                    | 5205/7135 [4:45:13<1:47:26,  3.34s/it] 73%|███████████████████████████████████████████████████████▍                    | 5206/7135 [4:45:16<1:45:20,  3.28s/it] 73%|███████████████████████████████████████████████████████▍                    | 5207/7135 [4:45:20<1:46:42,  3.32s/it] 73%|███████████████████████████████████████████████████████▍                    | 5208/7135 [4:45:22<1:39:27,  3.10s/it] 73%|███████████████████████████████████████████████████████▍                    | 5209/7135 [4:45:26<1:39:27,  3.10s/it] 73%|███████████████████████████████████████████████████████▍                    | 5210/7135 [4:45:29<1:41:37,  3.17s/it]                                                                                                                         {'loss': 0.7066, 'grad_norm': 4.1875, 'learning_rate': 8.690699291605059e-07, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 383.11, 'epoch': 7.3}
 73%|███████████████████████████████████████████████████████▍                    | 5210/7135 [4:45:29<1:41:37,  3.17s/it] 73%|███████████████████████████████████████████████████████▌                    | 5211/7135 [4:45:32<1:40:43,  3.14s/it] 73%|███████████████████████████████████████████████████████▌                    | 5212/7135 [4:45:35<1:43:37,  3.23s/it] 73%|███████████████████████████████████████████████████████▌                    | 5213/7135 [4:45:38<1:38:15,  3.07s/it] 73%|███████████████████████████████████████████████████████▌                    | 5214/7135 [4:45:41<1:38:17,  3.07s/it] 73%|███████████████████████████████████████████████████████▌                    | 5215/7135 [4:45:44<1:36:30,  3.02s/it] 73%|███████████████████████████████████████████████████████▌                    | 5216/7135 [4:45:47<1:36:16,  3.01s/it] 73%|███████████████████████████████████████████████████████▌                    | 5217/7135 [4:45:50<1:37:42,  3.06s/it] 73%|███████████████████████████████████████████████████████▌                    | 5218/7135 [4:45:54<1:43:09,  3.23s/it] 73%|███████████████████████████████████████████████████████▌                    | 5219/7135 [4:45:58<1:52:24,  3.52s/it] 73%|███████████████████████████████████████████████████████▌                    | 5220/7135 [4:46:01<1:48:30,  3.40s/it]                                                                                                                         {'loss': 0.9503, 'grad_norm': 4.75, 'learning_rate': 8.606249201334041e-07, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 465.99, 'epoch': 7.31}
 73%|███████████████████████████████████████████████████████▌                    | 5220/7135 [4:46:01<1:48:30,  3.40s/it] 73%|███████████████████████████████████████████████████████▌                    | 5221/7135 [4:46:04<1:42:58,  3.23s/it] 73%|███████████████████████████████████████████████████████▌                    | 5222/7135 [4:46:07<1:42:09,  3.20s/it] 73%|███████████████████████████████████████████████████████▋                    | 5223/7135 [4:46:10<1:39:49,  3.13s/it] 73%|███████████████████████████████████████████████████████▋                    | 5224/7135 [4:46:13<1:42:09,  3.21s/it] 73%|███████████████████████████████████████████████████████▋                    | 5225/7135 [4:46:17<1:42:18,  3.21s/it] 73%|███████████████████████████████████████████████████████▋                    | 5226/7135 [4:46:20<1:47:34,  3.38s/it] 73%|███████████████████████████████████████████████████████▋                    | 5227/7135 [4:46:24<1:47:32,  3.38s/it] 73%|███████████████████████████████████████████████████████▋                    | 5228/7135 [4:46:27<1:42:55,  3.24s/it] 73%|███████████████████████████████████████████████████████▋                    | 5229/7135 [4:46:30<1:44:23,  3.29s/it] 73%|███████████████████████████████████████████████████████▋                    | 5230/7135 [4:46:33<1:44:49,  3.30s/it]                                                                                                                         {'loss': 0.814, 'grad_norm': 6.46875, 'learning_rate': 8.522126036828446e-07, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 377.4, 'epoch': 7.33}
 73%|███████████████████████████████████████████████████████▋                    | 5230/7135 [4:46:34<1:44:49,  3.30s/it] 73%|███████████████████████████████████████████████████████▋                    | 5231/7135 [4:46:37<1:44:18,  3.29s/it] 73%|███████████████████████████████████████████████████████▋                    | 5232/7135 [4:46:40<1:42:09,  3.22s/it] 73%|███████████████████████████████████████████████████████▋                    | 5233/7135 [4:46:43<1:40:12,  3.16s/it] 73%|███████████████████████████████████████████████████████▊                    | 5234/7135 [4:46:46<1:42:49,  3.25s/it] 73%|███████████████████████████████████████████████████████▊                    | 5235/7135 [4:46:49<1:39:30,  3.14s/it] 73%|███████████████████████████████████████████████████████▊                    | 5236/7135 [4:46:53<1:41:40,  3.21s/it] 73%|███████████████████████████████████████████████████████▊                    | 5237/7135 [4:46:57<1:51:36,  3.53s/it] 73%|███████████████████████████████████████████████████████▊                    | 5238/7135 [4:47:00<1:51:42,  3.53s/it] 73%|███████████████████████████████████████████████████████▊                    | 5239/7135 [4:47:04<1:52:38,  3.56s/it] 73%|███████████████████████████████████████████████████████▊                    | 5240/7135 [4:47:07<1:48:16,  3.43s/it]                                                                                                                         {'loss': 0.7452, 'grad_norm': 4.625, 'learning_rate': 8.438331475680558e-07, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 411.97, 'epoch': 7.34}
 73%|███████████████████████████████████████████████████████▊                    | 5240/7135 [4:47:07<1:48:16,  3.43s/it] 73%|███████████████████████████████████████████████████████▊                    | 5241/7135 [4:47:10<1:43:24,  3.28s/it] 73%|███████████████████████████████████████████████████████▊                    | 5242/7135 [4:47:13<1:42:28,  3.25s/it] 73%|███████████████████████████████████████████████████████▊                    | 5243/7135 [4:47:16<1:39:58,  3.17s/it] 73%|███████████████████████████████████████████████████████▊                    | 5244/7135 [4:47:20<1:41:36,  3.22s/it] 74%|███████████████████████████████████████████████████████▊                    | 5245/7135 [4:47:22<1:37:13,  3.09s/it] 74%|███████████████████████████████████████████████████████▉                    | 5246/7135 [4:47:26<1:38:24,  3.13s/it] 74%|███████████████████████████████████████████████████████▉                    | 5247/7135 [4:47:29<1:37:11,  3.09s/it] 74%|███████████████████████████████████████████████████████▉                    | 5248/7135 [4:47:32<1:39:38,  3.17s/it] 74%|███████████████████████████████████████████████████████▉                    | 5249/7135 [4:47:35<1:43:13,  3.28s/it] 74%|███████████████████████████████████████████████████████▉                    | 5250/7135 [4:47:38<1:40:51,  3.21s/it]                                                                                                                         {'loss': 0.8529, 'grad_norm': 6.46875, 'learning_rate': 8.354867188929633e-07, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 407.89, 'epoch': 7.35}
 74%|███████████████████████████████████████████████████████▉                    | 5250/7135 [4:47:39<1:40:51,  3.21s/it] 74%|███████████████████████████████████████████████████████▉                    | 5251/7135 [4:47:42<1:46:57,  3.41s/it] 74%|███████████████████████████████████████████████████████▉                    | 5252/7135 [4:47:46<1:44:47,  3.34s/it] 74%|███████████████████████████████████████████████████████▉                    | 5253/7135 [4:47:49<1:46:00,  3.38s/it] 74%|███████████████████████████████████████████████████████▉                    | 5254/7135 [4:47:52<1:46:32,  3.40s/it] 74%|███████████████████████████████████████████████████████▉                    | 5255/7135 [4:47:55<1:42:46,  3.28s/it] 74%|███████████████████████████████████████████████████████▉                    | 5256/7135 [4:47:58<1:39:24,  3.17s/it] 74%|███████████████████████████████████████████████████████▉                    | 5257/7135 [4:48:01<1:37:37,  3.12s/it] 74%|████████████████████████████████████████████████████████                    | 5258/7135 [4:48:04<1:36:05,  3.07s/it] 74%|████████████████████████████████████████████████████████                    | 5259/7135 [4:48:07<1:33:51,  3.00s/it] 74%|████████████████████████████████████████████████████████                    | 5260/7135 [4:48:11<1:37:36,  3.12s/it]                                                                                                                         {'loss': 0.6874, 'grad_norm': 4.9375, 'learning_rate': 8.271734841028553e-07, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 334.8, 'epoch': 7.37}
 74%|████████████████████████████████████████████████████████                    | 5260/7135 [4:48:11<1:37:36,  3.12s/it] 74%|████████████████████████████████████████████████████████                    | 5261/7135 [4:48:14<1:36:58,  3.10s/it] 74%|████████████████████████████████████████████████████████                    | 5262/7135 [4:48:17<1:34:59,  3.04s/it] 74%|████████████████████████████████████████████████████████                    | 5263/7135 [4:48:20<1:36:22,  3.09s/it] 74%|████████████████████████████████████████████████████████                    | 5264/7135 [4:48:23<1:38:58,  3.17s/it] 74%|████████████████████████████████████████████████████████                    | 5265/7135 [4:48:27<1:45:14,  3.38s/it] 74%|████████████████████████████████████████████████████████                    | 5266/7135 [4:48:30<1:43:54,  3.34s/it] 74%|████████████████████████████████████████████████████████                    | 5267/7135 [4:48:34<1:50:27,  3.55s/it] 74%|████████████████████████████████████████████████████████                    | 5268/7135 [4:48:37<1:43:52,  3.34s/it] 74%|████████████████████████████████████████████████████████                    | 5269/7135 [4:48:40<1:38:56,  3.18s/it] 74%|████████████████████████████████████████████████████████▏                   | 5270/7135 [4:48:43<1:34:56,  3.05s/it]                                                                                                                         {'loss': 0.7083, 'grad_norm': 5.8125, 'learning_rate': 8.18893608981064e-07, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 443.7, 'epoch': 7.38}
 74%|████████████████████████████████████████████████████████▏                   | 5270/7135 [4:48:43<1:34:56,  3.05s/it] 74%|████████████████████████████████████████████████████████▏                   | 5271/7135 [4:48:46<1:37:36,  3.14s/it] 74%|████████████████████████████████████████████████████████▏                   | 5272/7135 [4:48:50<1:42:23,  3.30s/it] 74%|████████████████████████████████████████████████████████▏                   | 5273/7135 [4:48:53<1:39:23,  3.20s/it] 74%|████████████████████████████████████████████████████████▏                   | 5274/7135 [4:48:56<1:42:57,  3.32s/it] 74%|████████████████████████████████████████████████████████▏                   | 5275/7135 [4:48:59<1:41:01,  3.26s/it] 74%|████████████████████████████████████████████████████████▏                   | 5276/7135 [4:49:03<1:43:42,  3.35s/it] 74%|████████████████████████████████████████████████████████▏                   | 5277/7135 [4:49:06<1:39:58,  3.23s/it] 74%|████████████████████████████████████████████████████████▏                   | 5278/7135 [4:49:09<1:37:35,  3.15s/it] 74%|████████████████████████████████████████████████████████▏                   | 5279/7135 [4:49:12<1:39:55,  3.23s/it] 74%|████████████████████████████████████████████████████████▏                   | 5280/7135 [4:49:15<1:34:52,  3.07s/it]                                                                                                                         {'loss': 0.7267, 'grad_norm': 5.46875, 'learning_rate': 8.106472586456623e-07, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 448.01, 'epoch': 7.4}
 74%|████████████████████████████████████████████████████████▏                   | 5280/7135 [4:49:15<1:34:52,  3.07s/it] 74%|████████████████████████████████████████████████████████▎                   | 5281/7135 [4:49:18<1:36:16,  3.12s/it] 74%|████████████████████████████████████████████████████████▎                   | 5282/7135 [4:49:21<1:33:40,  3.03s/it] 74%|████████████████████████████████████████████████████████▎                   | 5283/7135 [4:49:25<1:41:48,  3.30s/it] 74%|████████████████████████████████████████████████████████▎                   | 5284/7135 [4:49:28<1:40:12,  3.25s/it] 74%|████████████████████████████████████████████████████████▎                   | 5285/7135 [4:49:31<1:40:50,  3.27s/it] 74%|████████████████████████████████████████████████████████▎                   | 5286/7135 [4:49:35<1:43:58,  3.37s/it] 74%|████████████████████████████████████████████████████████▎                   | 5287/7135 [4:49:39<1:45:22,  3.42s/it] 74%|████████████████████████████████████████████████████████▎                   | 5288/7135 [4:49:42<1:47:00,  3.48s/it] 74%|████████████████████████████████████████████████████████▎                   | 5289/7135 [4:49:45<1:40:43,  3.27s/it] 74%|████████████████████████████████████████████████████████▎                   | 5290/7135 [4:49:49<1:43:44,  3.37s/it]                                                                                                                         {'loss': 0.7073, 'grad_norm': 5.75, 'learning_rate': 8.024345975461662e-07, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 311.31, 'epoch': 7.41}
 74%|████████████████████████████████████████████████████████▎                   | 5290/7135 [4:49:49<1:43:44,  3.37s/it] 74%|████████████████████████████████████████████████████████▎                   | 5291/7135 [4:49:52<1:40:31,  3.27s/it] 74%|████████████████████████████████████████████████████████▎                   | 5292/7135 [4:49:55<1:40:51,  3.28s/it] 74%|████████████████████████████████████████████████████████▍                   | 5293/7135 [4:49:59<1:44:55,  3.42s/it] 74%|████████████████████████████████████████████████████████▍                   | 5294/7135 [4:50:02<1:40:54,  3.29s/it] 74%|████████████████████████████████████████████████████████▍                   | 5295/7135 [4:50:05<1:41:51,  3.32s/it] 74%|████████████████████████████████████████████████████████▍                   | 5296/7135 [4:50:09<1:46:10,  3.46s/it] 74%|████████████████████████████████████████████████████████▍                   | 5297/7135 [4:50:11<1:38:21,  3.21s/it] 74%|████████████████████████████████████████████████████████▍                   | 5298/7135 [4:50:14<1:35:29,  3.12s/it] 74%|████████████████████████████████████████████████████████▍                   | 5299/7135 [4:50:17<1:32:45,  3.03s/it] 74%|████████████████████████████████████████████████████████▍                   | 5300/7135 [4:50:20<1:29:59,  2.94s/it]                                                                                                                         {'loss': 0.6908, 'grad_norm': 4.3125, 'learning_rate': 7.94255789460257e-07, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 483.7, 'epoch': 7.42}
 74%|████████████████████████████████████████████████████████▍                   | 5300/7135 [4:50:20<1:29:59,  2.94s/it] 74%|████████████████████████████████████████████████████████▍                   | 5301/7135 [4:50:23<1:28:44,  2.90s/it] 74%|████████████████████████████████████████████████████████▍                   | 5302/7135 [4:50:26<1:31:10,  2.98s/it] 74%|████████████████████████████████████████████████████████▍                   | 5303/7135 [4:50:29<1:36:28,  3.16s/it] 74%|████████████████████████████████████████████████████████▍                   | 5304/7135 [4:50:32<1:35:30,  3.13s/it] 74%|████████████████████████████████████████████████████████▌                   | 5305/7135 [4:50:36<1:34:48,  3.11s/it] 74%|████████████████████████████████████████████████████████▌                   | 5306/7135 [4:50:39<1:35:03,  3.12s/it] 74%|████████████████████████████████████████████████████████▌                   | 5307/7135 [4:50:42<1:37:52,  3.21s/it] 74%|████████████████████████████████████████████████████████▌                   | 5308/7135 [4:50:45<1:36:31,  3.17s/it] 74%|████████████████████████████████████████████████████████▌                   | 5309/7135 [4:50:49<1:39:15,  3.26s/it] 74%|████████████████████████████████████████████████████████▌                   | 5310/7135 [4:50:53<1:44:50,  3.45s/it]                                                                                                                         {'loss': 0.7633, 'grad_norm': 5.40625, 'learning_rate': 7.861109974905198e-07, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 290.56, 'epoch': 7.44}
 74%|████████████████████████████████████████████████████████▌                   | 5310/7135 [4:50:53<1:44:50,  3.45s/it] 74%|████████████████████████████████████████████████████████▌                   | 5311/7135 [4:50:56<1:45:40,  3.48s/it] 74%|████████████████████████████████████████████████████████▌                   | 5312/7135 [4:50:59<1:44:46,  3.45s/it] 74%|████████████████████████████████████████████████████████▌                   | 5313/7135 [4:51:03<1:44:13,  3.43s/it] 74%|████████████████████████████████████████████████████████▌                   | 5314/7135 [4:51:06<1:42:34,  3.38s/it] 74%|████████████████████████████████████████████████████████▌                   | 5315/7135 [4:51:10<1:44:48,  3.46s/it] 75%|████████████████████████████████████████████████████████▌                   | 5316/7135 [4:51:12<1:37:30,  3.22s/it] 75%|████████████████████████████████████████████████████████▋                   | 5317/7135 [4:51:15<1:35:05,  3.14s/it] 75%|████████████████████████████████████████████████████████▋                   | 5318/7135 [4:51:18<1:33:57,  3.10s/it] 75%|████████████████████████████████████████████████████████▋                   | 5319/7135 [4:51:21<1:29:42,  2.96s/it] 75%|████████████████████████████████████████████████████████▋                   | 5320/7135 [4:51:24<1:29:42,  2.97s/it]                                                                                                                         {'loss': 0.6055, 'grad_norm': 4.78125, 'learning_rate': 7.780003840611822e-07, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 383.2, 'epoch': 7.45}
 75%|████████████████████████████████████████████████████████▋                   | 5320/7135 [4:51:24<1:29:42,  2.97s/it] 75%|████████████████████████████████████████████████████████▋                   | 5321/7135 [4:51:28<1:38:33,  3.26s/it] 75%|████████████████████████████████████████████████████████▋                   | 5322/7135 [4:51:31<1:37:15,  3.22s/it] 75%|████████████████████████████████████████████████████████▋                   | 5323/7135 [4:51:34<1:35:27,  3.16s/it] 75%|████████████████████████████████████████████████████████▋                   | 5324/7135 [4:51:37<1:33:40,  3.10s/it] 75%|████████████████████████████████████████████████████████▋                   | 5325/7135 [4:51:40<1:29:33,  2.97s/it] 75%|████████████████████████████████████████████████████████▋                   | 5326/7135 [4:51:43<1:31:30,  3.04s/it] 75%|████████████████████████████████████████████████████████▋                   | 5327/7135 [4:51:46<1:29:01,  2.95s/it] 75%|████████████████████████████████████████████████████████▊                   | 5328/7135 [4:51:49<1:34:42,  3.14s/it] 75%|████████████████████████████████████████████████████████▊                   | 5329/7135 [4:51:53<1:38:10,  3.26s/it] 75%|████████████████████████████████████████████████████████▊                   | 5330/7135 [4:51:56<1:33:19,  3.10s/it]                                                                                                                         {'loss': 0.7846, 'grad_norm': 4.0, 'learning_rate': 7.699241109148845e-07, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 503.9, 'epoch': 7.47}
 75%|████████████████████████████████████████████████████████▊                   | 5330/7135 [4:51:56<1:33:19,  3.10s/it] 75%|████████████████████████████████████████████████████████▊                   | 5331/7135 [4:51:59<1:40:21,  3.34s/it] 75%|████████████████████████████████████████████████████████▊                   | 5332/7135 [4:52:02<1:37:18,  3.24s/it] 75%|████████████████████████████████████████████████████████▊                   | 5333/7135 [4:52:06<1:37:24,  3.24s/it] 75%|████████████████████████████████████████████████████████▊                   | 5334/7135 [4:52:09<1:33:47,  3.12s/it] 75%|████████████████████████████████████████████████████████▊                   | 5335/7135 [4:52:12<1:32:20,  3.08s/it] 75%|████████████████████████████████████████████████████████▊                   | 5336/7135 [4:52:14<1:30:37,  3.02s/it] 75%|████████████████████████████████████████████████████████▊                   | 5337/7135 [4:52:17<1:27:26,  2.92s/it] 75%|████████████████████████████████████████████████████████▊                   | 5338/7135 [4:52:21<1:33:30,  3.12s/it] 75%|████████████████████████████████████████████████████████▊                   | 5339/7135 [4:52:23<1:30:17,  3.02s/it] 75%|████████████████████████████████████████████████████████▉                   | 5340/7135 [4:52:27<1:34:55,  3.17s/it]                                                                                                                         {'loss': 0.6155, 'grad_norm': 6.96875, 'learning_rate': 7.618823391094459e-07, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 392.84, 'epoch': 7.48}
 75%|████████████████████████████████████████████████████████▉                   | 5340/7135 [4:52:27<1:34:55,  3.17s/it] 75%|████████████████████████████████████████████████████████▉                   | 5341/7135 [4:52:30<1:35:02,  3.18s/it] 75%|████████████████████████████████████████████████████████▉                   | 5342/7135 [4:52:34<1:38:32,  3.30s/it] 75%|████████████████████████████████████████████████████████▉                   | 5343/7135 [4:52:37<1:35:48,  3.21s/it] 75%|████████████████████████████████████████████████████████▉                   | 5344/7135 [4:52:40<1:39:10,  3.32s/it] 75%|████████████████████████████████████████████████████████▉                   | 5345/7135 [4:52:44<1:39:14,  3.33s/it] 75%|████████████████████████████████████████████████████████▉                   | 5346/7135 [4:52:47<1:35:47,  3.21s/it] 75%|████████████████████████████████████████████████████████▉                   | 5347/7135 [4:52:50<1:34:03,  3.16s/it] 75%|████████████████████████████████████████████████████████▉                   | 5348/7135 [4:52:53<1:32:54,  3.12s/it] 75%|████████████████████████████████████████████████████████▉                   | 5349/7135 [4:52:56<1:32:13,  3.10s/it] 75%|████████████████████████████████████████████████████████▉                   | 5350/7135 [4:52:59<1:35:04,  3.20s/it]                                                                                                                         {'loss': 0.7106, 'grad_norm': 4.59375, 'learning_rate': 7.538752290146595e-07, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 352.58, 'epoch': 7.49}
 75%|████████████████████████████████████████████████████████▉                   | 5350/7135 [4:52:59<1:35:04,  3.20s/it] 75%|████████████████████████████████████████████████████████▉                   | 5351/7135 [4:53:03<1:37:21,  3.27s/it] 75%|█████████████████████████████████████████████████████████                   | 5352/7135 [4:53:06<1:36:13,  3.24s/it] 75%|█████████████████████████████████████████████████████████                   | 5353/7135 [4:53:09<1:36:52,  3.26s/it] 75%|█████████████████████████████████████████████████████████                   | 5354/7135 [4:53:12<1:36:22,  3.25s/it] 75%|█████████████████████████████████████████████████████████                   | 5355/7135 [4:53:15<1:31:20,  3.08s/it] 75%|█████████████████████████████████████████████████████████                   | 5356/7135 [4:53:18<1:28:53,  3.00s/it] 75%|█████████████████████████████████████████████████████████                   | 5357/7135 [4:53:21<1:27:56,  2.97s/it] 75%|█████████████████████████████████████████████████████████                   | 5358/7135 [4:53:24<1:29:02,  3.01s/it] 75%|█████████████████████████████████████████████████████████                   | 5359/7135 [4:53:27<1:31:43,  3.10s/it] 75%|█████████████████████████████████████████████████████████                   | 5360/7135 [4:53:31<1:35:37,  3.23s/it]                                                                                                                         {'loss': 0.7828, 'grad_norm': 4.65625, 'learning_rate': 7.459029403090887e-07, 'memory/max_active (GiB)': 34.73, 'memory/max_allocated (GiB)': 34.73, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 298.24, 'epoch': 7.51}
 75%|█████████████████████████████████████████████████████████                   | 5360/7135 [4:53:31<1:35:37,  3.23s/it] 75%|█████████████████████████████████████████████████████████                   | 5361/7135 [4:53:34<1:35:12,  3.22s/it] 75%|█████████████████████████████████████████████████████████                   | 5362/7135 [4:53:36<1:29:09,  3.02s/it] 75%|█████████████████████████████████████████████████████████▏                  | 5363/7135 [4:53:39<1:26:42,  2.94s/it] 75%|█████████████████████████████████████████████████████████▏                  | 5364/7135 [4:53:42<1:25:40,  2.90s/it] 75%|█████████████████████████████████████████████████████████▏                  | 5365/7135 [4:53:45<1:29:05,  3.02s/it] 75%|█████████████████████████████████████████████████████████▏                  | 5366/7135 [4:53:49<1:32:06,  3.12s/it] 75%|█████████████████████████████████████████████████████████▏                  | 5367/7135 [4:53:51<1:29:36,  3.04s/it] 75%|█████████████████████████████████████████████████████████▏                  | 5368/7135 [4:53:54<1:28:29,  3.00s/it] 75%|█████████████████████████████████████████████████████████▏                  | 5369/7135 [4:53:57<1:29:24,  3.04s/it] 75%|█████████████████████████████████████████████████████████▏                  | 5370/7135 [4:54:01<1:34:56,  3.23s/it]                                                                                                                         {'loss': 0.8926, 'grad_norm': 2.921875, 'learning_rate': 7.379656319768875e-07, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 378.92, 'epoch': 7.52}
 75%|█████████████████████████████████████████████████████████▏                  | 5370/7135 [4:54:01<1:34:56,  3.23s/it] 75%|█████████████████████████████████████████████████████████▏                  | 5371/7135 [4:54:05<1:36:20,  3.28s/it] 75%|█████████████████████████████████████████████████████████▏                  | 5372/7135 [4:54:08<1:37:23,  3.31s/it] 75%|█████████████████████████████████████████████████████████▏                  | 5373/7135 [4:54:11<1:37:25,  3.32s/it] 75%|█████████████████████████████████████████████████████████▏                  | 5374/7135 [4:54:15<1:43:23,  3.52s/it] 75%|█████████████████████████████████████████████████████████▎                  | 5375/7135 [4:54:19<1:41:18,  3.45s/it] 75%|█████████████████████████████████████████████████████████▎                  | 5376/7135 [4:54:22<1:41:51,  3.47s/it] 75%|█████████████████████████████████████████████████████████▎                  | 5377/7135 [4:54:25<1:38:32,  3.36s/it] 75%|█████████████████████████████████████████████████████████▎                  | 5378/7135 [4:54:29<1:41:20,  3.46s/it] 75%|█████████████████████████████████████████████████████████▎                  | 5379/7135 [4:54:32<1:42:08,  3.49s/it] 75%|█████████████████████████████████████████████████████████▎                  | 5380/7135 [4:54:36<1:39:04,  3.39s/it]                                                                                                                         {'loss': 0.893, 'grad_norm': 4.8125, 'learning_rate': 7.300634623046257e-07, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 533.18, 'epoch': 7.54}
 75%|█████████████████████████████████████████████████████████▎                  | 5380/7135 [4:54:36<1:39:04,  3.39s/it] 75%|█████████████████████████████████████████████████████████▎                  | 5381/7135 [4:54:38<1:34:42,  3.24s/it] 75%|█████████████████████████████████████████████████████████▎                  | 5382/7135 [4:54:42<1:33:39,  3.21s/it] 75%|█████████████████████████████████████████████████████████▎                  | 5383/7135 [4:54:45<1:31:36,  3.14s/it] 75%|█████████████████████████████████████████████████████████▎                  | 5384/7135 [4:54:48<1:31:20,  3.13s/it] 75%|█████████████████████████████████████████████████████████▎                  | 5385/7135 [4:54:51<1:32:50,  3.18s/it] 75%|█████████████████████████████████████████████████████████▎                  | 5386/7135 [4:54:55<1:37:31,  3.35s/it] 76%|█████████████████████████████████████████████████████████▍                  | 5387/7135 [4:54:58<1:38:55,  3.40s/it] 76%|█████████████████████████████████████████████████████████▍                  | 5388/7135 [4:55:01<1:33:15,  3.20s/it] 76%|█████████████████████████████████████████████████████████▍                  | 5389/7135 [4:55:04<1:30:52,  3.12s/it] 76%|█████████████████████████████████████████████████████████▍                  | 5390/7135 [4:55:07<1:33:49,  3.23s/it]                                                                                                                         {'loss': 0.6884, 'grad_norm': 4.65625, 'learning_rate': 7.22196588878138e-07, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 368.44, 'epoch': 7.55}
 76%|█████████████████████████████████████████████████████████▍                  | 5390/7135 [4:55:07<1:33:49,  3.23s/it] 76%|█████████████████████████████████████████████████████████▍                  | 5391/7135 [4:55:11<1:34:30,  3.25s/it] 76%|█████████████████████████████████████████████████████████▍                  | 5392/7135 [4:55:14<1:33:55,  3.23s/it] 76%|█████████████████████████████████████████████████████████▍                  | 5393/7135 [4:55:17<1:29:59,  3.10s/it] 76%|█████████████████████████████████████████████████████████▍                  | 5394/7135 [4:55:19<1:26:36,  2.98s/it] 76%|█████████████████████████████████████████████████████████▍                  | 5395/7135 [4:55:23<1:28:14,  3.04s/it] 76%|█████████████████████████████████████████████████████████▍                  | 5396/7135 [4:55:26<1:29:08,  3.08s/it] 76%|█████████████████████████████████████████████████████████▍                  | 5397/7135 [4:55:29<1:29:11,  3.08s/it] 76%|█████████████████████████████████████████████████████████▍                  | 5398/7135 [4:55:32<1:28:26,  3.05s/it] 76%|█████████████████████████████████████████████████████████▌                  | 5399/7135 [4:55:35<1:28:40,  3.06s/it] 76%|█████████████████████████████████████████████████████████▌                  | 5400/7135 [4:55:40<1:42:49,  3.56s/it]                                                                                                                         {'loss': 0.6623, 'grad_norm': 4.96875, 'learning_rate': 7.143651685793745e-07, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 237.87, 'epoch': 7.56}
 76%|█████████████████████████████████████████████████████████▌                  | 5400/7135 [4:55:40<1:42:49,  3.56s/it] 76%|█████████████████████████████████████████████████████████▌                  | 5401/7135 [4:55:43<1:39:18,  3.44s/it] 76%|█████████████████████████████████████████████████████████▌                  | 5402/7135 [4:55:46<1:35:23,  3.30s/it] 76%|█████████████████████████████████████████████████████████▌                  | 5403/7135 [4:55:49<1:34:08,  3.26s/it] 76%|█████████████████████████████████████████████████████████▌                  | 5404/7135 [4:55:52<1:35:20,  3.30s/it] 76%|█████████████████████████████████████████████████████████▌                  | 5405/7135 [4:55:55<1:31:04,  3.16s/it] 76%|█████████████████████████████████████████████████████████▌                  | 5406/7135 [4:55:59<1:36:41,  3.36s/it] 76%|█████████████████████████████████████████████████████████▌                  | 5407/7135 [4:56:02<1:32:27,  3.21s/it] 76%|█████████████████████████████████████████████████████████▌                  | 5408/7135 [4:56:05<1:31:37,  3.18s/it] 76%|█████████████████████████████████████████████████████████▌                  | 5409/7135 [4:56:08<1:31:16,  3.17s/it] 76%|█████████████████████████████████████████████████████████▋                  | 5410/7135 [4:56:11<1:29:23,  3.11s/it]                                                                                                                         {'loss': 0.7705, 'grad_norm': 6.65625, 'learning_rate': 7.065693575832764e-07, 'memory/max_active (GiB)': 37.88, 'memory/max_allocated (GiB)': 37.88, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 463.14, 'epoch': 7.58}
 76%|█████████████████████████████████████████████████████████▋                  | 5410/7135 [4:56:11<1:29:23,  3.11s/it] 76%|█████████████████████████████████████████████████████████▋                  | 5411/7135 [4:56:14<1:31:34,  3.19s/it] 76%|█████████████████████████████████████████████████████████▋                  | 5412/7135 [4:56:18<1:35:53,  3.34s/it] 76%|█████████████████████████████████████████████████████████▋                  | 5413/7135 [4:56:21<1:33:45,  3.27s/it] 76%|█████████████████████████████████████████████████████████▋                  | 5414/7135 [4:56:24<1:31:55,  3.20s/it] 76%|█████████████████████████████████████████████████████████▋                  | 5415/7135 [4:56:28<1:32:38,  3.23s/it] 76%|█████████████████████████████████████████████████████████▋                  | 5416/7135 [4:56:31<1:31:23,  3.19s/it] 76%|█████████████████████████████████████████████████████████▋                  | 5417/7135 [4:56:34<1:29:40,  3.13s/it] 76%|█████████████████████████████████████████████████████████▋                  | 5418/7135 [4:56:36<1:26:18,  3.02s/it] 76%|█████████████████████████████████████████████████████████▋                  | 5419/7135 [4:56:40<1:32:29,  3.23s/it] 76%|█████████████████████████████████████████████████████████▋                  | 5420/7135 [4:56:43<1:30:48,  3.18s/it]                                                                                                                         {'loss': 0.8274, 'grad_norm': 5.0, 'learning_rate': 6.988093113546626e-07, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 415.71, 'epoch': 7.59}
 76%|█████████████████████████████████████████████████████████▋                  | 5420/7135 [4:56:43<1:30:48,  3.18s/it] 76%|█████████████████████████████████████████████████████████▋                  | 5421/7135 [4:56:46<1:30:16,  3.16s/it] 76%|█████████████████████████████████████████████████████████▊                  | 5422/7135 [4:56:50<1:30:42,  3.18s/it] 76%|█████████████████████████████████████████████████████████▊                  | 5423/7135 [4:56:53<1:30:41,  3.18s/it] 76%|█████████████████████████████████████████████████████████▊                  | 5424/7135 [4:56:56<1:31:27,  3.21s/it] 76%|█████████████████████████████████████████████████████████▊                  | 5425/7135 [4:56:59<1:27:04,  3.06s/it] 76%|█████████████████████████████████████████████████████████▊                  | 5426/7135 [4:57:02<1:25:39,  3.01s/it] 76%|█████████████████████████████████████████████████████████▊                  | 5427/7135 [4:57:05<1:27:02,  3.06s/it] 76%|█████████████████████████████████████████████████████████▊                  | 5428/7135 [4:57:08<1:29:36,  3.15s/it] 76%|█████████████████████████████████████████████████████████▊                  | 5429/7135 [4:57:12<1:34:19,  3.32s/it] 76%|█████████████████████████████████████████████████████████▊                  | 5430/7135 [4:57:15<1:30:47,  3.19s/it]                                                                                                                         {'loss': 0.5969, 'grad_norm': 5.65625, 'learning_rate': 6.910851846451258e-07, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 428.33, 'epoch': 7.61}
 76%|█████████████████████████████████████████████████████████▊                  | 5430/7135 [4:57:15<1:30:47,  3.19s/it] 76%|█████████████████████████████████████████████████████████▊                  | 5431/7135 [4:57:18<1:28:28,  3.12s/it] 76%|█████████████████████████████████████████████████████████▊                  | 5432/7135 [4:57:20<1:24:46,  2.99s/it] 76%|█████████████████████████████████████████████████████████▊                  | 5433/7135 [4:57:23<1:22:08,  2.90s/it] 76%|█████████████████████████████████████████████████████████▉                  | 5434/7135 [4:57:26<1:25:21,  3.01s/it] 76%|█████████████████████████████████████████████████████████▉                  | 5435/7135 [4:57:29<1:24:50,  2.99s/it] 76%|█████████████████████████████████████████████████████████▉                  | 5436/7135 [4:57:32<1:23:29,  2.95s/it] 76%|█████████████████████████████████████████████████████████▉                  | 5437/7135 [4:57:35<1:23:32,  2.95s/it] 76%|█████████████████████████████████████████████████████████▉                  | 5438/7135 [4:57:38<1:25:27,  3.02s/it] 76%|█████████████████████████████████████████████████████████▉                  | 5439/7135 [4:57:42<1:28:05,  3.12s/it] 76%|█████████████████████████████████████████████████████████▉                  | 5440/7135 [4:57:44<1:25:39,  3.03s/it]                                                                                                                         {'loss': 0.6935, 'grad_norm': 5.5, 'learning_rate': 6.833971314899473e-07, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 344.19, 'epoch': 7.62}
 76%|█████████████████████████████████████████████████████████▉                  | 5440/7135 [4:57:44<1:25:39,  3.03s/it] 76%|█████████████████████████████████████████████████████████▉                  | 5441/7135 [4:57:48<1:33:07,  3.30s/it] 76%|█████████████████████████████████████████████████████████▉                  | 5442/7135 [4:57:52<1:33:52,  3.33s/it] 76%|█████████████████████████████████████████████████████████▉                  | 5443/7135 [4:57:55<1:34:02,  3.34s/it] 76%|█████████████████████████████████████████████████████████▉                  | 5444/7135 [4:57:58<1:33:42,  3.32s/it] 76%|█████████████████████████████████████████████████████████▉                  | 5445/7135 [4:58:02<1:38:14,  3.49s/it] 76%|██████████████████████████████████████████████████████████                  | 5446/7135 [4:58:06<1:36:43,  3.44s/it] 76%|██████████████████████████████████████████████████████████                  | 5447/7135 [4:58:09<1:35:40,  3.40s/it] 76%|██████████████████████████████████████████████████████████                  | 5448/7135 [4:58:12<1:33:32,  3.33s/it] 76%|██████████████████████████████████████████████████████████                  | 5449/7135 [4:58:16<1:35:17,  3.39s/it] 76%|██████████████████████████████████████████████████████████                  | 5450/7135 [4:58:18<1:30:11,  3.21s/it]                                                                                                                         {'loss': 0.8366, 'grad_norm': 5.5625, 'learning_rate': 6.757453052050295e-07, 'memory/max_active (GiB)': 44.58, 'memory/max_allocated (GiB)': 44.58, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 653.51, 'epoch': 7.63}
 76%|██████████████████████████████████████████████████████████                  | 5450/7135 [4:58:18<1:30:11,  3.21s/it] 76%|██████████████████████████████████████████████████████████                  | 5451/7135 [4:58:21<1:27:37,  3.12s/it] 76%|██████████████████████████████████████████████████████████                  | 5452/7135 [4:58:24<1:27:54,  3.13s/it] 76%|██████████████████████████████████████████████████████████                  | 5453/7135 [4:58:28<1:28:17,  3.15s/it] 76%|██████████████████████████████████████████████████████████                  | 5454/7135 [4:58:31<1:33:06,  3.32s/it] 76%|██████████████████████████████████████████████████████████                  | 5455/7135 [4:58:34<1:30:54,  3.25s/it] 76%|██████████████████████████████████████████████████████████                  | 5456/7135 [4:58:37<1:28:15,  3.15s/it] 76%|██████████████████████████████████████████████████████████▏                 | 5457/7135 [4:58:41<1:28:46,  3.17s/it] 76%|██████████████████████████████████████████████████████████▏                 | 5458/7135 [4:58:44<1:30:57,  3.25s/it] 77%|██████████████████████████████████████████████████████████▏                 | 5459/7135 [4:58:47<1:26:54,  3.11s/it] 77%|██████████████████████████████████████████████████████████▏                 | 5460/7135 [4:58:50<1:24:09,  3.01s/it]                                                                                                                         {'loss': 0.6913, 'grad_norm': 5.5, 'learning_rate': 6.681298583838316e-07, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 378.5, 'epoch': 7.65}
 77%|██████████████████████████████████████████████████████████▏                 | 5460/7135 [4:58:50<1:24:09,  3.01s/it] 77%|██████████████████████████████████████████████████████████▏                 | 5461/7135 [4:58:53<1:23:58,  3.01s/it] 77%|██████████████████████████████████████████████████████████▏                 | 5462/7135 [4:58:56<1:27:32,  3.14s/it] 77%|██████████████████████████████████████████████████████████▏                 | 5463/7135 [4:58:59<1:26:11,  3.09s/it] 77%|██████████████████████████████████████████████████████████▏                 | 5464/7135 [4:59:02<1:24:50,  3.05s/it] 77%|██████████████████████████████████████████████████████████▏                 | 5465/7135 [4:59:05<1:27:51,  3.16s/it] 77%|██████████████████████████████████████████████████████████▏                 | 5466/7135 [4:59:08<1:25:59,  3.09s/it] 77%|██████████████████████████████████████████████████████████▏                 | 5467/7135 [4:59:12<1:28:02,  3.17s/it] 77%|██████████████████████████████████████████████████████████▏                 | 5468/7135 [4:59:14<1:24:35,  3.04s/it] 77%|██████████████████████████████████████████████████████████▎                 | 5469/7135 [4:59:17<1:24:03,  3.03s/it] 77%|██████████████████████████████████████████████████████████▎                 | 5470/7135 [4:59:20<1:23:59,  3.03s/it]                                                                                                                         {'loss': 0.7759, 'grad_norm': 4.15625, 'learning_rate': 6.605509428943316e-07, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 386.56, 'epoch': 7.66}
 77%|██████████████████████████████████████████████████████████▎                 | 5470/7135 [4:59:20<1:23:59,  3.03s/it] 77%|██████████████████████████████████████████████████████████▎                 | 5471/7135 [4:59:24<1:26:33,  3.12s/it] 77%|██████████████████████████████████████████████████████████▎                 | 5472/7135 [4:59:27<1:24:01,  3.03s/it] 77%|██████████████████████████████████████████████████████████▎                 | 5473/7135 [4:59:30<1:25:27,  3.09s/it] 77%|██████████████████████████████████████████████████████████▎                 | 5474/7135 [4:59:33<1:24:26,  3.05s/it] 77%|██████████████████████████████████████████████████████████▎                 | 5475/7135 [4:59:37<1:31:24,  3.30s/it] 77%|██████████████████████████████████████████████████████████▎                 | 5476/7135 [4:59:39<1:26:55,  3.14s/it] 77%|██████████████████████████████████████████████████████████▎                 | 5477/7135 [4:59:43<1:31:24,  3.31s/it] 77%|██████████████████████████████████████████████████████████▎                 | 5478/7135 [4:59:47<1:31:49,  3.32s/it] 77%|██████████████████████████████████████████████████████████▎                 | 5479/7135 [4:59:50<1:30:58,  3.30s/it] 77%|██████████████████████████████████████████████████████████▎                 | 5480/7135 [4:59:53<1:27:02,  3.16s/it]                                                                                                                         {'loss': 0.7212, 'grad_norm': 4.03125, 'learning_rate': 6.530087098759957e-07, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 461.04, 'epoch': 7.68}
 77%|██████████████████████████████████████████████████████████▎                 | 5480/7135 [4:59:53<1:27:02,  3.16s/it] 77%|██████████████████████████████████████████████████████████▍                 | 5481/7135 [4:59:56<1:29:15,  3.24s/it] 77%|██████████████████████████████████████████████████████████▍                 | 5482/7135 [4:59:59<1:26:18,  3.13s/it] 77%|██████████████████████████████████████████████████████████▍                 | 5483/7135 [5:00:02<1:24:03,  3.05s/it] 77%|██████████████████████████████████████████████████████████▍                 | 5484/7135 [5:00:05<1:22:19,  2.99s/it] 77%|██████████████████████████████████████████████████████████▍                 | 5485/7135 [5:00:07<1:20:43,  2.94s/it] 77%|██████████████████████████████████████████████████████████▍                 | 5486/7135 [5:00:11<1:22:21,  3.00s/it] 77%|██████████████████████████████████████████████████████████▍                 | 5487/7135 [5:00:14<1:22:06,  2.99s/it] 77%|██████████████████████████████████████████████████████████▍                 | 5488/7135 [5:00:17<1:24:28,  3.08s/it] 77%|██████████████████████████████████████████████████████████▍                 | 5489/7135 [5:00:19<1:20:20,  2.93s/it] 77%|██████████████████████████████████████████████████████████▍                 | 5490/7135 [5:00:23<1:22:28,  3.01s/it]                                                                                                                         {'loss': 0.7153, 'grad_norm': 5.9375, 'learning_rate': 6.455033097367652e-07, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 330.1, 'epoch': 7.69}
 77%|██████████████████████████████████████████████████████████▍                 | 5490/7135 [5:00:23<1:22:28,  3.01s/it] 77%|██████████████████████████████████████████████████████████▍                 | 5491/7135 [5:00:26<1:24:38,  3.09s/it] 77%|██████████████████████████████████████████████████████████▍                 | 5492/7135 [5:00:30<1:32:13,  3.37s/it] 77%|██████████████████████████████████████████████████████████▌                 | 5493/7135 [5:00:33<1:29:38,  3.28s/it] 77%|██████████████████████████████████████████████████████████▌                 | 5494/7135 [5:00:36<1:31:26,  3.34s/it] 77%|██████████████████████████████████████████████████████████▌                 | 5495/7135 [5:00:39<1:27:51,  3.21s/it] 77%|██████████████████████████████████████████████████████████▌                 | 5496/7135 [5:00:43<1:29:55,  3.29s/it] 77%|██████████████████████████████████████████████████████████▌                 | 5497/7135 [5:00:46<1:30:54,  3.33s/it] 77%|██████████████████████████████████████████████████████████▌                 | 5498/7135 [5:00:49<1:26:19,  3.16s/it] 77%|██████████████████████████████████████████████████████████▌                 | 5499/7135 [5:00:52<1:27:00,  3.19s/it] 77%|██████████████████████████████████████████████████████████▌                 | 5500/7135 [5:00:55<1:25:15,  3.13s/it]                                                                                                                         {'loss': 0.9097, 'grad_norm': 5.625, 'learning_rate': 6.380348921500551e-07, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 528.54, 'epoch': 7.7}
 77%|██████████████████████████████████████████████████████████▌                 | 5500/7135 [5:00:55<1:25:15,  3.13s/it] 77%|██████████████████████████████████████████████████████████▌                 | 5501/7135 [5:00:59<1:32:03,  3.38s/it] 77%|██████████████████████████████████████████████████████████▌                 | 5502/7135 [5:01:02<1:27:19,  3.21s/it] 77%|██████████████████████████████████████████████████████████▌                 | 5503/7135 [5:01:06<1:30:30,  3.33s/it] 77%|██████████████████████████████████████████████████████████▋                 | 5504/7135 [5:01:09<1:28:43,  3.26s/it] 77%|██████████████████████████████████████████████████████████▋                 | 5505/7135 [5:01:12<1:25:05,  3.13s/it] 77%|██████████████████████████████████████████████████████████▋                 | 5506/7135 [5:01:15<1:27:15,  3.21s/it] 77%|██████████████████████████████████████████████████████████▋                 | 5507/7135 [5:01:19<1:29:58,  3.32s/it] 77%|██████████████████████████████████████████████████████████▋                 | 5508/7135 [5:01:22<1:30:34,  3.34s/it] 77%|██████████████████████████████████████████████████████████▋                 | 5509/7135 [5:01:25<1:31:21,  3.37s/it] 77%|██████████████████████████████████████████████████████████▋                 | 5510/7135 [5:01:29<1:31:38,  3.38s/it]                                                                                                                         {'loss': 0.6278, 'grad_norm': 4.59375, 'learning_rate': 6.306036060517734e-07, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 416.45, 'epoch': 7.72}
 77%|██████████████████████████████████████████████████████████▋                 | 5510/7135 [5:01:29<1:31:38,  3.38s/it] 77%|██████████████████████████████████████████████████████████▋                 | 5511/7135 [5:01:32<1:30:06,  3.33s/it] 77%|██████████████████████████████████████████████████████████▋                 | 5512/7135 [5:01:35<1:26:21,  3.19s/it] 77%|██████████████████████████████████████████████████████████▋                 | 5513/7135 [5:01:38<1:27:11,  3.23s/it] 77%|██████████████████████████████████████████████████████████▋                 | 5514/7135 [5:01:42<1:28:53,  3.29s/it] 77%|██████████████████████████████████████████████████████████▋                 | 5515/7135 [5:01:44<1:24:30,  3.13s/it] 77%|██████████████████████████████████████████████████████████▊                 | 5516/7135 [5:01:47<1:22:47,  3.07s/it] 77%|██████████████████████████████████████████████████████████▊                 | 5517/7135 [5:01:50<1:23:16,  3.09s/it] 77%|██████████████████████████████████████████████████████████▊                 | 5518/7135 [5:01:54<1:24:39,  3.14s/it] 77%|██████████████████████████████████████████████████████████▊                 | 5519/7135 [5:01:57<1:22:43,  3.07s/it] 77%|██████████████████████████████████████████████████████████▊                 | 5520/7135 [5:02:00<1:23:10,  3.09s/it]                                                                                                                         {'loss': 0.5915, 'grad_norm': 4.5, 'learning_rate': 6.232095996373467e-07, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 373.86, 'epoch': 7.73}
 77%|██████████████████████████████████████████████████████████▊                 | 5520/7135 [5:02:00<1:23:10,  3.09s/it] 77%|██████████████████████████████████████████████████████████▊                 | 5521/7135 [5:02:03<1:26:00,  3.20s/it] 77%|██████████████████████████████████████████████████████████▊                 | 5522/7135 [5:02:06<1:23:42,  3.11s/it] 77%|██████████████████████████████████████████████████████████▊                 | 5523/7135 [5:02:09<1:25:38,  3.19s/it] 77%|██████████████████████████████████████████████████████████▊                 | 5524/7135 [5:02:12<1:24:12,  3.14s/it] 77%|██████████████████████████████████████████████████████████▊                 | 5525/7135 [5:02:16<1:29:35,  3.34s/it] 77%|██████████████████████████████████████████████████████████▊                 | 5526/7135 [5:02:19<1:26:05,  3.21s/it] 77%|██████████████████████████████████████████████████████████▊                 | 5527/7135 [5:02:22<1:21:15,  3.03s/it] 77%|██████████████████████████████████████████████████████████▉                 | 5528/7135 [5:02:25<1:23:37,  3.12s/it] 77%|██████████████████████████████████████████████████████████▉                 | 5529/7135 [5:02:29<1:29:12,  3.33s/it] 78%|██████████████████████████████████████████████████████████▉                 | 5530/7135 [5:02:32<1:25:48,  3.21s/it]                                                                                                                         {'loss': 0.7767, 'grad_norm': 4.65625, 'learning_rate': 6.158530203587651e-07, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 501.32, 'epoch': 7.75}
 78%|██████████████████████████████████████████████████████████▉                 | 5530/7135 [5:02:32<1:25:48,  3.21s/it] 78%|██████████████████████████████████████████████████████████▉                 | 5531/7135 [5:02:35<1:25:39,  3.20s/it] 78%|██████████████████████████████████████████████████████████▉                 | 5532/7135 [5:02:38<1:24:04,  3.15s/it] 78%|██████████████████████████████████████████████████████████▉                 | 5533/7135 [5:02:42<1:29:12,  3.34s/it] 78%|██████████████████████████████████████████████████████████▉                 | 5534/7135 [5:02:45<1:25:09,  3.19s/it] 78%|██████████████████████████████████████████████████████████▉                 | 5535/7135 [5:02:48<1:26:54,  3.26s/it] 78%|██████████████████████████████████████████████████████████▉                 | 5536/7135 [5:02:51<1:25:12,  3.20s/it] 78%|██████████████████████████████████████████████████████████▉                 | 5537/7135 [5:02:54<1:23:37,  3.14s/it] 78%|██████████████████████████████████████████████████████████▉                 | 5538/7135 [5:02:57<1:20:39,  3.03s/it] 78%|██████████████████████████████████████████████████████████▉                 | 5539/7135 [5:02:59<1:16:18,  2.87s/it] 78%|███████████████████████████████████████████████████████████                 | 5540/7135 [5:03:02<1:16:56,  2.89s/it]                                                                                                                         {'loss': 0.7167, 'grad_norm': 4.4375, 'learning_rate': 6.085340149216467e-07, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 395.92, 'epoch': 7.76}
 78%|███████████████████████████████████████████████████████████                 | 5540/7135 [5:03:02<1:16:56,  2.89s/it] 78%|███████████████████████████████████████████████████████████                 | 5541/7135 [5:03:05<1:17:48,  2.93s/it] 78%|███████████████████████████████████████████████████████████                 | 5542/7135 [5:03:09<1:19:47,  3.01s/it] 78%|███████████████████████████████████████████████████████████                 | 5543/7135 [5:03:13<1:27:01,  3.28s/it] 78%|███████████████████████████████████████████████████████████                 | 5544/7135 [5:03:16<1:25:20,  3.22s/it] 78%|███████████████████████████████████████████████████████████                 | 5545/7135 [5:03:18<1:22:13,  3.10s/it] 78%|███████████████████████████████████████████████████████████                 | 5546/7135 [5:03:21<1:21:35,  3.08s/it] 78%|███████████████████████████████████████████████████████████                 | 5547/7135 [5:03:25<1:27:14,  3.30s/it] 78%|███████████████████████████████████████████████████████████                 | 5548/7135 [5:03:29<1:27:05,  3.29s/it] 78%|███████████████████████████████████████████████████████████                 | 5549/7135 [5:03:32<1:25:52,  3.25s/it] 78%|███████████████████████████████████████████████████████████                 | 5550/7135 [5:03:35<1:29:14,  3.38s/it]                                                                                                                         {'loss': 0.7153, 'grad_norm': 5.65625, 'learning_rate': 6.012527292823059e-07, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 371.34, 'epoch': 7.77}
 78%|███████████████████████████████████████████████████████████                 | 5550/7135 [5:03:35<1:29:14,  3.38s/it] 78%|███████████████████████████████████████████████████████████▏                | 5551/7135 [5:03:39<1:27:56,  3.33s/it] 78%|███████████████████████████████████████████████████████████▏                | 5552/7135 [5:03:42<1:25:02,  3.22s/it] 78%|███████████████████████████████████████████████████████████▏                | 5553/7135 [5:03:45<1:26:41,  3.29s/it] 78%|███████████████████████████████████████████████████████████▏                | 5554/7135 [5:03:48<1:24:35,  3.21s/it] 78%|███████████████████████████████████████████████████████████▏                | 5555/7135 [5:03:51<1:22:43,  3.14s/it] 78%|███████████████████████████████████████████████████████████▏                | 5556/7135 [5:03:54<1:22:11,  3.12s/it] 78%|███████████████████████████████████████████████████████████▏                | 5557/7135 [5:03:57<1:23:51,  3.19s/it] 78%|███████████████████████████████████████████████████████████▏                | 5558/7135 [5:04:00<1:22:27,  3.14s/it] 78%|███████████████████████████████████████████████████████████▏                | 5559/7135 [5:04:04<1:21:44,  3.11s/it] 78%|███████████████████████████████████████████████████████████▏                | 5560/7135 [5:04:07<1:24:56,  3.24s/it]                                                                                                                         {'loss': 0.7611, 'grad_norm': 3.9375, 'learning_rate': 5.940093086448445e-07, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 353.97, 'epoch': 7.79}
 78%|███████████████████████████████████████████████████████████▏                | 5560/7135 [5:04:07<1:24:56,  3.24s/it] 78%|███████████████████████████████████████████████████████████▏                | 5561/7135 [5:04:11<1:31:56,  3.50s/it] 78%|███████████████████████████████████████████████████████████▏                | 5562/7135 [5:04:14<1:27:05,  3.32s/it] 78%|███████████████████████████████████████████████████████████▎                | 5563/7135 [5:04:17<1:26:11,  3.29s/it] 78%|███████████████████████████████████████████████████████████▎                | 5564/7135 [5:04:20<1:23:58,  3.21s/it] 78%|███████████████████████████████████████████████████████████▎                | 5565/7135 [5:04:23<1:20:54,  3.09s/it] 78%|███████████████████████████████████████████████████████████▎                | 5566/7135 [5:04:26<1:21:27,  3.12s/it] 78%|███████████████████████████████████████████████████████████▎                | 5567/7135 [5:04:29<1:19:25,  3.04s/it] 78%|███████████████████████████████████████████████████████████▎                | 5568/7135 [5:04:33<1:21:48,  3.13s/it] 78%|███████████████████████████████████████████████████████████▎                | 5569/7135 [5:04:36<1:25:45,  3.29s/it] 78%|███████████████████████████████████████████████████████████▎                | 5570/7135 [5:04:39<1:23:24,  3.20s/it]                                                                                                                         {'loss': 0.7016, 'grad_norm': 6.25, 'learning_rate': 5.868038974582598e-07, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 435.74, 'epoch': 7.8}
 78%|███████████████████████████████████████████████████████████▎                | 5570/7135 [5:04:39<1:23:24,  3.20s/it] 78%|███████████████████████████████████████████████████████████▎                | 5571/7135 [5:04:42<1:22:55,  3.18s/it] 78%|███████████████████████████████████████████████████████████▎                | 5572/7135 [5:04:46<1:24:02,  3.23s/it] 78%|███████████████████████████████████████████████████████████▎                | 5573/7135 [5:04:49<1:25:27,  3.28s/it] 78%|███████████████████████████████████████████████████████████▎                | 5574/7135 [5:04:53<1:28:58,  3.42s/it] 78%|███████████████████████████████████████████████████████████▍                | 5575/7135 [5:04:56<1:28:06,  3.39s/it] 78%|███████████████████████████████████████████████████████████▍                | 5576/7135 [5:04:59<1:25:30,  3.29s/it] 78%|███████████████████████████████████████████████████████████▍                | 5577/7135 [5:05:02<1:25:24,  3.29s/it] 78%|███████████████████████████████████████████████████████████▍                | 5578/7135 [5:05:06<1:28:37,  3.42s/it] 78%|███████████████████████████████████████████████████████████▍                | 5579/7135 [5:05:09<1:27:31,  3.38s/it] 78%|███████████████████████████████████████████████████████████▍                | 5580/7135 [5:05:13<1:29:01,  3.43s/it]                                                                                                                         {'loss': 0.7604, 'grad_norm': 4.8125, 'learning_rate': 5.796366394135586e-07, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 375.7, 'epoch': 7.82}
 78%|███████████████████████████████████████████████████████████▍                | 5580/7135 [5:05:13<1:29:01,  3.43s/it] 78%|███████████████████████████████████████████████████████████▍                | 5581/7135 [5:05:16<1:25:13,  3.29s/it] 78%|███████████████████████████████████████████████████████████▍                | 5582/7135 [5:05:20<1:27:13,  3.37s/it] 78%|███████████████████████████████████████████████████████████▍                | 5583/7135 [5:05:22<1:23:43,  3.24s/it] 78%|███████████████████████████████████████████████████████████▍                | 5584/7135 [5:05:27<1:33:52,  3.63s/it] 78%|███████████████████████████████████████████████████████████▍                | 5585/7135 [5:05:30<1:27:22,  3.38s/it] 78%|███████████████████████████████████████████████████████████▌                | 5586/7135 [5:05:33<1:24:01,  3.25s/it] 78%|███████████████████████████████████████████████████████████▌                | 5587/7135 [5:05:36<1:22:55,  3.21s/it] 78%|███████████████████████████████████████████████████████████▌                | 5588/7135 [5:05:39<1:20:52,  3.14s/it] 78%|███████████████████████████████████████████████████████████▌                | 5589/7135 [5:05:42<1:24:16,  3.27s/it] 78%|███████████████████████████████████████████████████████████▌                | 5590/7135 [5:05:46<1:22:52,  3.22s/it]                                                                                                                         {'loss': 0.8343, 'grad_norm': 4.125, 'learning_rate': 5.725076774408944e-07, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 524.62, 'epoch': 7.83}
 78%|███████████████████████████████████████████████████████████▌                | 5590/7135 [5:05:46<1:22:52,  3.22s/it] 78%|███████████████████████████████████████████████████████████▌                | 5591/7135 [5:05:49<1:21:21,  3.16s/it] 78%|███████████████████████████████████████████████████████████▌                | 5592/7135 [5:05:52<1:19:49,  3.10s/it] 78%|███████████████████████████████████████████████████████████▌                | 5593/7135 [5:05:55<1:20:42,  3.14s/it] 78%|███████████████████████████████████████████████████████████▌                | 5594/7135 [5:05:58<1:25:26,  3.33s/it] 78%|███████████████████████████████████████████████████████████▌                | 5595/7135 [5:06:02<1:23:25,  3.25s/it] 78%|███████████████████████████████████████████████████████████▌                | 5596/7135 [5:06:05<1:23:31,  3.26s/it] 78%|███████████████████████████████████████████████████████████▌                | 5597/7135 [5:06:08<1:23:50,  3.27s/it] 78%|███████████████████████████████████████████████████████████▋                | 5598/7135 [5:06:11<1:22:54,  3.24s/it] 78%|███████████████████████████████████████████████████████████▋                | 5599/7135 [5:06:14<1:18:10,  3.05s/it] 78%|███████████████████████████████████████████████████████████▋                | 5600/7135 [5:06:17<1:19:36,  3.11s/it]                                                                                                                         {'loss': 0.8414, 'grad_norm': 6.15625, 'learning_rate': 5.654171537067172e-07, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 432.36, 'epoch': 7.84}
 78%|███████████████████████████████████████████████████████████▋                | 5600/7135 [5:06:17<1:19:36,  3.11s/it] 79%|███████████████████████████████████████████████████████████▋                | 5601/7135 [5:06:20<1:18:10,  3.06s/it] 79%|███████████████████████████████████████████████████████████▋                | 5602/7135 [5:06:24<1:21:34,  3.19s/it] 79%|███████████████████████████████████████████████████████████▋                | 5603/7135 [5:06:27<1:23:11,  3.26s/it] 79%|███████████████████████████████████████████████████████████▋                | 5604/7135 [5:06:30<1:23:43,  3.28s/it] 79%|███████████████████████████████████████████████████████████▋                | 5605/7135 [5:06:33<1:22:35,  3.24s/it] 79%|███████████████████████████████████████████████████████████▋                | 5606/7135 [5:06:37<1:22:13,  3.23s/it] 79%|███████████████████████████████████████████████████████████▋                | 5607/7135 [5:06:40<1:19:29,  3.12s/it] 79%|███████████████████████████████████████████████████████████▋                | 5608/7135 [5:06:43<1:20:23,  3.16s/it] 79%|███████████████████████████████████████████████████████████▋                | 5609/7135 [5:06:46<1:21:01,  3.19s/it] 79%|███████████████████████████████████████████████████████████▊                | 5610/7135 [5:06:49<1:22:10,  3.23s/it]                                                                                                                         {'loss': 0.7265, 'grad_norm': 4.46875, 'learning_rate': 5.583652096109368e-07, 'memory/max_active (GiB)': 37.46, 'memory/max_allocated (GiB)': 37.46, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 398.18, 'epoch': 7.86}
 79%|███████████████████████████████████████████████████████████▊                | 5610/7135 [5:06:49<1:22:10,  3.23s/it] 79%|███████████████████████████████████████████████████████████▊                | 5611/7135 [5:06:52<1:20:25,  3.17s/it] 79%|███████████████████████████████████████████████████████████▊                | 5612/7135 [5:06:56<1:20:49,  3.18s/it] 79%|███████████████████████████████████████████████████████████▊                | 5613/7135 [5:06:58<1:16:52,  3.03s/it] 79%|███████████████████████████████████████████████████████████▊                | 5614/7135 [5:07:02<1:20:48,  3.19s/it] 79%|███████████████████████████████████████████████████████████▊                | 5615/7135 [5:07:05<1:18:18,  3.09s/it] 79%|███████████████████████████████████████████████████████████▊                | 5616/7135 [5:07:08<1:20:11,  3.17s/it] 79%|███████████████████████████████████████████████████████████▊                | 5617/7135 [5:07:11<1:19:26,  3.14s/it] 79%|███████████████████████████████████████████████████████████▊                | 5618/7135 [5:07:14<1:20:03,  3.17s/it] 79%|███████████████████████████████████████████████████████████▊                | 5619/7135 [5:07:17<1:18:06,  3.09s/it] 79%|███████████████████████████████████████████████████████████▊                | 5620/7135 [5:07:21<1:21:10,  3.21s/it]                                                                                                                         {'loss': 0.6622, 'grad_norm': 4.6875, 'learning_rate': 5.513519857841066e-07, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 338.0, 'epoch': 7.87}
 79%|███████████████████████████████████████████████████████████▊                | 5620/7135 [5:07:21<1:21:10,  3.21s/it] 79%|███████████████████████████████████████████████████████████▊                | 5621/7135 [5:07:24<1:19:02,  3.13s/it] 79%|███████████████████████████████████████████████████████████▉                | 5622/7135 [5:07:27<1:20:09,  3.18s/it] 79%|███████████████████████████████████████████████████████████▉                | 5623/7135 [5:07:30<1:18:49,  3.13s/it] 79%|███████████████████████████████████████████████████████████▉                | 5624/7135 [5:07:34<1:22:21,  3.27s/it] 79%|███████████████████████████████████████████████████████████▉                | 5625/7135 [5:07:37<1:19:50,  3.17s/it] 79%|███████████████████████████████████████████████████████████▉                | 5626/7135 [5:07:40<1:18:03,  3.10s/it] 79%|███████████████████████████████████████████████████████████▉                | 5627/7135 [5:07:43<1:21:57,  3.26s/it] 79%|███████████████████████████████████████████████████████████▉                | 5628/7135 [5:07:46<1:20:25,  3.20s/it] 79%|███████████████████████████████████████████████████████████▉                | 5629/7135 [5:07:49<1:15:49,  3.02s/it] 79%|███████████████████████████████████████████████████████████▉                | 5630/7135 [5:07:52<1:16:30,  3.05s/it]                                                                                                                         {'loss': 0.6463, 'grad_norm': 4.40625, 'learning_rate': 5.443776220846139e-07, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 393.29, 'epoch': 7.89}
 79%|███████████████████████████████████████████████████████████▉                | 5630/7135 [5:07:52<1:16:30,  3.05s/it] 79%|███████████████████████████████████████████████████████████▉                | 5631/7135 [5:07:55<1:14:43,  2.98s/it] 79%|███████████████████████████████████████████████████████████▉                | 5632/7135 [5:07:58<1:16:25,  3.05s/it] 79%|████████████████████████████████████████████████████████████                | 5633/7135 [5:08:01<1:13:58,  2.96s/it] 79%|████████████████████████████████████████████████████████████                | 5634/7135 [5:08:04<1:14:33,  2.98s/it] 79%|████████████████████████████████████████████████████████████                | 5635/7135 [5:08:07<1:13:13,  2.93s/it] 79%|████████████████████████████████████████████████████████████                | 5636/7135 [5:08:09<1:12:32,  2.90s/it] 79%|████████████████████████████████████████████████████████████                | 5637/7135 [5:08:13<1:18:23,  3.14s/it] 79%|████████████████████████████████████████████████████████████                | 5638/7135 [5:08:16<1:17:58,  3.13s/it] 79%|████████████████████████████████████████████████████████████                | 5639/7135 [5:08:20<1:20:02,  3.21s/it] 79%|████████████████████████████████████████████████████████████                | 5640/7135 [5:08:23<1:22:27,  3.31s/it]                                                                                                                         {'loss': 0.7038, 'grad_norm': 4.125, 'learning_rate': 5.374422575958949e-07, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 356.32, 'epoch': 7.9}
 79%|████████████████████████████████████████████████████████████                | 5640/7135 [5:08:23<1:22:27,  3.31s/it] 79%|████████████████████████████████████████████████████████████                | 5641/7135 [5:08:26<1:18:22,  3.15s/it] 79%|████████████████████████████████████████████████████████████                | 5642/7135 [5:08:29<1:17:55,  3.13s/it] 79%|████████████████████████████████████████████████████████████                | 5643/7135 [5:08:32<1:18:00,  3.14s/it] 79%|████████████████████████████████████████████████████████████                | 5644/7135 [5:08:36<1:21:07,  3.26s/it] 79%|████████████████████████████████████████████████████████████▏               | 5645/7135 [5:08:39<1:21:00,  3.26s/it] 79%|████████████████████████████████████████████████████████████▏               | 5646/7135 [5:08:43<1:24:36,  3.41s/it] 79%|████████████████████████████████████████████████████████████▏               | 5647/7135 [5:08:46<1:20:59,  3.27s/it] 79%|████████████████████████████████████████████████████████████▏               | 5648/7135 [5:08:49<1:21:40,  3.30s/it] 79%|████████████████████████████████████████████████████████████▏               | 5649/7135 [5:08:52<1:18:27,  3.17s/it] 79%|████████████████████████████████████████████████████████████▏               | 5650/7135 [5:08:55<1:16:46,  3.10s/it]                                                                                                                         {'loss': 0.8126, 'grad_norm': 4.6875, 'learning_rate': 5.305460306236601e-07, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 471.92, 'epoch': 7.91}
 79%|████████████████████████████████████████████████████████████▏               | 5650/7135 [5:08:55<1:16:46,  3.10s/it] 79%|████████████████████████████████████████████████████████████▏               | 5651/7135 [5:08:58<1:16:48,  3.11s/it] 79%|████████████████████████████████████████████████████████████▏               | 5652/7135 [5:09:01<1:14:56,  3.03s/it] 79%|████████████████████████████████████████████████████████████▏               | 5653/7135 [5:09:04<1:14:30,  3.02s/it] 79%|████████████████████████████████████████████████████████████▏               | 5654/7135 [5:09:08<1:21:17,  3.29s/it] 79%|████████████████████████████████████████████████████████████▏               | 5655/7135 [5:09:11<1:20:15,  3.25s/it] 79%|████████████████████████████████████████████████████████████▏               | 5656/7135 [5:09:14<1:17:53,  3.16s/it] 79%|████████████████████████████████████████████████████████████▎               | 5657/7135 [5:09:17<1:16:49,  3.12s/it] 79%|████████████████████████████████████████████████████████████▎               | 5658/7135 [5:09:20<1:17:06,  3.13s/it] 79%|████████████████████████████████████████████████████████████▎               | 5659/7135 [5:09:23<1:17:28,  3.15s/it] 79%|████████████████████████████████████████████████████████████▎               | 5660/7135 [5:09:26<1:15:57,  3.09s/it]                                                                                                                         {'loss': 0.8021, 'grad_norm': 24.75, 'learning_rate': 5.236890786931354e-07, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 426.91, 'epoch': 7.93}
 79%|████████████████████████████████████████████████████████████▎               | 5660/7135 [5:09:26<1:15:57,  3.09s/it] 79%|████████████████████████████████████████████████████████████▎               | 5661/7135 [5:09:29<1:16:20,  3.11s/it] 79%|████████████████████████████████████████████████████████████▎               | 5662/7135 [5:09:32<1:15:02,  3.06s/it] 79%|████████████████████████████████████████████████████████████▎               | 5663/7135 [5:09:35<1:13:32,  3.00s/it] 79%|████████████████████████████████████████████████████████████▎               | 5664/7135 [5:09:38<1:15:26,  3.08s/it] 79%|████████████████████████████████████████████████████████████▎               | 5665/7135 [5:09:42<1:17:08,  3.15s/it] 79%|████████████████████████████████████████████████████████████▎               | 5666/7135 [5:09:46<1:22:48,  3.38s/it] 79%|████████████████████████████████████████████████████████████▎               | 5667/7135 [5:09:49<1:19:43,  3.26s/it] 79%|████████████████████████████████████████████████████████████▎               | 5668/7135 [5:09:52<1:18:12,  3.20s/it] 79%|████████████████████████████████████████████████████████████▍               | 5669/7135 [5:09:55<1:17:53,  3.19s/it] 79%|████████████████████████████████████████████████████████████▍               | 5670/7135 [5:09:58<1:17:28,  3.17s/it]                                                                                                                         {'loss': 0.9243, 'grad_norm': 4.40625, 'learning_rate': 5.168715385463188e-07, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 425.21, 'epoch': 7.94}
 79%|████████████████████████████████████████████████████████████▍               | 5670/7135 [5:09:58<1:17:28,  3.17s/it] 79%|████████████████████████████████████████████████████████████▍               | 5671/7135 [5:10:01<1:19:27,  3.26s/it] 79%|████████████████████████████████████████████████████████████▍               | 5672/7135 [5:10:05<1:20:28,  3.30s/it] 80%|████████████████████████████████████████████████████████████▍               | 5673/7135 [5:10:08<1:18:30,  3.22s/it] 80%|████████████████████████████████████████████████████████████▍               | 5674/7135 [5:10:11<1:14:58,  3.08s/it] 80%|████████████████████████████████████████████████████████████▍               | 5675/7135 [5:10:14<1:17:05,  3.17s/it] 80%|████████████████████████████████████████████████████████████▍               | 5676/7135 [5:10:17<1:16:22,  3.14s/it] 80%|████████████████████████████████████████████████████████████▍               | 5677/7135 [5:10:20<1:14:39,  3.07s/it] 80%|████████████████████████████████████████████████████████████▍               | 5678/7135 [5:10:23<1:13:40,  3.03s/it] 80%|████████████████████████████████████████████████████████████▍               | 5679/7135 [5:10:26<1:14:02,  3.05s/it] 80%|████████████████████████████████████████████████████████████▌               | 5680/7135 [5:10:29<1:14:42,  3.08s/it]                                                                                                                         {'loss': 0.7167, 'grad_norm': 6.625, 'learning_rate': 5.100935461392578e-07, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 406.79, 'epoch': 7.96}
 80%|████████████████████████████████████████████████████████████▌               | 5680/7135 [5:10:29<1:14:42,  3.08s/it] 80%|████████████████████████████████████████████████████████████▌               | 5681/7135 [5:10:33<1:17:13,  3.19s/it] 80%|████████████████████████████████████████████████████████████▌               | 5682/7135 [5:10:36<1:15:49,  3.13s/it] 80%|████████████████████████████████████████████████████████████▌               | 5683/7135 [5:10:39<1:16:12,  3.15s/it] 80%|████████████████████████████████████████████████████████████▌               | 5684/7135 [5:10:42<1:17:50,  3.22s/it] 80%|████████████████████████████████████████████████████████████▌               | 5685/7135 [5:10:45<1:15:40,  3.13s/it] 80%|████████████████████████████████████████████████████████████▌               | 5686/7135 [5:10:48<1:15:02,  3.11s/it] 80%|████████████████████████████████████████████████████████████▌               | 5687/7135 [5:10:51<1:12:16,  3.00s/it] 80%|████████████████████████████████████████████████████████████▌               | 5688/7135 [5:10:54<1:11:23,  2.96s/it] 80%|████████████████████████████████████████████████████████████▌               | 5689/7135 [5:10:57<1:12:55,  3.03s/it] 80%|████████████████████████████████████████████████████████████▌               | 5690/7135 [5:11:00<1:13:26,  3.05s/it]                                                                                                                         {'loss': 0.7563, 'grad_norm': 4.03125, 'learning_rate': 5.033552366393318e-07, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 381.28, 'epoch': 7.97}
 80%|████████████████████████████████████████████████████████████▌               | 5690/7135 [5:11:00<1:13:26,  3.05s/it] 80%|████████████████████████████████████████████████████████████▌               | 5691/7135 [5:11:03<1:13:44,  3.06s/it] 80%|████████████████████████████████████████████████████████████▋               | 5692/7135 [5:11:06<1:12:53,  3.03s/it] 80%|████████████████████████████████████████████████████████████▋               | 5693/7135 [5:11:09<1:12:41,  3.02s/it] 80%|████████████████████████████████████████████████████████████▋               | 5694/7135 [5:11:12<1:13:01,  3.04s/it] 80%|████████████████████████████████████████████████████████████▋               | 5695/7135 [5:11:15<1:13:25,  3.06s/it] 80%|████████████████████████████████████████████████████████████▋               | 5696/7135 [5:11:19<1:15:11,  3.14s/it] 80%|████████████████████████████████████████████████████████████▋               | 5697/7135 [5:11:22<1:16:43,  3.20s/it] 80%|████████████████████████████████████████████████████████████▋               | 5698/7135 [5:11:25<1:13:53,  3.09s/it] 80%|████████████████████████████████████████████████████████████▋               | 5699/7135 [5:11:28<1:15:13,  3.14s/it] 80%|████████████████████████████████████████████████████████████▋               | 5700/7135 [5:11:31<1:17:38,  3.25s/it]                                                                                                                         {'loss': 0.7837, 'grad_norm': 4.71875, 'learning_rate': 4.966567444225615e-07, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 307.09, 'epoch': 7.98}
 80%|████████████████████████████████████████████████████████████▋               | 5700/7135 [5:11:32<1:17:38,  3.25s/it] 80%|████████████████████████████████████████████████████████████▋               | 5701/7135 [5:11:35<1:16:39,  3.21s/it] 80%|████████████████████████████████████████████████████████████▋               | 5702/7135 [5:11:38<1:16:15,  3.19s/it] 80%|████████████████████████████████████████████████████████████▋               | 5703/7135 [5:11:41<1:19:38,  3.34s/it] 80%|████████████████████████████████████████████████████████████▊               | 5704/7135 [5:11:45<1:22:08,  3.44s/it] 80%|████████████████████████████████████████████████████████████▊               | 5705/7135 [5:11:48<1:21:02,  3.40s/it] 80%|████████████████████████████████████████████████████████████▊               | 5706/7135 [5:11:51<1:17:11,  3.24s/it] 80%|████████████████████████████████████████████████████████████▊               | 5707/7135 [5:11:54<1:14:13,  3.12s/it] 80%|████████████████████████████████████████████████████████████▊               | 5708/7135 [5:11:57<1:14:53,  3.15s/it] 80%|████████████████████████████████████████████████████████████▊               | 5709/7135 [5:12:01<1:17:28,  3.26s/it] 80%|████████████████████████████████████████████████████████████▊               | 5710/7135 [5:12:05<1:23:23,  3.51s/it]                                                                                                                         {'loss': 0.6566, 'grad_norm': 4.625, 'learning_rate': 4.899982030709268e-07, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 276.36, 'epoch': 8.0}
 80%|████████████████████████████████████████████████████████████▊               | 5710/7135 [5:12:05<1:23:23,  3.51s/it] 80%|████████████████████████████████████████████████████████████▊               | 5711/7135 [5:12:08<1:21:06,  3.42s/it] 80%|████████████████████████████████████████████████████████████▊               | 5712/7135 [5:12:10<1:07:09,  2.83s/it][2025-12-23 19:36:15,798] [INFO] [axolotl.core.trainers.base._save:671] [PID:5064] Saving model checkpoint to ./outputs/qwen3-4b-instruct-abd-full-train/checkpoint-5712
 80%|████████████████████████████████████████████████████████████▊               | 5713/7135 [5:13:12<8:10:46, 20.71s/it] 80%|████████████████████████████████████████████████████████████▊               | 5714/7135 [5:13:15<6:04:53, 15.41s/it] 80%|████████████████████████████████████████████████████████████▊               | 5715/7135 [5:13:18<4:39:01, 11.79s/it] 80%|████████████████████████████████████████████████████████████▉               | 5716/7135 [5:13:21<3:35:53,  9.13s/it] 80%|████████████████████████████████████████████████████████████▉               | 5717/7135 [5:13:25<2:54:14,  7.37s/it] 80%|████████████████████████████████████████████████████████████▉               | 5718/7135 [5:13:27<2:21:59,  6.01s/it] 80%|████████████████████████████████████████████████████████████▉               | 5719/7135 [5:13:30<2:00:00,  5.08s/it] 80%|████████████████████████████████████████████████████████████▉               | 5720/7135 [5:13:33<1:44:32,  4.43s/it]                                                                                                                         {'loss': 0.7456, 'grad_norm': 5.40625, 'learning_rate': 4.833797453697045e-07, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 375.96, 'epoch': 8.01}
 80%|████████████████████████████████████████████████████████████▉               | 5720/7135 [5:13:33<1:44:32,  4.43s/it] 80%|████████████████████████████████████████████████████████████▉               | 5721/7135 [5:13:36<1:34:29,  4.01s/it] 80%|████████████████████████████████████████████████████████████▉               | 5722/7135 [5:13:40<1:29:02,  3.78s/it] 80%|████████████████████████████████████████████████████████████▉               | 5723/7135 [5:13:43<1:23:10,  3.53s/it] 80%|████████████████████████████████████████████████████████████▉               | 5724/7135 [5:13:45<1:18:52,  3.35s/it] 80%|████████████████████████████████████████████████████████████▉               | 5725/7135 [5:13:49<1:19:06,  3.37s/it] 80%|████████████████████████████████████████████████████████████▉               | 5726/7135 [5:13:53<1:24:12,  3.59s/it] 80%|█████████████████████████████████████████████████████████████               | 5727/7135 [5:13:56<1:21:28,  3.47s/it] 80%|█████████████████████████████████████████████████████████████               | 5728/7135 [5:14:00<1:20:26,  3.43s/it] 80%|█████████████████████████████████████████████████████████████               | 5729/7135 [5:14:03<1:23:20,  3.56s/it] 80%|█████████████████████████████████████████████████████████████               | 5730/7135 [5:14:06<1:18:41,  3.36s/it]                                                                                                                         {'loss': 0.8197, 'grad_norm': 4.46875, 'learning_rate': 4.768015033048179e-07, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 483.06, 'epoch': 8.03}
 80%|█████████████████████████████████████████████████████████████               | 5730/7135 [5:14:06<1:18:41,  3.36s/it] 80%|█████████████████████████████████████████████████████████████               | 5731/7135 [5:14:10<1:18:36,  3.36s/it] 80%|█████████████████████████████████████████████████████████████               | 5732/7135 [5:14:14<1:22:13,  3.52s/it] 80%|█████████████████████████████████████████████████████████████               | 5733/7135 [5:14:17<1:18:47,  3.37s/it] 80%|█████████████████████████████████████████████████████████████               | 5734/7135 [5:14:20<1:16:24,  3.27s/it] 80%|█████████████████████████████████████████████████████████████               | 5735/7135 [5:14:23<1:16:24,  3.27s/it] 80%|█████████████████████████████████████████████████████████████               | 5736/7135 [5:14:26<1:17:37,  3.33s/it] 80%|█████████████████████████████████████████████████████████████               | 5737/7135 [5:14:30<1:16:58,  3.30s/it] 80%|█████████████████████████████████████████████████████████████               | 5738/7135 [5:14:33<1:16:46,  3.30s/it] 80%|█████████████████████████████████████████████████████████████▏              | 5739/7135 [5:14:36<1:15:15,  3.23s/it] 80%|█████████████████████████████████████████████████████████████▏              | 5740/7135 [5:14:39<1:15:08,  3.23s/it]                                                                                                                         {'loss': 0.703, 'grad_norm': 5.84375, 'learning_rate': 4.70263608060208e-07, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 383.17, 'epoch': 8.04}
 80%|█████████████████████████████████████████████████████████████▏              | 5740/7135 [5:14:39<1:15:08,  3.23s/it] 80%|█████████████████████████████████████████████████████████████▏              | 5741/7135 [5:14:43<1:18:22,  3.37s/it] 80%|█████████████████████████████████████████████████████████████▏              | 5742/7135 [5:14:46<1:18:19,  3.37s/it] 80%|█████████████████████████████████████████████████████████████▏              | 5743/7135 [5:14:49<1:14:35,  3.21s/it] 81%|█████████████████████████████████████████████████████████████▏              | 5744/7135 [5:14:54<1:24:31,  3.65s/it] 81%|█████████████████████████████████████████████████████████████▏              | 5745/7135 [5:14:57<1:23:28,  3.60s/it] 81%|█████████████████████████████████████████████████████████████▏              | 5746/7135 [5:15:00<1:20:45,  3.49s/it] 81%|█████████████████████████████████████████████████████████████▏              | 5747/7135 [5:15:04<1:18:10,  3.38s/it] 81%|█████████████████████████████████████████████████████████████▏              | 5748/7135 [5:15:07<1:18:26,  3.39s/it] 81%|█████████████████████████████████████████████████████████████▏              | 5749/7135 [5:15:10<1:15:44,  3.28s/it] 81%|█████████████████████████████████████████████████████████████▏              | 5750/7135 [5:15:13<1:13:37,  3.19s/it]                                                                                                                         {'loss': 0.7546, 'grad_norm': 4.65625, 'learning_rate': 4.637661900152143e-07, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 526.38, 'epoch': 8.05}
 81%|█████████████████████████████████████████████████████████████▏              | 5750/7135 [5:15:13<1:13:37,  3.19s/it] 81%|█████████████████████████████████████████████████████████████▎              | 5751/7135 [5:15:16<1:10:47,  3.07s/it] 81%|█████████████████████████████████████████████████████████████▎              | 5752/7135 [5:15:19<1:10:30,  3.06s/it] 81%|█████████████████████████████████████████████████████████████▎              | 5753/7135 [5:15:22<1:13:05,  3.17s/it] 81%|█████████████████████████████████████████████████████████████▎              | 5754/7135 [5:15:25<1:12:28,  3.15s/it] 81%|█████████████████████████████████████████████████████████████▎              | 5755/7135 [5:15:28<1:12:23,  3.15s/it] 81%|█████████████████████████████████████████████████████████████▎              | 5756/7135 [5:15:31<1:10:15,  3.06s/it] 81%|█████████████████████████████████████████████████████████████▎              | 5757/7135 [5:15:35<1:13:12,  3.19s/it] 81%|█████████████████████████████████████████████████████████████▎              | 5758/7135 [5:15:38<1:11:01,  3.09s/it] 81%|█████████████████████████████████████████████████████████████▎              | 5759/7135 [5:15:41<1:08:53,  3.00s/it] 81%|█████████████████████████████████████████████████████████████▎              | 5760/7135 [5:15:44<1:11:16,  3.11s/it]                                                                                                                         {'loss': 0.7656, 'grad_norm': 6.5625, 'learning_rate': 4.573093787419758e-07, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 319.88, 'epoch': 8.07}
 81%|█████████████████████████████████████████████████████████████▎              | 5760/7135 [5:15:44<1:11:16,  3.11s/it] 81%|█████████████████████████████████████████████████████████████▎              | 5761/7135 [5:15:47<1:09:52,  3.05s/it] 81%|█████████████████████████████████████████████████████████████▍              | 5762/7135 [5:15:50<1:10:24,  3.08s/it] 81%|█████████████████████████████████████████████████████████████▍              | 5763/7135 [5:15:54<1:18:40,  3.44s/it] 81%|█████████████████████████████████████████████████████████████▍              | 5764/7135 [5:15:57<1:14:59,  3.28s/it] 81%|█████████████████████████████████████████████████████████████▍              | 5765/7135 [5:16:00<1:13:49,  3.23s/it] 81%|█████████████████████████████████████████████████████████████▍              | 5766/7135 [5:16:04<1:17:13,  3.38s/it] 81%|█████████████████████████████████████████████████████████████▍              | 5767/7135 [5:16:07<1:14:25,  3.26s/it] 81%|█████████████████████████████████████████████████████████████▍              | 5768/7135 [5:16:10<1:11:33,  3.14s/it] 81%|█████████████████████████████████████████████████████████████▍              | 5769/7135 [5:16:13<1:11:06,  3.12s/it] 81%|█████████████████████████████████████████████████████████████▍              | 5770/7135 [5:16:16<1:11:59,  3.16s/it]                                                                                                                         {'loss': 0.768, 'grad_norm': 4.0625, 'learning_rate': 4.508933030028492e-07, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 332.38, 'epoch': 8.08}
 81%|█████████████████████████████████████████████████████████████▍              | 5770/7135 [5:16:16<1:11:59,  3.16s/it] 81%|█████████████████████████████████████████████████████████████▍              | 5771/7135 [5:16:19<1:13:05,  3.22s/it] 81%|█████████████████████████████████████████████████████████████▍              | 5772/7135 [5:16:23<1:16:57,  3.39s/it] 81%|█████████████████████████████████████████████████████████████▍              | 5773/7135 [5:16:26<1:14:54,  3.30s/it] 81%|█████████████████████████████████████████████████████████████▌              | 5774/7135 [5:16:30<1:18:05,  3.44s/it] 81%|█████████████████████████████████████████████████████████████▌              | 5775/7135 [5:16:33<1:15:13,  3.32s/it] 81%|█████████████████████████████████████████████████████████████▌              | 5776/7135 [5:16:37<1:20:15,  3.54s/it] 81%|█████████████████████████████████████████████████████████████▌              | 5777/7135 [5:16:40<1:17:49,  3.44s/it] 81%|█████████████████████████████████████████████████████████████▌              | 5778/7135 [5:16:43<1:13:33,  3.25s/it] 81%|█████████████████████████████████████████████████████████████▌              | 5779/7135 [5:16:46<1:13:28,  3.25s/it] 81%|█████████████████████████████████████████████████████████████▌              | 5780/7135 [5:16:49<1:11:25,  3.16s/it]                                                                                                                         {'loss': 0.7265, 'grad_norm': 4.8125, 'learning_rate': 4.4451809074783747e-07, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 500.22, 'epoch': 8.1}
 81%|█████████████████████████████████████████████████████████████▌              | 5780/7135 [5:16:49<1:11:25,  3.16s/it] 81%|█████████████████████████████████████████████████████████████▌              | 5781/7135 [5:16:53<1:15:36,  3.35s/it] 81%|█████████████████████████████████████████████████████████████▌              | 5782/7135 [5:16:57<1:15:10,  3.33s/it] 81%|█████████████████████████████████████████████████████████████▌              | 5783/7135 [5:17:00<1:14:19,  3.30s/it] 81%|█████████████████████████████████████████████████████████████▌              | 5784/7135 [5:17:03<1:14:02,  3.29s/it] 81%|█████████████████████████████████████████████████████████████▌              | 5785/7135 [5:17:06<1:14:51,  3.33s/it] 81%|█████████████████████████████████████████████████████████████▋              | 5786/7135 [5:17:10<1:13:29,  3.27s/it] 81%|█████████████████████████████████████████████████████████████▋              | 5787/7135 [5:17:13<1:15:04,  3.34s/it] 81%|█████████████████████████████████████████████████████████████▋              | 5788/7135 [5:17:16<1:10:48,  3.15s/it] 81%|█████████████████████████████████████████████████████████████▋              | 5789/7135 [5:17:19<1:09:43,  3.11s/it] 81%|█████████████████████████████████████████████████████████████▋              | 5790/7135 [5:17:22<1:12:51,  3.25s/it]                                                                                                                         {'loss': 0.7172, 'grad_norm': 4.25, 'learning_rate': 4.3818386911203994e-07, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 363.78, 'epoch': 8.11}
 81%|█████████████████████████████████████████████████████████████▋              | 5790/7135 [5:17:22<1:12:51,  3.25s/it] 81%|█████████████████████████████████████████████████████████████▋              | 5791/7135 [5:17:25<1:10:21,  3.14s/it] 81%|█████████████████████████████████████████████████████████████▋              | 5792/7135 [5:17:28<1:10:31,  3.15s/it] 81%|█████████████████████████████████████████████████████████████▋              | 5793/7135 [5:17:31<1:07:46,  3.03s/it] 81%|█████████████████████████████████████████████████████████████▋              | 5794/7135 [5:17:34<1:07:43,  3.03s/it] 81%|█████████████████████████████████████████████████████████████▋              | 5795/7135 [5:17:38<1:11:01,  3.18s/it] 81%|█████████████████████████████████████████████████████████████▋              | 5796/7135 [5:17:41<1:09:03,  3.09s/it] 81%|█████████████████████████████████████████████████████████████▋              | 5797/7135 [5:17:44<1:08:55,  3.09s/it] 81%|█████████████████████████████████████████████████████████████▊              | 5798/7135 [5:17:47<1:09:56,  3.14s/it] 81%|█████████████████████████████████████████████████████████████▊              | 5799/7135 [5:17:50<1:09:41,  3.13s/it] 81%|█████████████████████████████████████████████████████████████▊              | 5800/7135 [5:17:53<1:09:39,  3.13s/it]                                                                                                                         {'loss': 0.7705, 'grad_norm': 5.96875, 'learning_rate': 4.3189076441311846e-07, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 350.58, 'epoch': 8.12}
 81%|█████████████████████████████████████████████████████████████▊              | 5800/7135 [5:17:53<1:09:39,  3.13s/it] 81%|█████████████████████████████████████████████████████████████▊              | 5801/7135 [5:17:57<1:12:54,  3.28s/it] 81%|█████████████████████████████████████████████████████████████▊              | 5802/7135 [5:18:00<1:10:23,  3.17s/it] 81%|█████████████████████████████████████████████████████████████▊              | 5803/7135 [5:18:03<1:09:42,  3.14s/it] 81%|█████████████████████████████████████████████████████████████▊              | 5804/7135 [5:18:06<1:08:47,  3.10s/it] 81%|█████████████████████████████████████████████████████████████▊              | 5805/7135 [5:18:09<1:08:34,  3.09s/it] 81%|█████████████████████████████████████████████████████████████▊              | 5806/7135 [5:18:12<1:07:27,  3.05s/it] 81%|█████████████████████████████████████████████████████████████▊              | 5807/7135 [5:18:15<1:07:58,  3.07s/it] 81%|█████████████████████████████████████████████████████████████▊              | 5808/7135 [5:18:18<1:08:59,  3.12s/it] 81%|█████████████████████████████████████████████████████████████▉              | 5809/7135 [5:18:21<1:09:21,  3.14s/it] 81%|█████████████████████████████████████████████████████████████▉              | 5810/7135 [5:18:25<1:09:45,  3.16s/it]                                                                                                                         {'loss': 0.7794, 'grad_norm': 5.28125, 'learning_rate': 4.2563890214877613e-07, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 415.86, 'epoch': 8.14}
 81%|█████████████████████████████████████████████████████████████▉              | 5810/7135 [5:18:25<1:09:45,  3.16s/it] 81%|█████████████████████████████████████████████████████████████▉              | 5811/7135 [5:18:28<1:14:18,  3.37s/it] 81%|█████████████████████████████████████████████████████████████▉              | 5812/7135 [5:18:32<1:16:00,  3.45s/it] 81%|█████████████████████████████████████████████████████████████▉              | 5813/7135 [5:18:35<1:11:47,  3.26s/it] 81%|█████████████████████████████████████████████████████████████▉              | 5814/7135 [5:18:38<1:10:12,  3.19s/it] 81%|█████████████████████████████████████████████████████████████▉              | 5815/7135 [5:18:41<1:09:28,  3.16s/it] 82%|█████████████████████████████████████████████████████████████▉              | 5816/7135 [5:18:45<1:15:36,  3.44s/it] 82%|█████████████████████████████████████████████████████████████▉              | 5817/7135 [5:18:48<1:13:44,  3.36s/it] 82%|█████████████████████████████████████████████████████████████▉              | 5818/7135 [5:18:51<1:12:10,  3.29s/it] 82%|█████████████████████████████████████████████████████████████▉              | 5819/7135 [5:18:54<1:08:09,  3.11s/it] 82%|█████████████████████████████████████████████████████████████▉              | 5820/7135 [5:18:58<1:10:44,  3.23s/it]                                                                                                                         {'loss': 0.7105, 'grad_norm': 3.75, 'learning_rate': 4.1942840699425503e-07, 'memory/max_active (GiB)': 37.43, 'memory/max_allocated (GiB)': 37.43, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 359.3, 'epoch': 8.15}
 82%|█████████████████████████████████████████████████████████████▉              | 5820/7135 [5:18:58<1:10:44,  3.23s/it] 82%|██████████████████████████████████████████████████████████████              | 5821/7135 [5:19:01<1:08:58,  3.15s/it] 82%|██████████████████████████████████████████████████████████████              | 5822/7135 [5:19:03<1:07:04,  3.07s/it] 82%|██████████████████████████████████████████████████████████████              | 5823/7135 [5:19:06<1:06:30,  3.04s/it] 82%|██████████████████████████████████████████████████████████████              | 5824/7135 [5:19:09<1:06:05,  3.02s/it] 82%|██████████████████████████████████████████████████████████████              | 5825/7135 [5:19:13<1:09:08,  3.17s/it] 82%|██████████████████████████████████████████████████████████████              | 5826/7135 [5:19:16<1:08:10,  3.13s/it] 82%|██████████████████████████████████████████████████████████████              | 5827/7135 [5:19:19<1:05:50,  3.02s/it] 82%|██████████████████████████████████████████████████████████████              | 5828/7135 [5:19:22<1:05:30,  3.01s/it] 82%|██████████████████████████████████████████████████████████████              | 5829/7135 [5:19:25<1:09:26,  3.19s/it] 82%|██████████████████████████████████████████████████████████████              | 5830/7135 [5:19:28<1:08:29,  3.15s/it]                                                                                                                         {'loss': 0.6958, 'grad_norm': 5.9375, 'learning_rate': 4.1325940279985097e-07, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 338.44, 'epoch': 8.17}
 82%|██████████████████████████████████████████████████████████████              | 5830/7135 [5:19:28<1:08:29,  3.15s/it] 82%|██████████████████████████████████████████████████████████████              | 5831/7135 [5:19:32<1:08:35,  3.16s/it] 82%|██████████████████████████████████████████████████████████████              | 5832/7135 [5:19:35<1:09:25,  3.20s/it] 82%|██████████████████████████████████████████████████████████████▏             | 5833/7135 [5:19:38<1:11:25,  3.29s/it] 82%|██████████████████████████████████████████████████████████████▏             | 5834/7135 [5:19:42<1:10:45,  3.26s/it] 82%|██████████████████████████████████████████████████████████████▏             | 5835/7135 [5:19:44<1:06:53,  3.09s/it] 82%|██████████████████████████████████████████████████████████████▏             | 5836/7135 [5:19:47<1:07:51,  3.13s/it] 82%|██████████████████████████████████████████████████████████████▏             | 5837/7135 [5:19:50<1:07:08,  3.10s/it] 82%|██████████████████████████████████████████████████████████████▏             | 5838/7135 [5:19:54<1:10:43,  3.27s/it] 82%|██████████████████████████████████████████████████████████████▏             | 5839/7135 [5:19:57<1:07:42,  3.13s/it] 82%|██████████████████████████████████████████████████████████████▏             | 5840/7135 [5:20:00<1:07:02,  3.11s/it]                                                                                                                         {'loss': 0.7639, 'grad_norm': 4.90625, 'learning_rate': 4.071320125884426e-07, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 436.37, 'epoch': 8.18}
 82%|██████████████████████████████████████████████████████████████▏             | 5840/7135 [5:20:00<1:07:02,  3.11s/it] 82%|██████████████████████████████████████████████████████████████▏             | 5841/7135 [5:20:03<1:07:31,  3.13s/it] 82%|██████████████████████████████████████████████████████████████▏             | 5842/7135 [5:20:07<1:12:12,  3.35s/it] 82%|██████████████████████████████████████████████████████████████▏             | 5843/7135 [5:20:10<1:11:01,  3.30s/it] 82%|██████████████████████████████████████████████████████████████▏             | 5844/7135 [5:20:13<1:09:18,  3.22s/it] 82%|██████████████████████████████████████████████████████████████▎             | 5845/7135 [5:20:17<1:14:04,  3.44s/it] 82%|██████████████████████████████████████████████████████████████▎             | 5846/7135 [5:20:20<1:10:45,  3.29s/it] 82%|██████████████████████████████████████████████████████████████▎             | 5847/7135 [5:20:23<1:10:11,  3.27s/it] 82%|██████████████████████████████████████████████████████████████▎             | 5848/7135 [5:20:26<1:07:11,  3.13s/it] 82%|██████████████████████████████████████████████████████████████▎             | 5849/7135 [5:20:30<1:08:21,  3.19s/it] 82%|██████████████████████████████████████████████████████████████▎             | 5850/7135 [5:20:33<1:07:52,  3.17s/it]                                                                                                                         {'loss': 0.8066, 'grad_norm': 5.15625, 'learning_rate': 4.01046358553038e-07, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 436.44, 'epoch': 8.19}
 82%|██████████████████████████████████████████████████████████████▎             | 5850/7135 [5:20:33<1:07:52,  3.17s/it] 82%|██████████████████████████████████████████████████████████████▎             | 5851/7135 [5:20:35<1:05:02,  3.04s/it] 82%|██████████████████████████████████████████████████████████████▎             | 5852/7135 [5:20:38<1:04:29,  3.02s/it] 82%|██████████████████████████████████████████████████████████████▎             | 5853/7135 [5:20:42<1:06:00,  3.09s/it] 82%|██████████████████████████████████████████████████████████████▎             | 5854/7135 [5:20:45<1:05:01,  3.05s/it] 82%|██████████████████████████████████████████████████████████████▎             | 5855/7135 [5:20:50<1:17:11,  3.62s/it] 82%|██████████████████████████████████████████████████████████████▍             | 5856/7135 [5:20:52<1:11:16,  3.34s/it] 82%|██████████████████████████████████████████████████████████████▍             | 5857/7135 [5:20:55<1:10:39,  3.32s/it] 82%|██████████████████████████████████████████████████████████████▍             | 5858/7135 [5:20:59<1:09:26,  3.26s/it] 82%|██████████████████████████████████████████████████████████████▍             | 5859/7135 [5:21:02<1:13:11,  3.44s/it] 82%|██████████████████████████████████████████████████████████████▍             | 5860/7135 [5:21:06<1:14:50,  3.52s/it]                                                                                                                         {'loss': 0.765, 'grad_norm': 5.46875, 'learning_rate': 3.9500256205434045e-07, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 382.35, 'epoch': 8.21}
 82%|██████████████████████████████████████████████████████████████▍             | 5860/7135 [5:21:06<1:14:50,  3.52s/it] 82%|██████████████████████████████████████████████████████████████▍             | 5861/7135 [5:21:09<1:11:32,  3.37s/it] 82%|██████████████████████████████████████████████████████████████▍             | 5862/7135 [5:21:12<1:10:20,  3.32s/it] 82%|██████████████████████████████████████████████████████████████▍             | 5863/7135 [5:21:15<1:08:52,  3.25s/it] 82%|██████████████████████████████████████████████████████████████▍             | 5864/7135 [5:21:19<1:08:29,  3.23s/it] 82%|██████████████████████████████████████████████████████████████▍             | 5865/7135 [5:21:21<1:05:18,  3.09s/it] 82%|██████████████████████████████████████████████████████████████▍             | 5866/7135 [5:21:24<1:04:49,  3.06s/it] 82%|██████████████████████████████████████████████████████████████▍             | 5867/7135 [5:21:28<1:05:01,  3.08s/it] 82%|██████████████████████████████████████████████████████████████▌             | 5868/7135 [5:21:31<1:04:32,  3.06s/it] 82%|██████████████████████████████████████████████████████████████▌             | 5869/7135 [5:21:34<1:06:33,  3.15s/it] 82%|██████████████████████████████████████████████████████████████▌             | 5870/7135 [5:21:38<1:11:01,  3.37s/it]                                                                                                                         {'loss': 0.805, 'grad_norm': 5.96875, 'learning_rate': 3.8900074361832436e-07, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 301.35, 'epoch': 8.22}
 82%|██████████████████████████████████████████████████████████████▌             | 5870/7135 [5:21:38<1:11:01,  3.37s/it] 82%|██████████████████████████████████████████████████████████████▌             | 5871/7135 [5:21:41<1:09:46,  3.31s/it] 82%|██████████████████████████████████████████████████████████████▌             | 5872/7135 [5:21:44<1:09:01,  3.28s/it] 82%|██████████████████████████████████████████████████████████████▌             | 5873/7135 [5:21:47<1:07:53,  3.23s/it] 82%|██████████████████████████████████████████████████████████████▌             | 5874/7135 [5:21:50<1:07:40,  3.22s/it] 82%|██████████████████████████████████████████████████████████████▌             | 5875/7135 [5:21:53<1:05:49,  3.13s/it] 82%|██████████████████████████████████████████████████████████████▌             | 5876/7135 [5:21:56<1:05:21,  3.12s/it] 82%|██████████████████████████████████████████████████████████████▌             | 5877/7135 [5:22:00<1:05:40,  3.13s/it] 82%|██████████████████████████████████████████████████████████████▌             | 5878/7135 [5:22:03<1:05:26,  3.12s/it] 82%|██████████████████████████████████████████████████████████████▌             | 5879/7135 [5:22:06<1:08:55,  3.29s/it] 82%|██████████████████████████████████████████████████████████████▋             | 5880/7135 [5:22:10<1:08:34,  3.28s/it]                                                                                                                         {'loss': 0.7101, 'grad_norm': 5.09375, 'learning_rate': 3.83041022933833e-07, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 358.57, 'epoch': 8.24}
 82%|██████████████████████████████████████████████████████████████▋             | 5880/7135 [5:22:10<1:08:34,  3.28s/it] 82%|██████████████████████████████████████████████████████████████▋             | 5881/7135 [5:22:13<1:07:11,  3.21s/it] 82%|██████████████████████████████████████████████████████████████▋             | 5882/7135 [5:22:16<1:07:56,  3.25s/it] 82%|██████████████████████████████████████████████████████████████▋             | 5883/7135 [5:22:19<1:05:03,  3.12s/it] 82%|██████████████████████████████████████████████████████████████▋             | 5884/7135 [5:22:22<1:03:45,  3.06s/it] 82%|██████████████████████████████████████████████████████████████▋             | 5885/7135 [5:22:25<1:03:19,  3.04s/it] 82%|██████████████████████████████████████████████████████████████▋             | 5886/7135 [5:22:28<1:03:41,  3.06s/it] 83%|██████████████████████████████████████████████████████████████▋             | 5887/7135 [5:22:31<1:02:41,  3.01s/it] 83%|██████████████████████████████████████████████████████████████▋             | 5888/7135 [5:22:34<1:02:22,  3.00s/it] 83%|██████████████████████████████████████████████████████████████▋             | 5889/7135 [5:22:37<1:06:38,  3.21s/it] 83%|██████████████████████████████████████████████████████████████▋             | 5890/7135 [5:22:40<1:03:42,  3.07s/it]                                                                                                                         {'loss': 0.7548, 'grad_norm': 6.15625, 'learning_rate': 3.7712351885019485e-07, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 415.5, 'epoch': 8.25}
 83%|██████████████████████████████████████████████████████████████▋             | 5890/7135 [5:22:40<1:03:42,  3.07s/it] 83%|██████████████████████████████████████████████████████████████▋             | 5891/7135 [5:22:44<1:06:38,  3.21s/it] 83%|██████████████████████████████████████████████████████████████▊             | 5892/7135 [5:22:47<1:06:33,  3.21s/it] 83%|██████████████████████████████████████████████████████████████▊             | 5893/7135 [5:22:50<1:05:19,  3.16s/it] 83%|██████████████████████████████████████████████████████████████▊             | 5894/7135 [5:22:54<1:08:47,  3.33s/it] 83%|██████████████████████████████████████████████████████████████▊             | 5895/7135 [5:22:57<1:08:03,  3.29s/it] 83%|██████████████████████████████████████████████████████████████▊             | 5896/7135 [5:23:00<1:06:03,  3.20s/it] 83%|██████████████████████████████████████████████████████████████▊             | 5897/7135 [5:23:03<1:06:51,  3.24s/it] 83%|██████████████████████████████████████████████████████████████▊             | 5898/7135 [5:23:06<1:05:13,  3.16s/it] 83%|██████████████████████████████████████████████████████████████▊             | 5899/7135 [5:23:10<1:05:41,  3.19s/it] 83%|██████████████████████████████████████████████████████████████▊             | 5900/7135 [5:23:12<1:04:07,  3.12s/it]                                                                                                                         {'loss': 0.8329, 'grad_norm': 5.0625, 'learning_rate': 3.712483493748481e-07, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 411.88, 'epoch': 8.26}
 83%|██████████████████████████████████████████████████████████████▊             | 5900/7135 [5:23:12<1:04:07,  3.12s/it] 83%|██████████████████████████████████████████████████████████████▊             | 5901/7135 [5:23:15<1:02:21,  3.03s/it] 83%|██████████████████████████████████████████████████████████████▊             | 5902/7135 [5:23:18<1:02:39,  3.05s/it] 83%|██████████████████████████████████████████████████████████████▉             | 5903/7135 [5:23:21<1:01:56,  3.02s/it] 83%|██████████████████████████████████████████████████████████████▉             | 5904/7135 [5:23:24<1:02:30,  3.05s/it] 83%|██████████████████████████████████████████████████████████████▉             | 5905/7135 [5:23:28<1:05:21,  3.19s/it] 83%|██████████████████████████████████████████████████████████████▉             | 5906/7135 [5:23:32<1:09:17,  3.38s/it] 83%|██████████████████████████████████████████████████████████████▉             | 5907/7135 [5:23:36<1:11:26,  3.49s/it] 83%|██████████████████████████████████████████████████████████████▉             | 5908/7135 [5:23:39<1:12:56,  3.57s/it] 83%|██████████████████████████████████████████████████████████████▉             | 5909/7135 [5:23:43<1:14:35,  3.65s/it] 83%|██████████████████████████████████████████████████████████████▉             | 5910/7135 [5:23:46<1:10:41,  3.46s/it]                                                                                                                         {'loss': 0.7588, 'grad_norm': 6.46875, 'learning_rate': 3.654156316709909e-07, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 471.62, 'epoch': 8.28}
 83%|██████████████████████████████████████████████████████████████▉             | 5910/7135 [5:23:46<1:10:41,  3.46s/it] 83%|██████████████████████████████████████████████████████████████▉             | 5911/7135 [5:23:49<1:09:02,  3.38s/it] 83%|██████████████████████████████████████████████████████████████▉             | 5912/7135 [5:23:53<1:08:55,  3.38s/it] 83%|██████████████████████████████████████████████████████████████▉             | 5913/7135 [5:23:56<1:07:31,  3.32s/it] 83%|██████████████████████████████████████████████████████████████▉             | 5914/7135 [5:23:59<1:05:17,  3.21s/it] 83%|███████████████████████████████████████████████████████████████             | 5915/7135 [5:24:03<1:08:07,  3.35s/it] 83%|███████████████████████████████████████████████████████████████             | 5916/7135 [5:24:06<1:07:02,  3.30s/it] 83%|███████████████████████████████████████████████████████████████             | 5917/7135 [5:24:09<1:04:01,  3.15s/it] 83%|███████████████████████████████████████████████████████████████             | 5918/7135 [5:24:11<1:02:10,  3.07s/it] 83%|███████████████████████████████████████████████████████████████             | 5919/7135 [5:24:14<1:01:47,  3.05s/it] 83%|███████████████████████████████████████████████████████████████             | 5920/7135 [5:24:17<1:01:32,  3.04s/it]                                                                                                                         {'loss': 0.6712, 'grad_norm': 3.265625, 'learning_rate': 3.5962548205524526e-07, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 393.01, 'epoch': 8.29}
 83%|███████████████████████████████████████████████████████████████             | 5920/7135 [5:24:17<1:01:32,  3.04s/it] 83%|███████████████████████████████████████████████████████████████             | 5921/7135 [5:24:21<1:04:24,  3.18s/it] 83%|███████████████████████████████████████████████████████████████             | 5922/7135 [5:24:24<1:03:39,  3.15s/it] 83%|███████████████████████████████████████████████████████████████             | 5923/7135 [5:24:28<1:08:47,  3.41s/it] 83%|███████████████████████████████████████████████████████████████             | 5924/7135 [5:24:31<1:05:02,  3.22s/it] 83%|███████████████████████████████████████████████████████████████             | 5925/7135 [5:24:34<1:05:30,  3.25s/it] 83%|███████████████████████████████████████████████████████████████             | 5926/7135 [5:24:37<1:05:26,  3.25s/it] 83%|███████████████████████████████████████████████████████████████▏            | 5927/7135 [5:24:41<1:05:30,  3.25s/it] 83%|███████████████████████████████████████████████████████████████▏            | 5928/7135 [5:24:44<1:04:48,  3.22s/it] 83%|███████████████████████████████████████████████████████████████▏            | 5929/7135 [5:24:47<1:04:16,  3.20s/it] 83%|███████████████████████████████████████████████████████████████▏            | 5930/7135 [5:24:50<1:03:55,  3.18s/it]                                                                                                                         {'loss': 0.9435, 'grad_norm': 5.15625, 'learning_rate': 3.538780159953348e-07, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 458.92, 'epoch': 8.31}
 83%|███████████████████████████████████████████████████████████████▏            | 5930/7135 [5:24:50<1:03:55,  3.18s/it] 83%|███████████████████████████████████████████████████████████████▏            | 5931/7135 [5:24:53<1:03:26,  3.16s/it] 83%|███████████████████████████████████████████████████████████████▏            | 5932/7135 [5:24:56<1:02:08,  3.10s/it] 83%|███████████████████████████████████████████████████████████████▏            | 5933/7135 [5:24:59<1:01:19,  3.06s/it] 83%|███████████████████████████████████████████████████████████████▏            | 5934/7135 [5:25:02<1:00:21,  3.02s/it] 83%|███████████████████████████████████████████████████████████████▏            | 5935/7135 [5:25:05<1:02:50,  3.14s/it] 83%|███████████████████████████████████████████████████████████████▏            | 5936/7135 [5:25:08<1:01:13,  3.06s/it] 83%|████████████████████████████████████████████████████████████████▉             | 5937/7135 [5:25:11<59:46,  2.99s/it] 83%|████████████████████████████████████████████████████████████████▉             | 5938/7135 [5:25:14<58:23,  2.93s/it] 83%|████████████████████████████████████████████████████████████████▉             | 5939/7135 [5:25:17<58:12,  2.92s/it] 83%|████████████████████████████████████████████████████████████████▉             | 5940/7135 [5:25:20<57:22,  2.88s/it]                                                                                                                         {'loss': 0.6386, 'grad_norm': 5.125, 'learning_rate': 3.4817334810778425e-07, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 364.27, 'epoch': 8.32}
 83%|████████████████████████████████████████████████████████████████▉             | 5940/7135 [5:25:20<57:22,  2.88s/it] 83%|████████████████████████████████████████████████████████████████▉             | 5941/7135 [5:25:23<58:52,  2.96s/it] 83%|███████████████████████████████████████████████████████████████▎            | 5942/7135 [5:25:26<1:01:03,  3.07s/it] 83%|███████████████████████████████████████████████████████████████▎            | 5943/7135 [5:25:29<1:01:05,  3.08s/it] 83%|███████████████████████████████████████████████████████████████▎            | 5944/7135 [5:25:33<1:04:11,  3.23s/it] 83%|███████████████████████████████████████████████████████████████▎            | 5945/7135 [5:25:36<1:05:34,  3.31s/it] 83%|███████████████████████████████████████████████████████████████▎            | 5946/7135 [5:25:40<1:05:10,  3.29s/it] 83%|███████████████████████████████████████████████████████████████▎            | 5947/7135 [5:25:43<1:06:41,  3.37s/it] 83%|███████████████████████████████████████████████████████████████▎            | 5948/7135 [5:25:47<1:08:27,  3.46s/it] 83%|███████████████████████████████████████████████████████████████▎            | 5949/7135 [5:25:50<1:06:16,  3.35s/it] 83%|███████████████████████████████████████████████████████████████▍            | 5950/7135 [5:25:53<1:02:43,  3.18s/it]                                                                                                                         {'loss': 0.6842, 'grad_norm': 5.09375, 'learning_rate': 3.4251159215563295e-07, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 451.31, 'epoch': 8.33}
 83%|███████████████████████████████████████████████████████████████▍            | 5950/7135 [5:25:53<1:02:43,  3.18s/it] 83%|███████████████████████████████████████████████████████████████▍            | 5951/7135 [5:25:56<1:04:16,  3.26s/it] 83%|███████████████████████████████████████████████████████████████▍            | 5952/7135 [5:25:59<1:02:12,  3.15s/it] 83%|███████████████████████████████████████████████████████████████▍            | 5953/7135 [5:26:02<1:02:45,  3.19s/it] 83%|███████████████████████████████████████████████████████████████▍            | 5954/7135 [5:26:06<1:04:20,  3.27s/it] 83%|███████████████████████████████████████████████████████████████▍            | 5955/7135 [5:26:10<1:10:51,  3.60s/it] 83%|███████████████████████████████████████████████████████████████▍            | 5956/7135 [5:26:13<1:08:49,  3.50s/it] 83%|███████████████████████████████████████████████████████████████▍            | 5957/7135 [5:26:16<1:03:56,  3.26s/it] 84%|███████████████████████████████████████████████████████████████▍            | 5958/7135 [5:26:19<1:03:37,  3.24s/it] 84%|███████████████████████████████████████████████████████████████▍            | 5959/7135 [5:26:22<1:02:30,  3.19s/it] 84%|███████████████████████████████████████████████████████████████▍            | 5960/7135 [5:26:25<1:02:06,  3.17s/it]                                                                                                                         {'loss': 0.7876, 'grad_norm': 4.53125, 'learning_rate': 3.3689286104616525e-07, 'memory/max_active (GiB)': 38.59, 'memory/max_allocated (GiB)': 38.59, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 493.09, 'epoch': 8.35}
 84%|███████████████████████████████████████████████████████████████▍            | 5960/7135 [5:26:25<1:02:06,  3.17s/it] 84%|███████████████████████████████████████████████████████████████▍            | 5961/7135 [5:26:29<1:05:18,  3.34s/it] 84%|███████████████████████████████████████████████████████████████▌            | 5962/7135 [5:26:32<1:04:24,  3.29s/it] 84%|███████████████████████████████████████████████████████████████▌            | 5963/7135 [5:26:36<1:06:28,  3.40s/it] 84%|███████████████████████████████████████████████████████████████▌            | 5964/7135 [5:26:39<1:04:28,  3.30s/it] 84%|███████████████████████████████████████████████████████████████▌            | 5965/7135 [5:26:42<1:02:00,  3.18s/it] 84%|███████████████████████████████████████████████████████████████▌            | 5966/7135 [5:26:45<1:00:23,  3.10s/it] 84%|███████████████████████████████████████████████████████████████▌            | 5967/7135 [5:26:48<1:01:03,  3.14s/it] 84%|███████████████████████████████████████████████████████████████▌            | 5968/7135 [5:26:51<1:00:11,  3.09s/it] 84%|███████████████████████████████████████████████████████████████▌            | 5969/7135 [5:26:55<1:05:05,  3.35s/it] 84%|███████████████████████████████████████████████████████████████▌            | 5970/7135 [5:26:58<1:04:16,  3.31s/it]                                                                                                                         {'loss': 0.9409, 'grad_norm': 4.9375, 'learning_rate': 3.313172668286624e-07, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 392.09, 'epoch': 8.36}
 84%|███████████████████████████████████████████████████████████████▌            | 5970/7135 [5:26:58<1:04:16,  3.31s/it] 84%|███████████████████████████████████████████████████████████████▌            | 5971/7135 [5:27:02<1:05:10,  3.36s/it] 84%|███████████████████████████████████████████████████████████████▌            | 5972/7135 [5:27:05<1:03:10,  3.26s/it] 84%|███████████████████████████████████████████████████████████████▌            | 5973/7135 [5:27:08<1:02:26,  3.22s/it] 84%|███████████████████████████████████████████████████████████████▋            | 5974/7135 [5:27:11<1:00:40,  3.14s/it] 84%|███████████████████████████████████████████████████████████████▋            | 5975/7135 [5:27:14<1:00:17,  3.12s/it] 84%|███████████████████████████████████████████████████████████████▋            | 5976/7135 [5:27:17<1:02:45,  3.25s/it] 84%|███████████████████████████████████████████████████████████████▋            | 5977/7135 [5:27:21<1:07:13,  3.48s/it] 84%|███████████████████████████████████████████████████████████████▋            | 5978/7135 [5:27:25<1:04:32,  3.35s/it] 84%|███████████████████████████████████████████████████████████████▋            | 5979/7135 [5:27:28<1:03:48,  3.31s/it] 84%|███████████████████████████████████████████████████████████████▋            | 5980/7135 [5:27:31<1:05:56,  3.43s/it]                                                                                                                         {'loss': 0.666, 'grad_norm': 3.875, 'learning_rate': 3.257849206921629e-07, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 471.43, 'epoch': 8.38}
 84%|███████████████████████████████████████████████████████████████▋            | 5980/7135 [5:27:31<1:05:56,  3.43s/it] 84%|███████████████████████████████████████████████████████████████▋            | 5981/7135 [5:27:35<1:08:32,  3.56s/it] 84%|███████████████████████████████████████████████████████████████▋            | 5982/7135 [5:27:38<1:06:13,  3.45s/it] 84%|███████████████████████████████████████████████████████████████▋            | 5983/7135 [5:27:42<1:03:46,  3.32s/it] 84%|███████████████████████████████████████████████████████████████▋            | 5984/7135 [5:27:44<1:01:02,  3.18s/it] 84%|█████████████████████████████████████████████████████████████████▍            | 5985/7135 [5:27:47<59:26,  3.10s/it] 84%|█████████████████████████████████████████████████████████████████▍            | 5986/7135 [5:27:50<59:05,  3.09s/it] 84%|█████████████████████████████████████████████████████████████████▍            | 5987/7135 [5:27:53<58:58,  3.08s/it] 84%|███████████████████████████████████████████████████████████████▊            | 5988/7135 [5:27:57<1:00:44,  3.18s/it] 84%|█████████████████████████████████████████████████████████████████▍            | 5989/7135 [5:28:00<59:30,  3.12s/it] 84%|█████████████████████████████████████████████████████████████████▍            | 5990/7135 [5:28:03<58:50,  3.08s/it]                                                                                                                         {'loss': 0.6909, 'grad_norm': 6.125, 'learning_rate': 3.202959329632491e-07, 'memory/max_active (GiB)': 42.47, 'memory/max_allocated (GiB)': 42.47, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 349.45, 'epoch': 8.39}
 84%|█████████████████████████████████████████████████████████████████▍            | 5990/7135 [5:28:03<58:50,  3.08s/it] 84%|█████████████████████████████████████████████████████████████████▍            | 5991/7135 [5:28:06<57:58,  3.04s/it] 84%|█████████████████████████████████████████████████████████████████▌            | 5992/7135 [5:28:09<57:19,  3.01s/it] 84%|█████████████████████████████████████████████████████████████████▌            | 5993/7135 [5:28:12<58:51,  3.09s/it] 84%|█████████████████████████████████████████████████████████████████▌            | 5994/7135 [5:28:15<58:18,  3.07s/it] 84%|█████████████████████████████████████████████████████████████████▌            | 5995/7135 [5:28:18<58:16,  3.07s/it] 84%|█████████████████████████████████████████████████████████████████▌            | 5996/7135 [5:28:21<57:09,  3.01s/it] 84%|█████████████████████████████████████████████████████████████████▌            | 5997/7135 [5:28:24<57:47,  3.05s/it] 84%|█████████████████████████████████████████████████████████████████▌            | 5998/7135 [5:28:27<57:23,  3.03s/it] 84%|█████████████████████████████████████████████████████████████████▌            | 5999/7135 [5:28:30<57:41,  3.05s/it] 84%|█████████████████████████████████████████████████████████████████▌            | 6000/7135 [5:28:33<58:39,  3.10s/it]                                                                                                                         {'loss': 0.718, 'grad_norm': 5.03125, 'learning_rate': 3.1485041310384603e-07, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 352.43, 'epoch': 8.4}
 84%|█████████████████████████████████████████████████████████████████▌            | 6000/7135 [5:28:33<58:39,  3.10s/it] 84%|█████████████████████████████████████████████████████████████████▌            | 6001/7135 [5:28:36<57:39,  3.05s/it] 84%|█████████████████████████████████████████████████████████████████▌            | 6002/7135 [5:28:40<59:19,  3.14s/it] 84%|█████████████████████████████████████████████████████████████████▌            | 6003/7135 [5:28:43<59:38,  3.16s/it] 84%|███████████████████████████████████████████████████████████████▉            | 6004/7135 [5:28:46<1:01:58,  3.29s/it] 84%|█████████████████████████████████████████████████████████████████▋            | 6005/7135 [5:28:49<59:59,  3.19s/it] 84%|█████████████████████████████████████████████████████████████████▋            | 6006/7135 [5:28:52<58:49,  3.13s/it] 84%|█████████████████████████████████████████████████████████████████▋            | 6007/7135 [5:28:55<56:06,  2.98s/it] 84%|█████████████████████████████████████████████████████████████████▋            | 6008/7135 [5:28:59<59:05,  3.15s/it] 84%|█████████████████████████████████████████████████████████████████▋            | 6009/7135 [5:29:01<57:47,  3.08s/it] 84%|█████████████████████████████████████████████████████████████████▋            | 6010/7135 [5:29:05<57:59,  3.09s/it]                                                                                                                         {'loss': 0.6653, 'grad_norm': 5.5, 'learning_rate': 3.09448469709038e-07, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 377.07, 'epoch': 8.42}
 84%|█████████████████████████████████████████████████████████████████▋            | 6010/7135 [5:29:05<57:59,  3.09s/it] 84%|████████████████████████████████████████████████████████████████            | 6011/7135 [5:29:08<1:00:46,  3.24s/it] 84%|█████████████████████████████████████████████████████████████████▋            | 6012/7135 [5:29:11<58:09,  3.11s/it] 84%|█████████████████████████████████████████████████████████████████▋            | 6013/7135 [5:29:14<58:02,  3.10s/it] 84%|█████████████████████████████████████████████████████████████████▋            | 6014/7135 [5:29:17<58:25,  3.13s/it] 84%|█████████████████████████████████████████████████████████████████▊            | 6015/7135 [5:29:20<57:31,  3.08s/it] 84%|█████████████████████████████████████████████████████████████████▊            | 6016/7135 [5:29:23<56:17,  3.02s/it] 84%|█████████████████████████████████████████████████████████████████▊            | 6017/7135 [5:29:26<56:50,  3.05s/it] 84%|████████████████████████████████████████████████████████████████            | 6018/7135 [5:29:30<1:02:00,  3.33s/it] 84%|████████████████████████████████████████████████████████████████            | 6019/7135 [5:29:34<1:01:59,  3.33s/it] 84%|█████████████████████████████████████████████████████████████████▊            | 6020/7135 [5:29:36<59:38,  3.21s/it]                                                                                                                         {'loss': 0.6201, 'grad_norm': 5.75, 'learning_rate': 3.040902105049021e-07, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 475.38, 'epoch': 8.43}
 84%|█████████████████████████████████████████████████████████████████▊            | 6020/7135 [5:29:37<59:38,  3.21s/it] 84%|█████████████████████████████████████████████████████████████████▊            | 6021/7135 [5:29:40<59:32,  3.21s/it] 84%|████████████████████████████████████████████████████████████████▏           | 6022/7135 [5:29:43<1:02:04,  3.35s/it] 84%|████████████████████████████████████████████████████████████████▏           | 6023/7135 [5:29:47<1:01:31,  3.32s/it] 84%|█████████████████████████████████████████████████████████████████▊            | 6024/7135 [5:29:49<58:03,  3.14s/it] 84%|█████████████████████████████████████████████████████████████████▊            | 6025/7135 [5:29:52<57:58,  3.13s/it] 84%|████████████████████████████████████████████████████████████████▏           | 6026/7135 [5:29:56<1:00:49,  3.29s/it] 84%|████████████████████████████████████████████████████████████████▏           | 6027/7135 [5:30:00<1:03:30,  3.44s/it] 84%|████████████████████████████████████████████████████████████████▏           | 6028/7135 [5:30:03<1:03:25,  3.44s/it] 84%|████████████████████████████████████████████████████████████████▏           | 6029/7135 [5:30:07<1:02:46,  3.41s/it] 85%|█████████████████████████████████████████████████████████████████▉            | 6030/7135 [5:30:09<58:39,  3.19s/it]                                                                                                                         {'loss': 0.6862, 'grad_norm': 5.5625, 'learning_rate': 2.9877574234636357e-07, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 449.21, 'epoch': 8.45}
 85%|█████████████████████████████████████████████████████████████████▉            | 6030/7135 [5:30:09<58:39,  3.19s/it] 85%|████████████████████████████████████████████████████████████████▏           | 6031/7135 [5:30:13<1:00:22,  3.28s/it] 85%|████████████████████████████████████████████████████████████████▎           | 6032/7135 [5:30:16<1:00:41,  3.30s/it] 85%|█████████████████████████████████████████████████████████████████▉            | 6033/7135 [5:30:19<59:48,  3.26s/it] 85%|█████████████████████████████████████████████████████████████████▉            | 6034/7135 [5:30:22<57:42,  3.14s/it] 85%|█████████████████████████████████████████████████████████████████▉            | 6035/7135 [5:30:25<56:46,  3.10s/it] 85%|████████████████████████████████████████████████████████████████▎           | 6036/7135 [5:30:29<1:02:40,  3.42s/it] 85%|████████████████████████████████████████████████████████████████▎           | 6037/7135 [5:30:33<1:01:43,  3.37s/it] 85%|████████████████████████████████████████████████████████████████▎           | 6038/7135 [5:30:36<1:00:17,  3.30s/it] 85%|██████████████████████████████████████████████████████████████████            | 6039/7135 [5:30:39<58:11,  3.19s/it] 85%|██████████████████████████████████████████████████████████████████            | 6040/7135 [5:30:42<59:39,  3.27s/it]                                                                                                                         {'loss': 0.8014, 'grad_norm': 5.625, 'learning_rate': 2.9350517121505996e-07, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 390.51, 'epoch': 8.46}
 85%|██████████████████████████████████████████████████████████████████            | 6040/7135 [5:30:42<59:39,  3.27s/it] 85%|████████████████████████████████████████████████████████████████▎           | 6041/7135 [5:30:46<1:01:27,  3.37s/it] 85%|████████████████████████████████████████████████████████████████▎           | 6042/7135 [5:30:49<1:01:37,  3.38s/it] 85%|████████████████████████████████████████████████████████████████▎           | 6043/7135 [5:30:53<1:05:46,  3.61s/it] 85%|████████████████████████████████████████████████████████████████▍           | 6044/7135 [5:30:57<1:04:24,  3.54s/it] 85%|████████████████████████████████████████████████████████████████▍           | 6045/7135 [5:31:00<1:01:07,  3.36s/it] 85%|████████████████████████████████████████████████████████████████▍           | 6046/7135 [5:31:04<1:08:32,  3.78s/it] 85%|████████████████████████████████████████████████████████████████▍           | 6047/7135 [5:31:07<1:03:26,  3.50s/it] 85%|████████████████████████████████████████████████████████████████▍           | 6048/7135 [5:31:11<1:04:20,  3.55s/it] 85%|████████████████████████████████████████████████████████████████▍           | 6049/7135 [5:31:14<1:03:34,  3.51s/it] 85%|████████████████████████████████████████████████████████████████▍           | 6050/7135 [5:31:18<1:02:53,  3.48s/it]                                                                                                                         {'loss': 0.8557, 'grad_norm': 3.359375, 'learning_rate': 2.8827860221723097e-07, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 630.1, 'epoch': 8.47}
 85%|████████████████████████████████████████████████████████████████▍           | 6050/7135 [5:31:18<1:02:53,  3.48s/it] 85%|████████████████████████████████████████████████████████████████▍           | 6051/7135 [5:31:21<1:02:19,  3.45s/it] 85%|████████████████████████████████████████████████████████████████▍           | 6052/7135 [5:31:24<1:01:52,  3.43s/it] 85%|████████████████████████████████████████████████████████████████▍           | 6053/7135 [5:31:28<1:00:24,  3.35s/it] 85%|████████████████████████████████████████████████████████████████▍           | 6054/7135 [5:31:31<1:00:12,  3.34s/it] 85%|████████████████████████████████████████████████████████████████▍           | 6055/7135 [5:31:34<1:01:04,  3.39s/it] 85%|██████████████████████████████████████████████████████████████████▏           | 6056/7135 [5:31:38<59:41,  3.32s/it] 85%|████████████████████████████████████████████████████████████████▌           | 6057/7135 [5:31:41<1:01:14,  3.41s/it] 85%|████████████████████████████████████████████████████████████████▌           | 6058/7135 [5:31:44<1:00:18,  3.36s/it] 85%|██████████████████████████████████████████████████████████████████▏           | 6059/7135 [5:31:47<58:18,  3.25s/it] 85%|██████████████████████████████████████████████████████████████████▏           | 6060/7135 [5:31:51<57:48,  3.23s/it]                                                                                                                         {'loss': 0.8274, 'grad_norm': 4.34375, 'learning_rate': 2.83096139581622e-07, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 401.37, 'epoch': 8.49}
 85%|██████████████████████████████████████████████████████████████████▏           | 6060/7135 [5:31:51<57:48,  3.23s/it] 85%|██████████████████████████████████████████████████████████████████▎           | 6061/7135 [5:31:53<55:01,  3.07s/it] 85%|████████████████████████████████████████████████████████████████▌           | 6062/7135 [5:31:58<1:01:15,  3.43s/it] 85%|████████████████████████████████████████████████████████████████▌           | 6063/7135 [5:32:01<1:00:15,  3.37s/it] 85%|██████████████████████████████████████████████████████████████████▎           | 6064/7135 [5:32:04<57:22,  3.21s/it] 85%|██████████████████████████████████████████████████████████████████▎           | 6065/7135 [5:32:07<55:39,  3.12s/it] 85%|████████████████████████████████████████████████████████████████▌           | 6066/7135 [5:32:11<1:02:29,  3.51s/it] 85%|████████████████████████████████████████████████████████████████▌           | 6067/7135 [5:32:15<1:02:24,  3.51s/it] 85%|████████████████████████████████████████████████████████████████▋           | 6068/7135 [5:32:18<1:01:23,  3.45s/it] 85%|██████████████████████████████████████████████████████████████████▎           | 6069/7135 [5:32:21<59:10,  3.33s/it] 85%|██████████████████████████████████████████████████████████████████▎           | 6070/7135 [5:32:24<58:09,  3.28s/it]                                                                                                                         {'loss': 0.9329, 'grad_norm': 5.90625, 'learning_rate': 2.7795788665740423e-07, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 474.17, 'epoch': 8.5}
 85%|██████████████████████████████████████████████████████████████████▎           | 6070/7135 [5:32:24<58:09,  3.28s/it] 85%|██████████████████████████████████████████████████████████████████▎           | 6071/7135 [5:32:27<56:59,  3.21s/it] 85%|██████████████████████████████████████████████████████████████████▍           | 6072/7135 [5:32:30<55:09,  3.11s/it] 85%|██████████████████████████████████████████████████████████████████▍           | 6073/7135 [5:32:34<59:23,  3.36s/it] 85%|██████████████████████████████████████████████████████████████████▍           | 6074/7135 [5:32:37<59:31,  3.37s/it] 85%|██████████████████████████████████████████████████████████████████▍           | 6075/7135 [5:32:40<57:12,  3.24s/it] 85%|██████████████████████████████████████████████████████████████████▍           | 6076/7135 [5:32:43<56:39,  3.21s/it] 85%|██████████████████████████████████████████████████████████████████▍           | 6077/7135 [5:32:47<59:47,  3.39s/it] 85%|██████████████████████████████████████████████████████████████████▍           | 6078/7135 [5:32:50<56:26,  3.20s/it] 85%|██████████████████████████████████████████████████████████████████▍           | 6079/7135 [5:32:53<55:01,  3.13s/it] 85%|██████████████████████████████████████████████████████████████████▍           | 6080/7135 [5:32:56<55:26,  3.15s/it]                                                                                                                         {'loss': 0.7351, 'grad_norm': 5.78125, 'learning_rate': 2.7286394591211434e-07, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 390.4, 'epoch': 8.52}
 85%|██████████████████████████████████████████████████████████████████▍           | 6080/7135 [5:32:56<55:26,  3.15s/it] 85%|██████████████████████████████████████████████████████████████████▍           | 6081/7135 [5:32:59<54:54,  3.13s/it] 85%|██████████████████████████████████████████████████████████████████▍           | 6082/7135 [5:33:02<54:22,  3.10s/it] 85%|██████████████████████████████████████████████████████████████████▍           | 6083/7135 [5:33:06<57:43,  3.29s/it] 85%|██████████████████████████████████████████████████████████████████▌           | 6084/7135 [5:33:10<59:38,  3.40s/it] 85%|██████████████████████████████████████████████████████████████████▌           | 6085/7135 [5:33:13<57:50,  3.30s/it] 85%|██████████████████████████████████████████████████████████████████▌           | 6086/7135 [5:33:16<57:53,  3.31s/it] 85%|██████████████████████████████████████████████████████████████████▌           | 6087/7135 [5:33:19<56:01,  3.21s/it] 85%|██████████████████████████████████████████████████████████████████▌           | 6088/7135 [5:33:22<55:47,  3.20s/it] 85%|██████████████████████████████████████████████████████████████████▌           | 6089/7135 [5:33:25<55:42,  3.20s/it] 85%|██████████████████████████████████████████████████████████████████▌           | 6090/7135 [5:33:29<56:43,  3.26s/it]                                                                                                                         {'loss': 0.8279, 'grad_norm': 5.25, 'learning_rate': 2.6781441892961305e-07, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 426.91, 'epoch': 8.53}
 85%|██████████████████████████████████████████████████████████████████▌           | 6090/7135 [5:33:29<56:43,  3.26s/it] 85%|██████████████████████████████████████████████████████████████████▌           | 6091/7135 [5:33:32<53:59,  3.10s/it] 85%|██████████████████████████████████████████████████████████████████▌           | 6092/7135 [5:33:35<55:06,  3.17s/it] 85%|██████████████████████████████████████████████████████████████████▌           | 6093/7135 [5:33:38<57:10,  3.29s/it] 85%|██████████████████████████████████████████████████████████████████▌           | 6094/7135 [5:33:42<56:35,  3.26s/it] 85%|████████████████████████████████████████████████████████████████▉           | 6095/7135 [5:33:46<1:00:04,  3.47s/it] 85%|██████████████████████████████████████████████████████████████████▋           | 6096/7135 [5:33:49<58:01,  3.35s/it] 85%|██████████████████████████████████████████████████████████████████▋           | 6097/7135 [5:33:52<55:28,  3.21s/it] 85%|██████████████████████████████████████████████████████████████████▋           | 6098/7135 [5:33:54<54:09,  3.13s/it] 85%|██████████████████████████████████████████████████████████████████▋           | 6099/7135 [5:33:58<54:30,  3.16s/it] 85%|██████████████████████████████████████████████████████████████████▋           | 6100/7135 [5:34:01<54:47,  3.18s/it]                                                                                                                         {'loss': 0.8052, 'grad_norm': 5.0, 'learning_rate': 2.628094064080558e-07, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 399.03, 'epoch': 8.54}
 85%|██████████████████████████████████████████████████████████████████▋           | 6100/7135 [5:34:01<54:47,  3.18s/it] 86%|██████████████████████████████████████████████████████████████████▋           | 6101/7135 [5:34:04<52:13,  3.03s/it] 86%|██████████████████████████████████████████████████████████████████▋           | 6102/7135 [5:34:07<52:27,  3.05s/it] 86%|██████████████████████████████████████████████████████████████████▋           | 6103/7135 [5:34:10<55:04,  3.20s/it] 86%|██████████████████████████████████████████████████████████████████▋           | 6104/7135 [5:34:13<54:22,  3.16s/it] 86%|██████████████████████████████████████████████████████████████████▋           | 6105/7135 [5:34:16<52:14,  3.04s/it] 86%|██████████████████████████████████████████████████████████████████▊           | 6106/7135 [5:34:19<53:00,  3.09s/it] 86%|██████████████████████████████████████████████████████████████████▊           | 6107/7135 [5:34:23<54:01,  3.15s/it] 86%|██████████████████████████████████████████████████████████████████▊           | 6108/7135 [5:34:26<53:20,  3.12s/it] 86%|██████████████████████████████████████████████████████████████████▊           | 6109/7135 [5:34:29<54:06,  3.16s/it] 86%|██████████████████████████████████████████████████████████████████▊           | 6110/7135 [5:34:32<52:25,  3.07s/it]                                                                                                                         {'loss': 0.8109, 'grad_norm': 5.4375, 'learning_rate': 2.578490081578858e-07, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 409.8, 'epoch': 8.56}
 86%|██████████████████████████████████████████████████████████████████▊           | 6110/7135 [5:34:32<52:25,  3.07s/it] 86%|██████████████████████████████████████████████████████████████████▊           | 6111/7135 [5:34:35<51:19,  3.01s/it] 86%|██████████████████████████████████████████████████████████████████▊           | 6112/7135 [5:34:38<51:15,  3.01s/it] 86%|██████████████████████████████████████████████████████████████████▊           | 6113/7135 [5:34:40<50:20,  2.96s/it] 86%|██████████████████████████████████████████████████████████████████▊           | 6114/7135 [5:34:44<53:37,  3.15s/it] 86%|██████████████████████████████████████████████████████████████████▊           | 6115/7135 [5:34:47<53:36,  3.15s/it] 86%|██████████████████████████████████████████████████████████████████▊           | 6116/7135 [5:34:50<51:30,  3.03s/it] 86%|██████████████████████████████████████████████████████████████████▊           | 6117/7135 [5:34:53<50:00,  2.95s/it] 86%|██████████████████████████████████████████████████████████████████▉           | 6118/7135 [5:34:56<51:19,  3.03s/it] 86%|██████████████████████████████████████████████████████████████████▉           | 6119/7135 [5:34:59<50:14,  2.97s/it] 86%|██████████████████████████████████████████████████████████████████▉           | 6120/7135 [5:35:02<51:08,  3.02s/it]                                                                                                                         {'loss': 0.6315, 'grad_norm': 5.34375, 'learning_rate': 2.529333230998465e-07, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 380.72, 'epoch': 8.57}
 86%|██████████████████████████████████████████████████████████████████▉           | 6120/7135 [5:35:02<51:08,  3.02s/it] 86%|██████████████████████████████████████████████████████████████████▉           | 6121/7135 [5:35:05<53:00,  3.14s/it] 86%|██████████████████████████████████████████████████████████████████▉           | 6122/7135 [5:35:09<54:40,  3.24s/it] 86%|██████████████████████████████████████████████████████████████████▉           | 6123/7135 [5:35:12<56:03,  3.32s/it] 86%|██████████████████████████████████████████████████████████████████▉           | 6124/7135 [5:35:15<54:10,  3.21s/it] 86%|██████████████████████████████████████████████████████████████████▉           | 6125/7135 [5:35:18<53:03,  3.15s/it] 86%|██████████████████████████████████████████████████████████████████▉           | 6126/7135 [5:35:21<52:11,  3.10s/it] 86%|██████████████████████████████████████████████████████████████████▉           | 6127/7135 [5:35:24<50:36,  3.01s/it] 86%|██████████████████████████████████████████████████████████████████▉           | 6128/7135 [5:35:27<49:39,  2.96s/it] 86%|███████████████████████████████████████████████████████████████████           | 6129/7135 [5:35:30<49:46,  2.97s/it] 86%|███████████████████████████████████████████████████████████████████           | 6130/7135 [5:35:33<49:28,  2.95s/it]                                                                                                                         {'loss': 0.7128, 'grad_norm': 4.5625, 'learning_rate': 2.480624492630049e-07, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 390.79, 'epoch': 8.59}
 86%|███████████████████████████████████████████████████████████████████           | 6130/7135 [5:35:33<49:28,  2.95s/it] 86%|███████████████████████████████████████████████████████████████████           | 6131/7135 [5:35:36<52:05,  3.11s/it] 86%|███████████████████████████████████████████████████████████████████           | 6132/7135 [5:35:39<50:22,  3.01s/it] 86%|███████████████████████████████████████████████████████████████████           | 6133/7135 [5:35:43<52:56,  3.17s/it] 86%|███████████████████████████████████████████████████████████████████           | 6134/7135 [5:35:46<55:00,  3.30s/it] 86%|███████████████████████████████████████████████████████████████████           | 6135/7135 [5:35:49<51:46,  3.11s/it] 86%|███████████████████████████████████████████████████████████████████           | 6136/7135 [5:35:51<49:16,  2.96s/it] 86%|███████████████████████████████████████████████████████████████████           | 6137/7135 [5:35:55<50:25,  3.03s/it] 86%|███████████████████████████████████████████████████████████████████           | 6138/7135 [5:35:58<53:40,  3.23s/it] 86%|███████████████████████████████████████████████████████████████████           | 6139/7135 [5:36:01<51:39,  3.11s/it] 86%|███████████████████████████████████████████████████████████████████           | 6140/7135 [5:36:04<52:05,  3.14s/it]                                                                                                                         {'loss': 0.6474, 'grad_norm': 5.21875, 'learning_rate': 2.4323648378279773e-07, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 471.73, 'epoch': 8.6}
 86%|███████████████████████████████████████████████████████████████████           | 6140/7135 [5:36:04<52:05,  3.14s/it] 86%|███████████████████████████████████████████████████████████████████▏          | 6141/7135 [5:36:07<51:37,  3.12s/it] 86%|███████████████████████████████████████████████████████████████████▏          | 6142/7135 [5:36:11<53:20,  3.22s/it] 86%|███████████████████████████████████████████████████████████████████▏          | 6143/7135 [5:36:14<51:58,  3.14s/it] 86%|███████████████████████████████████████████████████████████████████▏          | 6144/7135 [5:36:17<53:06,  3.21s/it] 86%|███████████████████████████████████████████████████████████████████▏          | 6145/7135 [5:36:20<51:26,  3.12s/it] 86%|███████████████████████████████████████████████████████████████████▏          | 6146/7135 [5:36:23<49:18,  2.99s/it] 86%|███████████████████████████████████████████████████████████████████▏          | 6147/7135 [5:36:26<50:00,  3.04s/it] 86%|███████████████████████████████████████████████████████████████████▏          | 6148/7135 [5:36:29<50:40,  3.08s/it] 86%|███████████████████████████████████████████████████████████████████▏          | 6149/7135 [5:36:32<49:18,  3.00s/it] 86%|███████████████████████████████████████████████████████████████████▏          | 6150/7135 [5:36:35<51:02,  3.11s/it]                                                                                                                         {'loss': 0.71, 'grad_norm': 5.3125, 'learning_rate': 2.384555228990967e-07, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 352.03, 'epoch': 8.61}
 86%|███████████████████████████████████████████████████████████████████▏          | 6150/7135 [5:36:35<51:02,  3.11s/it] 86%|███████████████████████████████████████████████████████████████████▏          | 6151/7135 [5:36:38<50:44,  3.09s/it] 86%|███████████████████████████████████████████████████████████████████▎          | 6152/7135 [5:36:42<52:40,  3.22s/it] 86%|███████████████████████████████████████████████████████████████████▎          | 6153/7135 [5:36:45<53:34,  3.27s/it] 86%|███████████████████████████████████████████████████████████████████▎          | 6154/7135 [5:36:48<52:26,  3.21s/it] 86%|███████████████████████████████████████████████████████████████████▎          | 6155/7135 [5:36:52<52:13,  3.20s/it] 86%|███████████████████████████████████████████████████████████████████▎          | 6156/7135 [5:36:54<50:32,  3.10s/it] 86%|███████████████████████████████████████████████████████████████████▎          | 6157/7135 [5:36:58<52:29,  3.22s/it] 86%|███████████████████████████████████████████████████████████████████▎          | 6158/7135 [5:37:01<53:39,  3.30s/it] 86%|███████████████████████████████████████████████████████████████████▎          | 6159/7135 [5:37:05<53:20,  3.28s/it] 86%|███████████████████████████████████████████████████████████████████▎          | 6160/7135 [5:37:08<54:35,  3.36s/it]                                                                                                                         {'loss': 0.7425, 'grad_norm': 4.65625, 'learning_rate': 2.3371966195428669e-07, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 414.35, 'epoch': 8.63}
 86%|███████████████████████████████████████████████████████████████████▎          | 6160/7135 [5:37:08<54:35,  3.36s/it] 86%|███████████████████████████████████████████████████████████████████▎          | 6161/7135 [5:37:12<56:24,  3.48s/it] 86%|███████████████████████████████████████████████████████████████████▎          | 6162/7135 [5:37:15<56:04,  3.46s/it] 86%|███████████████████████████████████████████████████████████████████▎          | 6163/7135 [5:37:19<56:05,  3.46s/it] 86%|███████████████████████████████████████████████████████████████████▍          | 6164/7135 [5:37:22<54:00,  3.34s/it] 86%|███████████████████████████████████████████████████████████████████▍          | 6165/7135 [5:37:24<50:17,  3.11s/it] 86%|███████████████████████████████████████████████████████████████████▍          | 6166/7135 [5:37:28<51:04,  3.16s/it] 86%|███████████████████████████████████████████████████████████████████▍          | 6167/7135 [5:37:31<49:18,  3.06s/it] 86%|███████████████████████████████████████████████████████████████████▍          | 6168/7135 [5:37:33<47:22,  2.94s/it] 86%|███████████████████████████████████████████████████████████████████▍          | 6169/7135 [5:37:37<49:05,  3.05s/it] 86%|███████████████████████████████████████████████████████████████████▍          | 6170/7135 [5:37:40<48:43,  3.03s/it]                                                                                                                         {'loss': 0.7577, 'grad_norm': 5.03125, 'learning_rate': 2.2902899539136436e-07, 'memory/max_active (GiB)': 37.88, 'memory/max_allocated (GiB)': 37.88, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 443.99, 'epoch': 8.64}
 86%|███████████████████████████████████████████████████████████████████▍          | 6170/7135 [5:37:40<48:43,  3.03s/it] 86%|███████████████████████████████████████████████████████████████████▍          | 6171/7135 [5:37:42<48:26,  3.01s/it] 87%|███████████████████████████████████████████████████████████████████▍          | 6172/7135 [5:37:45<46:33,  2.90s/it] 87%|███████████████████████████████████████████████████████████████████▍          | 6173/7135 [5:37:48<46:10,  2.88s/it] 87%|███████████████████████████████████████████████████████████████████▍          | 6174/7135 [5:37:51<44:39,  2.79s/it] 87%|███████████████████████████████████████████████████████████████████▌          | 6175/7135 [5:37:54<48:48,  3.05s/it] 87%|███████████████████████████████████████████████████████████████████▌          | 6176/7135 [5:37:57<49:02,  3.07s/it] 87%|███████████████████████████████████████████████████████████████████▌          | 6177/7135 [5:38:01<51:16,  3.21s/it] 87%|███████████████████████████████████████████████████████████████████▌          | 6178/7135 [5:38:04<51:43,  3.24s/it] 87%|███████████████████████████████████████████████████████████████████▌          | 6179/7135 [5:38:07<51:48,  3.25s/it] 87%|███████████████████████████████████████████████████████████████████▌          | 6180/7135 [5:38:11<52:11,  3.28s/it]                                                                                                                         {'loss': 0.6624, 'grad_norm': 6.96875, 'learning_rate': 2.2438361675205661e-07, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 339.23, 'epoch': 8.66}
 87%|███████████████████████████████████████████████████████████████████▌          | 6180/7135 [5:38:11<52:11,  3.28s/it] 87%|███████████████████████████████████████████████████████████████████▌          | 6181/7135 [5:38:14<52:14,  3.29s/it] 87%|███████████████████████████████████████████████████████████████████▌          | 6182/7135 [5:38:18<53:29,  3.37s/it] 87%|███████████████████████████████████████████████████████████████████▌          | 6183/7135 [5:38:21<51:05,  3.22s/it] 87%|███████████████████████████████████████████████████████████████████▌          | 6184/7135 [5:38:23<49:32,  3.13s/it] 87%|███████████████████████████████████████████████████████████████████▌          | 6185/7135 [5:38:26<48:36,  3.07s/it] 87%|███████████████████████████████████████████████████████████████████▋          | 6186/7135 [5:38:30<48:57,  3.10s/it] 87%|███████████████████████████████████████████████████████████████████▋          | 6187/7135 [5:38:33<51:44,  3.27s/it] 87%|███████████████████████████████████████████████████████████████████▋          | 6188/7135 [5:38:36<50:42,  3.21s/it] 87%|███████████████████████████████████████████████████████████████████▋          | 6189/7135 [5:38:39<50:24,  3.20s/it] 87%|███████████████████████████████████████████████████████████████████▋          | 6190/7135 [5:38:42<48:32,  3.08s/it]                                                                                                                         {'loss': 0.6396, 'grad_norm': 5.8125, 'learning_rate': 2.1978361867495441e-07, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 366.63, 'epoch': 8.67}
 87%|███████████████████████████████████████████████████████████████████▋          | 6190/7135 [5:38:42<48:32,  3.08s/it] 87%|███████████████████████████████████████████████████████████████████▋          | 6191/7135 [5:38:45<47:51,  3.04s/it] 87%|███████████████████████████████████████████████████████████████████▋          | 6192/7135 [5:38:48<48:14,  3.07s/it] 87%|███████████████████████████████████████████████████████████████████▋          | 6193/7135 [5:38:52<49:12,  3.13s/it] 87%|███████████████████████████████████████████████████████████████████▋          | 6194/7135 [5:38:55<49:59,  3.19s/it] 87%|███████████████████████████████████████████████████████████████████▋          | 6195/7135 [5:38:58<51:01,  3.26s/it] 87%|███████████████████████████████████████████████████████████████████▋          | 6196/7135 [5:39:01<49:50,  3.19s/it] 87%|███████████████████████████████████████████████████████████████████▋          | 6197/7135 [5:39:05<51:01,  3.26s/it] 87%|███████████████████████████████████████████████████████████████████▊          | 6198/7135 [5:39:08<49:40,  3.18s/it] 87%|███████████████████████████████████████████████████████████████████▊          | 6199/7135 [5:39:11<48:21,  3.10s/it] 87%|███████████████████████████████████████████████████████████████████▊          | 6200/7135 [5:39:14<47:59,  3.08s/it]                                                                                                                         {'loss': 0.7117, 'grad_norm': 6.21875, 'learning_rate': 2.1522909289366372e-07, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 368.58, 'epoch': 8.68}
 87%|███████████████████████████████████████████████████████████████████▊          | 6200/7135 [5:39:14<47:59,  3.08s/it] 87%|███████████████████████████████████████████████████████████████████▊          | 6201/7135 [5:39:17<48:39,  3.13s/it] 87%|███████████████████████████████████████████████████████████████████▊          | 6202/7135 [5:39:20<49:03,  3.16s/it] 87%|███████████████████████████████████████████████████████████████████▊          | 6203/7135 [5:39:23<47:41,  3.07s/it] 87%|███████████████████████████████████████████████████████████████████▊          | 6204/7135 [5:39:26<48:54,  3.15s/it] 87%|███████████████████████████████████████████████████████████████████▊          | 6205/7135 [5:39:30<51:54,  3.35s/it] 87%|███████████████████████████████████████████████████████████████████▊          | 6206/7135 [5:39:34<51:44,  3.34s/it] 87%|███████████████████████████████████████████████████████████████████▊          | 6207/7135 [5:39:37<51:08,  3.31s/it] 87%|███████████████████████████████████████████████████████████████████▊          | 6208/7135 [5:39:40<48:52,  3.16s/it] 87%|███████████████████████████████████████████████████████████████████▉          | 6209/7135 [5:39:43<47:42,  3.09s/it] 87%|███████████████████████████████████████████████████████████████████▉          | 6210/7135 [5:39:45<46:32,  3.02s/it]                                                                                                                         {'loss': 0.6526, 'grad_norm': 4.96875, 'learning_rate': 2.1072013023497956e-07, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 428.43, 'epoch': 8.7}
 87%|███████████████████████████████████████████████████████████████████▉          | 6210/7135 [5:39:45<46:32,  3.02s/it] 87%|███████████████████████████████████████████████████████████████████▉          | 6211/7135 [5:39:49<48:21,  3.14s/it] 87%|███████████████████████████████████████████████████████████████████▉          | 6212/7135 [5:39:52<49:26,  3.21s/it] 87%|███████████████████████████████████████████████████████████████████▉          | 6213/7135 [5:39:56<51:54,  3.38s/it] 87%|███████████████████████████████████████████████████████████████████▉          | 6214/7135 [5:39:59<49:25,  3.22s/it] 87%|███████████████████████████████████████████████████████████████████▉          | 6215/7135 [5:40:02<48:45,  3.18s/it] 87%|███████████████████████████████████████████████████████████████████▉          | 6216/7135 [5:40:05<47:14,  3.08s/it] 87%|███████████████████████████████████████████████████████████████████▉          | 6217/7135 [5:40:08<47:45,  3.12s/it] 87%|███████████████████████████████████████████████████████████████████▉          | 6218/7135 [5:40:11<48:13,  3.16s/it] 87%|███████████████████████████████████████████████████████████████████▉          | 6219/7135 [5:40:15<52:18,  3.43s/it] 87%|███████████████████████████████████████████████████████████████████▉          | 6220/7135 [5:40:19<54:15,  3.56s/it]                                                                                                                         {'loss': 0.6927, 'grad_norm': 5.4375, 'learning_rate': 2.0625682061707147e-07, 'memory/max_active (GiB)': 37.43, 'memory/max_allocated (GiB)': 37.43, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 287.89, 'epoch': 8.71}
 87%|███████████████████████████████████████████████████████████████████▉          | 6220/7135 [5:40:19<54:15,  3.56s/it] 87%|████████████████████████████████████████████████████████████████████          | 6221/7135 [5:40:23<53:35,  3.52s/it] 87%|████████████████████████████████████████████████████████████████████          | 6222/7135 [5:40:26<54:03,  3.55s/it] 87%|████████████████████████████████████████████████████████████████████          | 6223/7135 [5:40:30<54:19,  3.57s/it] 87%|████████████████████████████████████████████████████████████████████          | 6224/7135 [5:40:33<51:08,  3.37s/it] 87%|████████████████████████████████████████████████████████████████████          | 6225/7135 [5:40:36<50:54,  3.36s/it] 87%|████████████████████████████████████████████████████████████████████          | 6226/7135 [5:40:39<49:39,  3.28s/it] 87%|████████████████████████████████████████████████████████████████████          | 6227/7135 [5:40:42<47:17,  3.12s/it] 87%|████████████████████████████████████████████████████████████████████          | 6228/7135 [5:40:46<49:48,  3.29s/it] 87%|████████████████████████████████████████████████████████████████████          | 6229/7135 [5:40:49<50:12,  3.33s/it] 87%|████████████████████████████████████████████████████████████████████          | 6230/7135 [5:40:52<50:09,  3.33s/it]                                                                                                                         {'loss': 0.7053, 'grad_norm': 4.65625, 'learning_rate': 2.0183925304769148e-07, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 363.04, 'epoch': 8.73}
 87%|████████████████████████████████████████████████████████████████████          | 6230/7135 [5:40:52<50:09,  3.33s/it] 87%|████████████████████████████████████████████████████████████████████          | 6231/7135 [5:40:55<48:32,  3.22s/it] 87%|████████████████████████████████████████████████████████████████████▏         | 6232/7135 [5:40:58<48:30,  3.22s/it] 87%|████████████████████████████████████████████████████████████████████▏         | 6233/7135 [5:41:02<49:32,  3.30s/it] 87%|████████████████████████████████████████████████████████████████████▏         | 6234/7135 [5:41:05<49:31,  3.30s/it] 87%|████████████████████████████████████████████████████████████████████▏         | 6235/7135 [5:41:08<47:40,  3.18s/it] 87%|████████████████████████████████████████████████████████████████████▏         | 6236/7135 [5:41:11<46:28,  3.10s/it] 87%|████████████████████████████████████████████████████████████████████▏         | 6237/7135 [5:41:14<45:27,  3.04s/it] 87%|████████████████████████████████████████████████████████████████████▏         | 6238/7135 [5:41:17<45:27,  3.04s/it] 87%|████████████████████████████████████████████████████████████████████▏         | 6239/7135 [5:41:20<47:07,  3.16s/it] 87%|████████████████████████████████████████████████████████████████████▏         | 6240/7135 [5:41:24<49:02,  3.29s/it]                                                                                                                         {'loss': 0.6838, 'grad_norm': 5.78125, 'learning_rate': 1.9746751562240068e-07, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 287.86, 'epoch': 8.74}
 87%|████████████████████████████████████████████████████████████████████▏         | 6240/7135 [5:41:24<49:02,  3.29s/it] 87%|████████████████████████████████████████████████████████████████████▏         | 6241/7135 [5:41:27<47:44,  3.20s/it] 87%|████████████████████████████████████████████████████████████████████▏         | 6242/7135 [5:41:30<47:35,  3.20s/it] 87%|████████████████████████████████████████████████████████████████████▏         | 6243/7135 [5:41:33<46:38,  3.14s/it] 88%|████████████████████████████████████████████████████████████████████▎         | 6244/7135 [5:41:36<46:00,  3.10s/it] 88%|████████████████████████████████████████████████████████████████████▎         | 6245/7135 [5:41:40<48:26,  3.27s/it] 88%|████████████████████████████████████████████████████████████████████▎         | 6246/7135 [5:41:43<48:01,  3.24s/it] 88%|████████████████████████████████████████████████████████████████████▎         | 6247/7135 [5:41:46<48:40,  3.29s/it] 88%|████████████████████████████████████████████████████████████████████▎         | 6248/7135 [5:41:50<49:24,  3.34s/it] 88%|████████████████████████████████████████████████████████████████████▎         | 6249/7135 [5:41:54<51:09,  3.46s/it] 88%|████████████████████████████████████████████████████████████████████▎         | 6250/7135 [5:41:57<49:07,  3.33s/it]                                                                                                                         {'loss': 0.884, 'grad_norm': 5.0625, 'learning_rate': 1.931416955228088e-07, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 397.58, 'epoch': 8.75}
 88%|████████████████████████████████████████████████████████████████████▎         | 6250/7135 [5:41:57<49:07,  3.33s/it] 88%|████████████████████████████████████████████████████████████████████▎         | 6251/7135 [5:42:00<48:17,  3.28s/it] 88%|████████████████████████████████████████████████████████████████████▎         | 6252/7135 [5:42:03<48:08,  3.27s/it] 88%|████████████████████████████████████████████████████████████████████▎         | 6253/7135 [5:42:06<46:42,  3.18s/it] 88%|████████████████████████████████████████████████████████████████████▎         | 6254/7135 [5:42:09<46:09,  3.14s/it] 88%|████████████████████████████████████████████████████████████████████▍         | 6255/7135 [5:42:12<45:47,  3.12s/it] 88%|████████████████████████████████████████████████████████████████████▍         | 6256/7135 [5:42:15<44:55,  3.07s/it] 88%|████████████████████████████████████████████████████████████████████▍         | 6257/7135 [5:42:19<46:31,  3.18s/it] 88%|████████████████████████████████████████████████████████████████████▍         | 6258/7135 [5:42:22<45:36,  3.12s/it] 88%|████████████████████████████████████████████████████████████████████▍         | 6259/7135 [5:42:25<45:10,  3.09s/it] 88%|████████████████████████████████████████████████████████████████████▍         | 6260/7135 [5:42:29<48:54,  3.35s/it]                                                                                                                         {'loss': 0.8175, 'grad_norm': 4.0625, 'learning_rate': 1.8886187901484e-07, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 315.02, 'epoch': 8.77}
 88%|████████████████████████████████████████████████████████████████████▍         | 6260/7135 [5:42:29<48:54,  3.35s/it] 88%|████████████████████████████████████████████████████████████████████▍         | 6261/7135 [5:42:32<47:13,  3.24s/it] 88%|████████████████████████████████████████████████████████████████████▍         | 6262/7135 [5:42:35<47:12,  3.24s/it] 88%|████████████████████████████████████████████████████████████████████▍         | 6263/7135 [5:42:38<46:03,  3.17s/it] 88%|████████████████████████████████████████████████████████████████████▍         | 6264/7135 [5:42:41<45:15,  3.12s/it] 88%|████████████████████████████████████████████████████████████████████▍         | 6265/7135 [5:42:44<45:44,  3.15s/it] 88%|████████████████████████████████████████████████████████████████████▌         | 6266/7135 [5:42:47<45:05,  3.11s/it] 88%|████████████████████████████████████████████████████████████████████▌         | 6267/7135 [5:42:50<45:51,  3.17s/it] 88%|████████████████████████████████████████████████████████████████████▌         | 6268/7135 [5:42:53<44:58,  3.11s/it] 88%|████████████████████████████████████████████████████████████████████▌         | 6269/7135 [5:42:56<43:55,  3.04s/it] 88%|████████████████████████████████████████████████████████████████████▌         | 6270/7135 [5:42:59<42:54,  2.98s/it]                                                                                                                         {'loss': 0.711, 'grad_norm': 5.625, 'learning_rate': 1.8462815144700914e-07, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 422.71, 'epoch': 8.78}
 88%|████████████████████████████████████████████████████████████████████▌         | 6270/7135 [5:42:59<42:54,  2.98s/it] 88%|████████████████████████████████████████████████████████████████████▌         | 6271/7135 [5:43:02<42:27,  2.95s/it] 88%|████████████████████████████████████████████████████████████████████▌         | 6272/7135 [5:43:05<43:54,  3.05s/it] 88%|████████████████████████████████████████████████████████████████████▌         | 6273/7135 [5:43:09<47:50,  3.33s/it] 88%|████████████████████████████████████████████████████████████████████▌         | 6274/7135 [5:43:12<45:43,  3.19s/it] 88%|████████████████████████████████████████████████████████████████████▌         | 6275/7135 [5:43:16<47:32,  3.32s/it] 88%|████████████████████████████████████████████████████████████████████▌         | 6276/7135 [5:43:19<47:53,  3.34s/it] 88%|████████████████████████████████████████████████████████████████████▌         | 6277/7135 [5:43:22<46:58,  3.29s/it] 88%|████████████████████████████████████████████████████████████████████▋         | 6278/7135 [5:43:26<48:26,  3.39s/it] 88%|████████████████████████████████████████████████████████████████████▋         | 6279/7135 [5:43:29<47:20,  3.32s/it] 88%|████████████████████████████████████████████████████████████████████▋         | 6280/7135 [5:43:32<44:19,  3.11s/it]                                                                                                                         {'loss': 0.6968, 'grad_norm': 5.78125, 'learning_rate': 1.804405972487211e-07, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 555.71, 'epoch': 8.8}
 88%|████████████████████████████████████████████████████████████████████▋         | 6280/7135 [5:43:32<44:19,  3.11s/it] 88%|████████████████████████████████████████████████████████████████████▋         | 6281/7135 [5:43:35<44:02,  3.09s/it] 88%|████████████████████████████████████████████████████████████████████▋         | 6282/7135 [5:43:38<44:35,  3.14s/it] 88%|████████████████████████████████████████████████████████████████████▋         | 6283/7135 [5:43:41<43:43,  3.08s/it] 88%|████████████████████████████████████████████████████████████████████▋         | 6284/7135 [5:43:44<44:57,  3.17s/it] 88%|████████████████████████████████████████████████████████████████████▋         | 6285/7135 [5:43:47<43:15,  3.05s/it] 88%|████████████████████████████████████████████████████████████████████▋         | 6286/7135 [5:43:50<41:59,  2.97s/it] 88%|████████████████████████████████████████████████████████████████████▋         | 6287/7135 [5:43:53<42:13,  2.99s/it] 88%|████████████████████████████████████████████████████████████████████▋         | 6288/7135 [5:43:56<42:56,  3.04s/it] 88%|████████████████████████████████████████████████████████████████████▊         | 6289/7135 [5:43:59<41:28,  2.94s/it] 88%|████████████████████████████████████████████████████████████████████▊         | 6290/7135 [5:44:02<42:01,  2.98s/it]                                                                                                                         {'loss': 0.7478, 'grad_norm': 4.96875, 'learning_rate': 1.762992999285873e-07, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 364.26, 'epoch': 8.81}
 88%|████████████████████████████████████████████████████████████████████▊         | 6290/7135 [5:44:02<42:01,  2.98s/it] 88%|████████████████████████████████████████████████████████████████████▊         | 6291/7135 [5:44:05<41:52,  2.98s/it] 88%|████████████████████████████████████████████████████████████████████▊         | 6292/7135 [5:44:08<42:06,  3.00s/it] 88%|████████████████████████████████████████████████████████████████████▊         | 6293/7135 [5:44:11<41:51,  2.98s/it] 88%|████████████████████████████████████████████████████████████████████▊         | 6294/7135 [5:44:14<42:22,  3.02s/it] 88%|████████████████████████████████████████████████████████████████████▊         | 6295/7135 [5:44:17<43:24,  3.10s/it] 88%|████████████████████████████████████████████████████████████████████▊         | 6296/7135 [5:44:20<43:08,  3.08s/it] 88%|████████████████████████████████████████████████████████████████████▊         | 6297/7135 [5:44:23<41:36,  2.98s/it] 88%|████████████████████████████████████████████████████████████████████▊         | 6298/7135 [5:44:26<41:47,  3.00s/it] 88%|████████████████████████████████████████████████████████████████████▊         | 6299/7135 [5:44:30<44:05,  3.16s/it] 88%|████████████████████████████████████████████████████████████████████▊         | 6300/7135 [5:44:33<45:05,  3.24s/it]                                                                                                                         {'loss': 0.694, 'grad_norm': 5.8125, 'learning_rate': 1.7220434207275928e-07, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 319.21, 'epoch': 8.82}
 88%|████████████████████████████████████████████████████████████████████▊         | 6300/7135 [5:44:33<45:05,  3.24s/it] 88%|████████████████████████████████████████████████████████████████████▉         | 6301/7135 [5:44:36<45:35,  3.28s/it] 88%|████████████████████████████████████████████████████████████████████▉         | 6302/7135 [5:44:39<44:39,  3.22s/it] 88%|████████████████████████████████████████████████████████████████████▉         | 6303/7135 [5:44:42<43:39,  3.15s/it] 88%|████████████████████████████████████████████████████████████████████▉         | 6304/7135 [5:44:45<42:25,  3.06s/it] 88%|████████████████████████████████████████████████████████████████████▉         | 6305/7135 [5:44:48<42:05,  3.04s/it] 88%|████████████████████████████████████████████████████████████████████▉         | 6306/7135 [5:44:52<43:05,  3.12s/it] 88%|████████████████████████████████████████████████████████████████████▉         | 6307/7135 [5:44:54<42:17,  3.07s/it] 88%|████████████████████████████████████████████████████████████████████▉         | 6308/7135 [5:44:57<42:09,  3.06s/it] 88%|████████████████████████████████████████████████████████████████████▉         | 6309/7135 [5:45:01<43:00,  3.12s/it] 88%|████████████████████████████████████████████████████████████████████▉         | 6310/7135 [5:45:04<43:16,  3.15s/it]                                                                                                                         {'loss': 0.8011, 'grad_norm': 4.4375, 'learning_rate': 1.6815580534328302e-07, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 371.86, 'epoch': 8.84}
 88%|████████████████████████████████████████████████████████████████████▉         | 6310/7135 [5:45:04<43:16,  3.15s/it] 88%|████████████████████████████████████████████████████████████████████▉         | 6311/7135 [5:45:07<43:00,  3.13s/it] 88%|█████████████████████████████████████████████████████████████████████         | 6312/7135 [5:45:10<41:50,  3.05s/it] 88%|█████████████████████████████████████████████████████████████████████         | 6313/7135 [5:45:13<41:49,  3.05s/it] 88%|█████████████████████████████████████████████████████████████████████         | 6314/7135 [5:45:17<46:18,  3.38s/it] 89%|█████████████████████████████████████████████████████████████████████         | 6315/7135 [5:45:20<45:13,  3.31s/it] 89%|█████████████████████████████████████████████████████████████████████         | 6316/7135 [5:45:24<46:47,  3.43s/it] 89%|█████████████████████████████████████████████████████████████████████         | 6317/7135 [5:45:27<44:26,  3.26s/it] 89%|█████████████████████████████████████████████████████████████████████         | 6318/7135 [5:45:30<43:04,  3.16s/it] 89%|█████████████████████████████████████████████████████████████████████         | 6319/7135 [5:45:34<45:18,  3.33s/it] 89%|█████████████████████████████████████████████████████████████████████         | 6320/7135 [5:45:37<44:19,  3.26s/it]                                                                                                                         {'loss': 0.6962, 'grad_norm': 6.0625, 'learning_rate': 1.6415377047647063e-07, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 429.5, 'epoch': 8.85}
 89%|█████████████████████████████████████████████████████████████████████         | 6320/7135 [5:45:37<44:19,  3.26s/it] 89%|█████████████████████████████████████████████████████████████████████         | 6321/7135 [5:45:39<41:56,  3.09s/it] 89%|█████████████████████████████████████████████████████████████████████         | 6322/7135 [5:45:43<43:22,  3.20s/it] 89%|█████████████████████████████████████████████████████████████████████         | 6323/7135 [5:45:46<43:19,  3.20s/it] 89%|█████████████████████████████████████████████████████████████████████▏        | 6324/7135 [5:45:49<43:33,  3.22s/it] 89%|█████████████████████████████████████████████████████████████████████▏        | 6325/7135 [5:45:52<41:52,  3.10s/it] 89%|█████████████████████████████████████████████████████████████████████▏        | 6326/7135 [5:45:55<41:40,  3.09s/it] 89%|█████████████████████████████████████████████████████████████████████▏        | 6327/7135 [5:45:58<41:49,  3.11s/it] 89%|█████████████████████████████████████████████████████████████████████▏        | 6328/7135 [5:46:02<43:06,  3.21s/it] 89%|█████████████████████████████████████████████████████████████████████▏        | 6329/7135 [5:46:06<46:25,  3.46s/it] 89%|█████████████████████████████████████████████████████████████████████▏        | 6330/7135 [5:46:09<44:56,  3.35s/it]                                                                                                                         {'loss': 0.6655, 'grad_norm': 4.75, 'learning_rate': 1.601983172812882e-07, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 358.16, 'epoch': 8.87}
 89%|█████████████████████████████████████████████████████████████████████▏        | 6330/7135 [5:46:09<44:56,  3.35s/it] 89%|█████████████████████████████████████████████████████████████████████▏        | 6331/7135 [5:46:12<43:06,  3.22s/it] 89%|█████████████████████████████████████████████████████████████████████▏        | 6332/7135 [5:46:15<43:16,  3.23s/it] 89%|█████████████████████████████████████████████████████████████████████▏        | 6333/7135 [5:46:18<42:24,  3.17s/it] 89%|█████████████████████████████████████████████████████████████████████▏        | 6334/7135 [5:46:21<42:06,  3.15s/it] 89%|█████████████████████████████████████████████████████████████████████▎        | 6335/7135 [5:46:24<42:30,  3.19s/it] 89%|█████████████████████████████████████████████████████████████████████▎        | 6336/7135 [5:46:28<42:34,  3.20s/it] 89%|█████████████████████████████████████████████████████████████████████▎        | 6337/7135 [5:46:31<42:03,  3.16s/it] 89%|█████████████████████████████████████████████████████████████████████▎        | 6338/7135 [5:46:34<41:09,  3.10s/it] 89%|█████████████████████████████████████████████████████████████████████▎        | 6339/7135 [5:46:37<41:05,  3.10s/it] 89%|█████████████████████████████████████████████████████████████████████▎        | 6340/7135 [5:46:40<40:47,  3.08s/it]                                                                                                                         {'loss': 0.7884, 'grad_norm': 5.21875, 'learning_rate': 1.562895246377663e-07, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 395.13, 'epoch': 8.88}
 89%|█████████████████████████████████████████████████████████████████████▎        | 6340/7135 [5:46:40<40:47,  3.08s/it] 89%|█████████████████████████████████████████████████████████████████████▎        | 6341/7135 [5:46:43<40:57,  3.09s/it] 89%|█████████████████████████████████████████████████████████████████████▎        | 6342/7135 [5:46:47<45:25,  3.44s/it] 89%|█████████████████████████████████████████████████████████████████████▎        | 6343/7135 [5:46:50<44:54,  3.40s/it] 89%|█████████████████████████████████████████████████████████████████████▎        | 6344/7135 [5:46:54<44:44,  3.39s/it] 89%|█████████████████████████████████████████████████████████████████████▎        | 6345/7135 [5:46:57<43:47,  3.33s/it] 89%|█████████████████████████████████████████████████████████████████████▎        | 6346/7135 [5:47:00<43:17,  3.29s/it] 89%|█████████████████████████████████████████████████████████████████████▍        | 6347/7135 [5:47:03<42:42,  3.25s/it] 89%|█████████████████████████████████████████████████████████████████████▍        | 6348/7135 [5:47:07<42:05,  3.21s/it] 89%|█████████████████████████████████████████████████████████████████████▍        | 6349/7135 [5:47:10<44:44,  3.42s/it] 89%|█████████████████████████████████████████████████████████████████████▍        | 6350/7135 [5:47:14<43:49,  3.35s/it]                                                                                                                         {'loss': 0.7315, 'grad_norm': 1.984375, 'learning_rate': 1.5242747049542677e-07, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 455.54, 'epoch': 8.89}
 89%|█████████████████████████████████████████████████████████████████████▍        | 6350/7135 [5:47:14<43:49,  3.35s/it] 89%|█████████████████████████████████████████████████████████████████████▍        | 6351/7135 [5:47:17<43:56,  3.36s/it] 89%|█████████████████████████████████████████████████████████████████████▍        | 6352/7135 [5:47:21<44:43,  3.43s/it] 89%|█████████████████████████████████████████████████████████████████████▍        | 6353/7135 [5:47:24<44:45,  3.43s/it] 89%|█████████████████████████████████████████████████████████████████████▍        | 6354/7135 [5:47:27<42:50,  3.29s/it] 89%|█████████████████████████████████████████████████████████████████████▍        | 6355/7135 [5:47:30<42:56,  3.30s/it] 89%|█████████████████████████████████████████████████████████████████████▍        | 6356/7135 [5:47:33<41:16,  3.18s/it] 89%|█████████████████████████████████████████████████████████████████████▍        | 6357/7135 [5:47:37<42:11,  3.25s/it] 89%|█████████████████████████████████████████████████████████████████████▌        | 6358/7135 [5:47:40<42:54,  3.31s/it] 89%|█████████████████████████████████████████████████████████████████████▌        | 6359/7135 [5:47:43<41:10,  3.18s/it] 89%|█████████████████████████████████████████████████████████████████████▌        | 6360/7135 [5:47:46<40:05,  3.10s/it]                                                                                                                         {'loss': 0.7492, 'grad_norm': 5.4375, 'learning_rate': 1.4861223187172674e-07, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 454.48, 'epoch': 8.91}
 89%|█████████████████████████████████████████████████████████████████████▌        | 6360/7135 [5:47:46<40:05,  3.10s/it] 89%|█████████████████████████████████████████████████████████████████████▌        | 6361/7135 [5:47:49<39:16,  3.05s/it] 89%|█████████████████████████████████████████████████████████████████████▌        | 6362/7135 [5:47:53<43:47,  3.40s/it] 89%|█████████████████████████████████████████████████████████████████████▌        | 6363/7135 [5:47:56<43:15,  3.36s/it] 89%|█████████████████████████████████████████████████████████████████████▌        | 6364/7135 [5:47:59<41:41,  3.24s/it] 89%|█████████████████████████████████████████████████████████████████████▌        | 6365/7135 [5:48:02<41:05,  3.20s/it] 89%|█████████████████████████████████████████████████████████████████████▌        | 6366/7135 [5:48:06<41:13,  3.22s/it] 89%|█████████████████████████████████████████████████████████████████████▌        | 6367/7135 [5:48:09<40:11,  3.14s/it] 89%|█████████████████████████████████████████████████████████████████████▌        | 6368/7135 [5:48:11<39:09,  3.06s/it] 89%|█████████████████████████████████████████████████████████████████████▋        | 6369/7135 [5:48:14<38:43,  3.03s/it] 89%|█████████████████████████████████████████████████████████████████████▋        | 6370/7135 [5:48:18<40:18,  3.16s/it]                                                                                                                         {'loss': 0.8889, 'grad_norm': 4.71875, 'learning_rate': 1.4484388485052375e-07, 'memory/max_active (GiB)': 37.43, 'memory/max_allocated (GiB)': 37.43, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 376.5, 'epoch': 8.92}
 89%|█████████████████████████████████████████████████████████████████████▋        | 6370/7135 [5:48:18<40:18,  3.16s/it] 89%|█████████████████████████████████████████████████████████████████████▋        | 6371/7135 [5:48:21<38:49,  3.05s/it] 89%|█████████████████████████████████████████████████████████████████████▋        | 6372/7135 [5:48:25<42:11,  3.32s/it] 89%|█████████████████████████████████████████████████████████████████████▋        | 6373/7135 [5:48:27<39:44,  3.13s/it] 89%|█████████████████████████████████████████████████████████████████████▋        | 6374/7135 [5:48:31<41:51,  3.30s/it] 89%|█████████████████████████████████████████████████████████████████████▋        | 6375/7135 [5:48:35<42:38,  3.37s/it] 89%|█████████████████████████████████████████████████████████████████████▋        | 6376/7135 [5:48:38<41:13,  3.26s/it] 89%|█████████████████████████████████████████████████████████████████████▋        | 6377/7135 [5:48:41<41:15,  3.27s/it] 89%|█████████████████████████████████████████████████████████████████████▋        | 6378/7135 [5:48:44<40:51,  3.24s/it] 89%|█████████████████████████████████████████████████████████████████████▋        | 6379/7135 [5:48:47<40:14,  3.19s/it] 89%|█████████████████████████████████████████████████████████████████████▋        | 6380/7135 [5:48:50<38:35,  3.07s/it]                                                                                                                         {'loss': 0.7562, 'grad_norm': 5.6875, 'learning_rate': 1.4112250458055976e-07, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 445.29, 'epoch': 8.94}
 89%|█████████████████████████████████████████████████████████████████████▋        | 6380/7135 [5:48:50<38:35,  3.07s/it] 89%|█████████████████████████████████████████████████████████████████████▊        | 6381/7135 [5:48:53<40:00,  3.18s/it] 89%|█████████████████████████████████████████████████████████████████████▊        | 6382/7135 [5:48:56<39:30,  3.15s/it] 89%|█████████████████████████████████████████████████████████████████████▊        | 6383/7135 [5:49:00<42:00,  3.35s/it] 89%|█████████████████████████████████████████████████████████████████████▊        | 6384/7135 [5:49:05<47:13,  3.77s/it] 89%|█████████████████████████████████████████████████████████████████████▊        | 6385/7135 [5:49:08<43:16,  3.46s/it] 90%|█████████████████████████████████████████████████████████████████████▊        | 6386/7135 [5:49:11<42:09,  3.38s/it] 90%|█████████████████████████████████████████████████████████████████████▊        | 6387/7135 [5:49:14<40:45,  3.27s/it] 90%|█████████████████████████████████████████████████████████████████████▊        | 6388/7135 [5:49:18<45:12,  3.63s/it] 90%|█████████████████████████████████████████████████████████████████████▊        | 6389/7135 [5:49:22<46:22,  3.73s/it] 90%|█████████████████████████████████████████████████████████████████████▊        | 6390/7135 [5:49:25<43:12,  3.48s/it]                                                                                                                         {'loss': 0.9187, 'grad_norm': 3.59375, 'learning_rate': 1.374481652739601e-07, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 614.29, 'epoch': 8.95}
 90%|█████████████████████████████████████████████████████████████████████▊        | 6390/7135 [5:49:25<43:12,  3.48s/it] 90%|█████████████████████████████████████████████████████████████████████▊        | 6391/7135 [5:49:29<42:49,  3.45s/it] 90%|█████████████████████████████████████████████████████████████████████▉        | 6392/7135 [5:49:31<39:57,  3.23s/it] 90%|█████████████████████████████████████████████████████████████████████▉        | 6393/7135 [5:49:34<38:55,  3.15s/it] 90%|█████████████████████████████████████████████████████████████████████▉        | 6394/7135 [5:49:37<37:56,  3.07s/it] 90%|█████████████████████████████████████████████████████████████████████▉        | 6395/7135 [5:49:40<36:50,  2.99s/it] 90%|█████████████████████████████████████████████████████████████████████▉        | 6396/7135 [5:49:43<37:02,  3.01s/it] 90%|█████████████████████████████████████████████████████████████████████▉        | 6397/7135 [5:49:46<36:09,  2.94s/it] 90%|█████████████████████████████████████████████████████████████████████▉        | 6398/7135 [5:49:49<36:17,  2.95s/it] 90%|█████████████████████████████████████████████████████████████████████▉        | 6399/7135 [5:49:52<38:09,  3.11s/it] 90%|█████████████████████████████████████████████████████████████████████▉        | 6400/7135 [5:49:55<37:38,  3.07s/it]                                                                                                                         {'loss': 0.7097, 'grad_norm': 4.6875, 'learning_rate': 1.3382094020475466e-07, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 370.73, 'epoch': 8.96}
 90%|█████████████████████████████████████████████████████████████████████▉        | 6400/7135 [5:49:55<37:38,  3.07s/it] 90%|█████████████████████████████████████████████████████████████████████▉        | 6401/7135 [5:49:58<35:57,  2.94s/it] 90%|█████████████████████████████████████████████████████████████████████▉        | 6402/7135 [5:50:01<36:40,  3.00s/it] 90%|█████████████████████████████████████████████████████████████████████▉        | 6403/7135 [5:50:04<36:33,  3.00s/it] 90%|██████████████████████████████████████████████████████████████████████        | 6404/7135 [5:50:07<38:08,  3.13s/it] 90%|██████████████████████████████████████████████████████████████████████        | 6405/7135 [5:50:11<39:24,  3.24s/it] 90%|██████████████████████████████████████████████████████████████████████        | 6406/7135 [5:50:14<39:33,  3.26s/it] 90%|██████████████████████████████████████████████████████████████████████        | 6407/7135 [5:50:17<38:52,  3.20s/it] 90%|██████████████████████████████████████████████████████████████████████        | 6408/7135 [5:50:21<40:18,  3.33s/it] 90%|██████████████████████████████████████████████████████████████████████        | 6409/7135 [5:50:24<38:56,  3.22s/it] 90%|██████████████████████████████████████████████████████████████████████        | 6410/7135 [5:50:27<38:46,  3.21s/it]                                                                                                                         {'loss': 0.833, 'grad_norm': 5.5, 'learning_rate': 1.3024090170741716e-07, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 417.99, 'epoch': 8.98}
 90%|██████████████████████████████████████████████████████████████████████        | 6410/7135 [5:50:27<38:46,  3.21s/it] 90%|██████████████████████████████████████████████████████████████████████        | 6411/7135 [5:50:31<39:32,  3.28s/it] 90%|██████████████████████████████████████████████████████████████████████        | 6412/7135 [5:50:34<39:10,  3.25s/it] 90%|██████████████████████████████████████████████████████████████████████        | 6413/7135 [5:50:37<38:11,  3.17s/it] 90%|██████████████████████████████████████████████████████████████████████        | 6414/7135 [5:50:40<37:28,  3.12s/it] 90%|██████████████████████████████████████████████████████████████████████▏       | 6415/7135 [5:50:43<38:30,  3.21s/it] 90%|██████████████████████████████████████████████████████████████████████▏       | 6416/7135 [5:50:46<38:06,  3.18s/it] 90%|██████████████████████████████████████████████████████████████████████▏       | 6417/7135 [5:50:50<40:18,  3.37s/it] 90%|██████████████████████████████████████████████████████████████████████▏       | 6418/7135 [5:50:54<42:04,  3.52s/it] 90%|██████████████████████████████████████████████████████████████████████▏       | 6419/7135 [5:50:57<41:17,  3.46s/it] 90%|██████████████████████████████████████████████████████████████████████▏       | 6420/7135 [5:51:00<40:27,  3.39s/it]                                                                                                                         {'loss': 0.8098, 'grad_norm': 4.59375, 'learning_rate': 1.2670812117542146e-07, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 376.25, 'epoch': 8.99}
 90%|██████████████████████████████████████████████████████████████████████▏       | 6420/7135 [5:51:01<40:27,  3.39s/it] 90%|██████████████████████████████████████████████████████████████████████▏       | 6421/7135 [5:51:03<38:09,  3.21s/it] 90%|██████████████████████████████████████████████████████████████████████▏       | 6422/7135 [5:51:07<39:44,  3.34s/it] 90%|██████████████████████████████████████████████████████████████████████▏       | 6423/7135 [5:51:10<39:02,  3.29s/it] 90%|██████████████████████████████████████████████████████████████████████▏       | 6424/7135 [5:51:13<39:25,  3.33s/it] 90%|██████████████████████████████████████████████████████████████████████▏       | 6425/7135 [5:51:16<38:13,  3.23s/it] 90%|██████████████████████████████████████████████████████████████████████▏       | 6426/7135 [5:51:18<32:26,  2.74s/it][2025-12-23 20:15:24,263] [INFO] [axolotl.core.trainers.base._save:671] [PID:5064] Saving model checkpoint to ./outputs/qwen3-4b-instruct-abd-full-train/checkpoint-6426
 90%|████████████████████████████████████████████████████████████████████▍       | 6427/7135 [5:52:22<4:10:34, 21.23s/it] 90%|████████████████████████████████████████████████████████████████████▍       | 6428/7135 [5:52:26<3:06:13, 15.80s/it] 90%|████████████████████████████████████████████████████████████████████▍       | 6429/7135 [5:52:29<2:21:50, 12.06s/it] 90%|████████████████████████████████████████████████████████████████████▍       | 6430/7135 [5:52:32<1:48:55,  9.27s/it]                                                                                                                         {'loss': 0.8396, 'grad_norm': 5.46875, 'learning_rate': 1.2322266905981927e-07, 'memory/max_active (GiB)': 37.88, 'memory/max_allocated (GiB)': 37.88, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 476.5, 'epoch': 9.01}
 90%|████████████████████████████████████████████████████████████████████▍       | 6430/7135 [5:52:32<1:48:55,  9.27s/it] 90%|████████████████████████████████████████████████████████████████████▌       | 6431/7135 [5:52:35<1:27:58,  7.50s/it] 90%|████████████████████████████████████████████████████████████████████▌       | 6432/7135 [5:52:38<1:12:16,  6.17s/it] 90%|████████████████████████████████████████████████████████████████████▌       | 6433/7135 [5:52:42<1:03:31,  5.43s/it] 90%|██████████████████████████████████████████████████████████████████████▎       | 6434/7135 [5:52:45<55:01,  4.71s/it] 90%|██████████████████████████████████████████████████████████████████████▎       | 6435/7135 [5:52:48<49:10,  4.21s/it] 90%|██████████████████████████████████████████████████████████████████████▎       | 6436/7135 [5:52:51<45:07,  3.87s/it] 90%|██████████████████████████████████████████████████████████████████████▎       | 6437/7135 [5:52:54<43:30,  3.74s/it] 90%|██████████████████████████████████████████████████████████████████████▍       | 6438/7135 [5:52:58<42:14,  3.64s/it] 90%|██████████████████████████████████████████████████████████████████████▍       | 6439/7135 [5:53:01<40:24,  3.48s/it] 90%|██████████████████████████████████████████████████████████████████████▍       | 6440/7135 [5:53:05<41:08,  3.55s/it]                                                                                                                         {'loss': 0.964, 'grad_norm': 4.625, 'learning_rate': 1.1978461486783416e-07, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 432.06, 'epoch': 9.02}
 90%|██████████████████████████████████████████████████████████████████████▍       | 6440/7135 [5:53:05<41:08,  3.55s/it] 90%|██████████████████████████████████████████████████████████████████████▍       | 6441/7135 [5:53:08<38:47,  3.35s/it] 90%|██████████████████████████████████████████████████████████████████████▍       | 6442/7135 [5:53:10<37:01,  3.21s/it] 90%|██████████████████████████████████████████████████████████████████████▍       | 6443/7135 [5:53:14<37:17,  3.23s/it] 90%|██████████████████████████████████████████████████████████████████████▍       | 6444/7135 [5:53:17<37:04,  3.22s/it] 90%|██████████████████████████████████████████████████████████████████████▍       | 6445/7135 [5:53:20<36:58,  3.22s/it] 90%|██████████████████████████████████████████████████████████████████████▍       | 6446/7135 [5:53:23<36:30,  3.18s/it] 90%|██████████████████████████████████████████████████████████████████████▍       | 6447/7135 [5:53:27<38:28,  3.36s/it] 90%|██████████████████████████████████████████████████████████████████████▍       | 6448/7135 [5:53:30<38:41,  3.38s/it] 90%|██████████████████████████████████████████████████████████████████████▌       | 6449/7135 [5:53:34<37:45,  3.30s/it] 90%|██████████████████████████████████████████████████████████████████████▌       | 6450/7135 [5:53:37<36:57,  3.24s/it]                                                                                                                         {'loss': 0.7978, 'grad_norm': 4.5625, 'learning_rate': 1.1639402716147525e-07, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 401.72, 'epoch': 9.03}
 90%|██████████████████████████████████████████████████████████████████████▌       | 6450/7135 [5:53:37<36:57,  3.24s/it] 90%|██████████████████████████████████████████████████████████████████████▌       | 6451/7135 [5:53:39<35:32,  3.12s/it] 90%|██████████████████████████████████████████████████████████████████████▌       | 6452/7135 [5:53:42<34:27,  3.03s/it] 90%|██████████████████████████████████████████████████████████████████████▌       | 6453/7135 [5:53:46<36:09,  3.18s/it] 90%|██████████████████████████████████████████████████████████████████████▌       | 6454/7135 [5:53:49<35:41,  3.14s/it] 90%|██████████████████████████████████████████████████████████████████████▌       | 6455/7135 [5:53:52<35:09,  3.10s/it] 90%|██████████████████████████████████████████████████████████████████████▌       | 6456/7135 [5:53:55<35:13,  3.11s/it] 90%|██████████████████████████████████████████████████████████████████████▌       | 6457/7135 [5:53:59<36:29,  3.23s/it] 91%|██████████████████████████████████████████████████████████████████████▌       | 6458/7135 [5:54:02<36:06,  3.20s/it] 91%|██████████████████████████████████████████████████████████████████████▌       | 6459/7135 [5:54:05<36:39,  3.25s/it] 91%|██████████████████████████████████████████████████████████████████████▌       | 6460/7135 [5:54:08<36:16,  3.22s/it]                                                                                                                         {'loss': 0.7774, 'grad_norm': 4.875, 'learning_rate': 1.1305097355617106e-07, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 372.61, 'epoch': 9.05}
 91%|██████████████████████████████████████████████████████████████████████▌       | 6460/7135 [5:54:08<36:16,  3.22s/it] 91%|██████████████████████████████████████████████████████████████████████▋       | 6461/7135 [5:54:12<36:42,  3.27s/it] 91%|██████████████████████████████████████████████████████████████████████▋       | 6462/7135 [5:54:15<36:04,  3.22s/it] 91%|██████████████████████████████████████████████████████████████████████▋       | 6463/7135 [5:54:18<35:44,  3.19s/it] 91%|██████████████████████████████████████████████████████████████████████▋       | 6464/7135 [5:54:21<36:55,  3.30s/it] 91%|██████████████████████████████████████████████████████████████████████▋       | 6465/7135 [5:54:24<36:17,  3.25s/it] 91%|██████████████████████████████████████████████████████████████████████▋       | 6466/7135 [5:54:27<35:25,  3.18s/it] 91%|██████████████████████████████████████████████████████████████████████▋       | 6467/7135 [5:54:31<36:37,  3.29s/it] 91%|██████████████████████████████████████████████████████████████████████▋       | 6468/7135 [5:54:34<35:48,  3.22s/it] 91%|██████████████████████████████████████████████████████████████████████▋       | 6469/7135 [5:54:37<35:44,  3.22s/it] 91%|██████████████████████████████████████████████████████████████████████▋       | 6470/7135 [5:54:41<38:07,  3.44s/it]                                                                                                                         {'loss': 0.79, 'grad_norm': 1.8125, 'learning_rate': 1.0975552071942037e-07, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 408.1, 'epoch': 9.06}
 91%|██████████████████████████████████████████████████████████████████████▋       | 6470/7135 [5:54:41<38:07,  3.44s/it] 91%|██████████████████████████████████████████████████████████████████████▋       | 6471/7135 [5:54:45<38:07,  3.45s/it] 91%|██████████████████████████████████████████████████████████████████████▊       | 6472/7135 [5:54:48<36:24,  3.29s/it] 91%|██████████████████████████████████████████████████████████████████████▊       | 6473/7135 [5:54:51<36:26,  3.30s/it] 91%|██████████████████████████████████████████████████████████████████████▊       | 6474/7135 [5:54:54<35:30,  3.22s/it] 91%|██████████████████████████████████████████████████████████████████████▊       | 6475/7135 [5:54:57<35:28,  3.22s/it] 91%|██████████████████████████████████████████████████████████████████████▊       | 6476/7135 [5:55:00<33:47,  3.08s/it] 91%|██████████████████████████████████████████████████████████████████████▊       | 6477/7135 [5:55:03<34:12,  3.12s/it] 91%|██████████████████████████████████████████████████████████████████████▊       | 6478/7135 [5:55:06<34:39,  3.17s/it] 91%|██████████████████████████████████████████████████████████████████████▊       | 6479/7135 [5:55:10<35:04,  3.21s/it] 91%|██████████████████████████████████████████████████████████████████████▊       | 6480/7135 [5:55:13<35:28,  3.25s/it]                                                                                                                         {'loss': 0.8518, 'grad_norm': 4.84375, 'learning_rate': 1.0650773436946261e-07, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 386.07, 'epoch': 9.08}
 91%|██████████████████████████████████████████████████████████████████████▊       | 6480/7135 [5:55:13<35:28,  3.25s/it] 91%|██████████████████████████████████████████████████████████████████████▊       | 6481/7135 [5:55:16<34:06,  3.13s/it] 91%|██████████████████████████████████████████████████████████████████████▊       | 6482/7135 [5:55:19<33:41,  3.10s/it] 91%|██████████████████████████████████████████████████████████████████████▊       | 6483/7135 [5:55:22<33:34,  3.09s/it] 91%|██████████████████████████████████████████████████████████████████████▉       | 6484/7135 [5:55:25<34:05,  3.14s/it] 91%|██████████████████████████████████████████████████████████████████████▉       | 6485/7135 [5:55:30<37:37,  3.47s/it] 91%|██████████████████████████████████████████████████████████████████████▉       | 6486/7135 [5:55:33<36:05,  3.34s/it] 91%|██████████████████████████████████████████████████████████████████████▉       | 6487/7135 [5:55:36<34:58,  3.24s/it] 91%|██████████████████████████████████████████████████████████████████████▉       | 6488/7135 [5:55:39<34:32,  3.20s/it] 91%|██████████████████████████████████████████████████████████████████████▉       | 6489/7135 [5:55:42<33:33,  3.12s/it] 91%|██████████████████████████████████████████████████████████████████████▉       | 6490/7135 [5:55:45<34:11,  3.18s/it]                                                                                                                         {'loss': 0.6538, 'grad_norm': 5.4375, 'learning_rate': 1.0330767927396706e-07, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 336.42, 'epoch': 9.09}
 91%|██████████████████████████████████████████████████████████████████████▉       | 6490/7135 [5:55:45<34:11,  3.18s/it] 91%|██████████████████████████████████████████████████████████████████████▉       | 6491/7135 [5:55:48<34:06,  3.18s/it] 91%|██████████████████████████████████████████████████████████████████████▉       | 6492/7135 [5:55:51<34:13,  3.19s/it] 91%|██████████████████████████████████████████████████████████████████████▉       | 6493/7135 [5:55:55<34:27,  3.22s/it] 91%|██████████████████████████████████████████████████████████████████████▉       | 6494/7135 [5:55:58<34:37,  3.24s/it] 91%|███████████████████████████████████████████████████████████████████████       | 6495/7135 [5:56:01<33:44,  3.16s/it] 91%|███████████████████████████████████████████████████████████████████████       | 6496/7135 [5:56:04<32:58,  3.10s/it] 91%|███████████████████████████████████████████████████████████████████████       | 6497/7135 [5:56:08<35:30,  3.34s/it] 91%|███████████████████████████████████████████████████████████████████████       | 6498/7135 [5:56:11<35:15,  3.32s/it] 91%|███████████████████████████████████████████████████████████████████████       | 6499/7135 [5:56:14<34:07,  3.22s/it] 91%|███████████████████████████████████████████████████████████████████████       | 6500/7135 [5:56:17<32:55,  3.11s/it]                                                                                                                         {'loss': 0.7303, 'grad_norm': 5.21875, 'learning_rate': 1.0015541924874305e-07, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 489.15, 'epoch': 9.1}
 91%|███████████████████████████████████████████████████████████████████████       | 6500/7135 [5:56:17<32:55,  3.11s/it] 91%|███████████████████████████████████████████████████████████████████████       | 6501/7135 [5:56:20<33:18,  3.15s/it] 91%|███████████████████████████████████████████████████████████████████████       | 6502/7135 [5:56:24<34:23,  3.26s/it] 91%|███████████████████████████████████████████████████████████████████████       | 6503/7135 [5:56:28<36:54,  3.50s/it] 91%|███████████████████████████████████████████████████████████████████████       | 6504/7135 [5:56:30<34:34,  3.29s/it] 91%|███████████████████████████████████████████████████████████████████████       | 6505/7135 [5:56:34<33:42,  3.21s/it] 91%|███████████████████████████████████████████████████████████████████████       | 6506/7135 [5:56:36<32:12,  3.07s/it] 91%|███████████████████████████████████████████████████████████████████████▏      | 6507/7135 [5:56:39<31:44,  3.03s/it] 91%|███████████████████████████████████████████████████████████████████████▏      | 6508/7135 [5:56:42<32:06,  3.07s/it] 91%|███████████████████████████████████████████████████████████████████████▏      | 6509/7135 [5:56:46<33:38,  3.22s/it] 91%|███████████████████████████████████████████████████████████████████████▏      | 6510/7135 [5:56:49<32:48,  3.15s/it]                                                                                                                         {'loss': 0.8395, 'grad_norm': 5.28125, 'learning_rate': 9.705101715646481e-08, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 408.41, 'epoch': 9.12}
 91%|███████████████████████████████████████████████████████████████████████▏      | 6510/7135 [5:56:49<32:48,  3.15s/it] 91%|███████████████████████████████████████████████████████████████████████▏      | 6511/7135 [5:56:52<33:10,  3.19s/it] 91%|███████████████████████████████████████████████████████████████████████▏      | 6512/7135 [5:56:56<33:29,  3.23s/it] 91%|███████████████████████████████████████████████████████████████████████▏      | 6513/7135 [5:56:58<32:37,  3.15s/it] 91%|███████████████████████████████████████████████████████████████████████▏      | 6514/7135 [5:57:01<31:43,  3.07s/it] 91%|███████████████████████████████████████████████████████████████████████▏      | 6515/7135 [5:57:05<34:42,  3.36s/it] 91%|███████████████████████████████████████████████████████████████████████▏      | 6516/7135 [5:57:09<34:04,  3.30s/it] 91%|███████████████████████████████████████████████████████████████████████▏      | 6517/7135 [5:57:12<35:26,  3.44s/it] 91%|███████████████████████████████████████████████████████████████████████▎      | 6518/7135 [5:57:16<34:35,  3.36s/it] 91%|███████████████████████████████████████████████████████████████████████▎      | 6519/7135 [5:57:18<32:44,  3.19s/it] 91%|███████████████████████████████████████████████████████████████████████▎      | 6520/7135 [5:57:21<32:39,  3.19s/it]                                                                                                                         {'loss': 0.653, 'grad_norm': 5.15625, 'learning_rate': 9.399453490541916e-08, 'memory/max_active (GiB)': 43.75, 'memory/max_allocated (GiB)': 43.75, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 383.3, 'epoch': 9.13}
 91%|███████████████████████████████████████████████████████████████████████▎      | 6520/7135 [5:57:22<32:39,  3.19s/it] 91%|███████████████████████████████████████████████████████████████████████▎      | 6521/7135 [5:57:25<34:35,  3.38s/it] 91%|███████████████████████████████████████████████████████████████████████▎      | 6522/7135 [5:57:28<33:45,  3.30s/it] 91%|███████████████████████████████████████████████████████████████████████▎      | 6523/7135 [5:57:32<33:21,  3.27s/it] 91%|███████████████████████████████████████████████████████████████████████▎      | 6524/7135 [5:57:34<30:47,  3.02s/it] 91%|███████████████████████████████████████████████████████████████████████▎      | 6525/7135 [5:57:37<30:34,  3.01s/it] 91%|███████████████████████████████████████████████████████████████████████▎      | 6526/7135 [5:57:40<29:41,  2.93s/it] 91%|███████████████████████████████████████████████████████████████████████▎      | 6527/7135 [5:57:43<29:54,  2.95s/it] 91%|███████████████████████████████████████████████████████████████████████▎      | 6528/7135 [5:57:46<30:25,  3.01s/it] 92%|███████████████████████████████████████████████████████████████████████▍      | 6529/7135 [5:57:49<30:28,  3.02s/it] 92%|███████████████████████████████████████████████████████████████████████▍      | 6530/7135 [5:57:53<32:37,  3.24s/it]                                                                                                                         {'loss': 0.7049, 'grad_norm': 6.875, 'learning_rate': 9.098603344827123e-08, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 334.45, 'epoch': 9.15}
 92%|███████████████████████████████████████████████████████████████████████▍      | 6530/7135 [5:57:53<32:37,  3.24s/it] 92%|███████████████████████████████████████████████████████████████████████▍      | 6531/7135 [5:57:56<32:31,  3.23s/it] 92%|███████████████████████████████████████████████████████████████████████▍      | 6532/7135 [5:57:59<31:59,  3.18s/it] 92%|███████████████████████████████████████████████████████████████████████▍      | 6533/7135 [5:58:02<31:38,  3.15s/it] 92%|███████████████████████████████████████████████████████████████████████▍      | 6534/7135 [5:58:05<32:19,  3.23s/it] 92%|███████████████████████████████████████████████████████████████████████▍      | 6535/7135 [5:58:10<34:44,  3.47s/it] 92%|███████████████████████████████████████████████████████████████████████▍      | 6536/7135 [5:58:13<33:43,  3.38s/it] 92%|███████████████████████████████████████████████████████████████████████▍      | 6537/7135 [5:58:16<32:55,  3.30s/it] 92%|███████████████████████████████████████████████████████████████████████▍      | 6538/7135 [5:58:19<33:11,  3.34s/it] 92%|███████████████████████████████████████████████████████████████████████▍      | 6539/7135 [5:58:23<33:06,  3.33s/it] 92%|███████████████████████████████████████████████████████████████████████▍      | 6540/7135 [5:58:26<32:14,  3.25s/it]                                                                                                                         {'loss': 0.7344, 'grad_norm': 5.09375, 'learning_rate': 8.802557278084822e-08, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 423.97, 'epoch': 9.16}
 92%|███████████████████████████████████████████████████████████████████████▍      | 6540/7135 [5:58:26<32:14,  3.25s/it] 92%|███████████████████████████████████████████████████████████████████████▌      | 6541/7135 [5:58:29<32:28,  3.28s/it] 92%|███████████████████████████████████████████████████████████████████████▌      | 6542/7135 [5:58:32<32:44,  3.31s/it] 92%|███████████████████████████████████████████████████████████████████████▌      | 6543/7135 [5:58:36<32:33,  3.30s/it] 92%|███████████████████████████████████████████████████████████████████████▌      | 6544/7135 [5:58:39<33:00,  3.35s/it] 92%|███████████████████████████████████████████████████████████████████████▌      | 6545/7135 [5:58:42<32:23,  3.29s/it] 92%|███████████████████████████████████████████████████████████████████████▌      | 6546/7135 [5:58:46<32:46,  3.34s/it] 92%|███████████████████████████████████████████████████████████████████████▌      | 6547/7135 [5:58:49<32:59,  3.37s/it] 92%|███████████████████████████████████████████████████████████████████████▌      | 6548/7135 [5:58:52<32:53,  3.36s/it] 92%|███████████████████████████████████████████████████████████████████████▌      | 6549/7135 [5:58:56<32:29,  3.33s/it] 92%|███████████████████████████████████████████████████████████████████████▌      | 6550/7135 [5:58:59<31:16,  3.21s/it]                                                                                                                         {'loss': 0.7514, 'grad_norm': 5.0, 'learning_rate': 8.511321194094313e-08, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 429.7, 'epoch': 9.17}
 92%|███████████████████████████████████████████████████████████████████████▌      | 6550/7135 [5:58:59<31:16,  3.21s/it] 92%|███████████████████████████████████████████████████████████████████████▌      | 6551/7135 [5:59:02<32:38,  3.35s/it] 92%|███████████████████████████████████████████████████████████████████████▋      | 6552/7135 [5:59:06<32:20,  3.33s/it] 92%|███████████████████████████████████████████████████████████████████████▋      | 6553/7135 [5:59:09<32:39,  3.37s/it] 92%|███████████████████████████████████████████████████████████████████████▋      | 6554/7135 [5:59:12<30:55,  3.19s/it] 92%|███████████████████████████████████████████████████████████████████████▋      | 6555/7135 [5:59:15<31:35,  3.27s/it] 92%|███████████████████████████████████████████████████████████████████████▋      | 6556/7135 [5:59:18<30:24,  3.15s/it] 92%|███████████████████████████████████████████████████████████████████████▋      | 6557/7135 [5:59:21<29:04,  3.02s/it] 92%|███████████████████████████████████████████████████████████████████████▋      | 6558/7135 [5:59:24<28:40,  2.98s/it] 92%|███████████████████████████████████████████████████████████████████████▋      | 6559/7135 [5:59:27<28:51,  3.01s/it] 92%|███████████████████████████████████████████████████████████████████████▋      | 6560/7135 [5:59:30<29:14,  3.05s/it]                                                                                                                         {'loss': 0.6784, 'grad_norm': 4.90625, 'learning_rate': 8.224900900713818e-08, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 332.32, 'epoch': 9.19}
 92%|███████████████████████████████████████████████████████████████████████▋      | 6560/7135 [5:59:30<29:14,  3.05s/it] 92%|███████████████████████████████████████████████████████████████████████▋      | 6561/7135 [5:59:33<30:23,  3.18s/it] 92%|███████████████████████████████████████████████████████████████████████▋      | 6562/7135 [5:59:37<31:23,  3.29s/it] 92%|███████████████████████████████████████████████████████████████████████▋      | 6563/7135 [5:59:40<30:53,  3.24s/it] 92%|███████████████████████████████████████████████████████████████████████▊      | 6564/7135 [5:59:44<31:30,  3.31s/it] 92%|███████████████████████████████████████████████████████████████████████▊      | 6565/7135 [5:59:47<31:23,  3.30s/it] 92%|███████████████████████████████████████████████████████████████████████▊      | 6566/7135 [5:59:50<31:20,  3.30s/it] 92%|███████████████████████████████████████████████████████████████████████▊      | 6567/7135 [5:59:54<31:31,  3.33s/it] 92%|███████████████████████████████████████████████████████████████████████▊      | 6568/7135 [5:59:58<33:10,  3.51s/it] 92%|███████████████████████████████████████████████████████████████████████▊      | 6569/7135 [6:00:01<32:19,  3.43s/it] 92%|███████████████████████████████████████████████████████████████████████▊      | 6570/7135 [6:00:04<32:00,  3.40s/it]                                                                                                                         {'loss': 0.655, 'grad_norm': 4.625, 'learning_rate': 7.943302109764517e-08, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 409.6, 'epoch': 9.2}
 92%|███████████████████████████████████████████████████████████████████████▊      | 6570/7135 [6:00:04<32:00,  3.40s/it] 92%|███████████████████████████████████████████████████████████████████████▊      | 6571/7135 [6:00:07<30:47,  3.28s/it] 92%|███████████████████████████████████████████████████████████████████████▊      | 6572/7135 [6:00:10<30:52,  3.29s/it] 92%|███████████████████████████████████████████████████████████████████████▊      | 6573/7135 [6:00:13<28:56,  3.09s/it] 92%|███████████████████████████████████████████████████████████████████████▊      | 6574/7135 [6:00:16<28:37,  3.06s/it] 92%|███████████████████████████████████████████████████████████████████████▉      | 6575/7135 [6:00:19<28:30,  3.05s/it] 92%|███████████████████████████████████████████████████████████████████████▉      | 6576/7135 [6:00:22<28:15,  3.03s/it] 92%|███████████████████████████████████████████████████████████████████████▉      | 6577/7135 [6:00:25<27:36,  2.97s/it] 92%|███████████████████████████████████████████████████████████████████████▉      | 6578/7135 [6:00:28<27:39,  2.98s/it] 92%|███████████████████████████████████████████████████████████████████████▉      | 6579/7135 [6:00:31<27:57,  3.02s/it] 92%|███████████████████████████████████████████████████████████████████████▉      | 6580/7135 [6:00:34<27:14,  2.94s/it]                                                                                                                         {'loss': 0.677, 'grad_norm': 4.34375, 'learning_rate': 7.666530436916814e-08, 'memory/max_active (GiB)': 34.53, 'memory/max_allocated (GiB)': 34.53, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 374.84, 'epoch': 9.22}
 92%|███████████████████████████████████████████████████████████████████████▉      | 6580/7135 [6:00:34<27:14,  2.94s/it] 92%|███████████████████████████████████████████████████████████████████████▉      | 6581/7135 [6:00:37<27:59,  3.03s/it] 92%|███████████████████████████████████████████████████████████████████████▉      | 6582/7135 [6:00:40<28:17,  3.07s/it] 92%|███████████████████████████████████████████████████████████████████████▉      | 6583/7135 [6:00:43<28:38,  3.11s/it] 92%|███████████████████████████████████████████████████████████████████████▉      | 6584/7135 [6:00:47<29:29,  3.21s/it] 92%|███████████████████████████████████████████████████████████████████████▉      | 6585/7135 [6:00:50<30:02,  3.28s/it] 92%|███████████████████████████████████████████████████████████████████████▉      | 6586/7135 [6:00:53<29:12,  3.19s/it] 92%|████████████████████████████████████████████████████████████████████████      | 6587/7135 [6:00:56<28:21,  3.10s/it] 92%|████████████████████████████████████████████████████████████████████████      | 6588/7135 [6:00:59<27:55,  3.06s/it] 92%|████████████████████████████████████████████████████████████████████████      | 6589/7135 [6:01:03<29:00,  3.19s/it] 92%|████████████████████████████████████████████████████████████████████████      | 6590/7135 [6:01:06<28:36,  3.15s/it]                                                                                                                         {'loss': 0.5958, 'grad_norm': 4.46875, 'learning_rate': 7.394591401578166e-08, 'memory/max_active (GiB)': 39.08, 'memory/max_allocated (GiB)': 39.08, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 498.04, 'epoch': 9.23}
 92%|████████████████████████████████████████████████████████████████████████      | 6590/7135 [6:01:06<28:36,  3.15s/it] 92%|████████████████████████████████████████████████████████████████████████      | 6591/7135 [6:01:08<27:31,  3.04s/it] 92%|████████████████████████████████████████████████████████████████████████      | 6592/7135 [6:01:12<28:50,  3.19s/it] 92%|████████████████████████████████████████████████████████████████████████      | 6593/7135 [6:01:15<28:24,  3.15s/it] 92%|████████████████████████████████████████████████████████████████████████      | 6594/7135 [6:01:18<28:11,  3.13s/it] 92%|████████████████████████████████████████████████████████████████████████      | 6595/7135 [6:01:21<27:41,  3.08s/it] 92%|████████████████████████████████████████████████████████████████████████      | 6596/7135 [6:01:25<28:44,  3.20s/it] 92%|████████████████████████████████████████████████████████████████████████      | 6597/7135 [6:01:28<30:42,  3.43s/it] 92%|████████████████████████████████████████████████████████████████████████▏     | 6598/7135 [6:01:31<28:32,  3.19s/it] 92%|████████████████████████████████████████████████████████████████████████▏     | 6599/7135 [6:01:34<27:13,  3.05s/it] 93%|████████████████████████████████████████████████████████████████████████▏     | 6600/7135 [6:01:38<29:24,  3.30s/it]                                                                                                                         {'loss': 0.7783, 'grad_norm': 4.125, 'learning_rate': 7.127490426783124e-08, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 329.2, 'epoch': 9.24}
 93%|████████████████████████████████████████████████████████████████████████▏     | 6600/7135 [6:01:38<29:24,  3.30s/it] 93%|████████████████████████████████████████████████████████████████████████▏     | 6601/7135 [6:01:41<28:25,  3.19s/it] 93%|████████████████████████████████████████████████████████████████████████▏     | 6602/7135 [6:01:43<26:54,  3.03s/it] 93%|████████████████████████████████████████████████████████████████████████▏     | 6603/7135 [6:01:47<28:51,  3.25s/it] 93%|████████████████████████████████████████████████████████████████████████▏     | 6604/7135 [6:01:50<27:56,  3.16s/it] 93%|████████████████████████████████████████████████████████████████████████▏     | 6605/7135 [6:01:53<27:41,  3.13s/it] 93%|████████████████████████████████████████████████████████████████████████▏     | 6606/7135 [6:01:56<27:37,  3.13s/it] 93%|████████████████████████████████████████████████████████████████████████▏     | 6607/7135 [6:02:00<29:27,  3.35s/it] 93%|████████████████████████████████████████████████████████████████████████▏     | 6608/7135 [6:02:03<28:32,  3.25s/it] 93%|████████████████████████████████████████████████████████████████████████▏     | 6609/7135 [6:02:06<27:34,  3.15s/it] 93%|████████████████████████████████████████████████████████████████████████▎     | 6610/7135 [6:02:10<30:20,  3.47s/it]                                                                                                                         {'loss': 0.6792, 'grad_norm': 5.78125, 'learning_rate': 6.865232839085246e-08, 'memory/max_active (GiB)': 39.95, 'memory/max_allocated (GiB)': 39.95, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 236.44, 'epoch': 9.26}
 93%|████████████████████████████████████████████████████████████████████████▎     | 6610/7135 [6:02:10<30:20,  3.47s/it] 93%|████████████████████████████████████████████████████████████████████████▎     | 6611/7135 [6:02:14<30:45,  3.52s/it] 93%|████████████████████████████████████████████████████████████████████████▎     | 6612/7135 [6:02:17<29:33,  3.39s/it] 93%|████████████████████████████████████████████████████████████████████████▎     | 6613/7135 [6:02:20<27:38,  3.18s/it] 93%|████████████████████████████████████████████████████████████████████████▎     | 6614/7135 [6:02:22<26:42,  3.08s/it] 93%|████████████████████████████████████████████████████████████████████████▎     | 6615/7135 [6:02:26<27:01,  3.12s/it] 93%|████████████████████████████████████████████████████████████████████████▎     | 6616/7135 [6:02:29<26:51,  3.10s/it] 93%|████████████████████████████████████████████████████████████████████████▎     | 6617/7135 [6:02:32<27:26,  3.18s/it] 93%|████████████████████████████████████████████████████████████████████████▎     | 6618/7135 [6:02:35<27:25,  3.18s/it] 93%|████████████████████████████████████████████████████████████████████████▎     | 6619/7135 [6:02:39<28:15,  3.29s/it] 93%|████████████████████████████████████████████████████████████████████████▎     | 6620/7135 [6:02:42<27:57,  3.26s/it]                                                                                                                         {'loss': 0.7363, 'grad_norm': 4.21875, 'learning_rate': 6.607823868450658e-08, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 387.59, 'epoch': 9.27}
 93%|████████████████████████████████████████████████████████████████████████▎     | 6620/7135 [6:02:42<27:57,  3.26s/it] 93%|████████████████████████████████████████████████████████████████████████▍     | 6621/7135 [6:02:45<28:00,  3.27s/it] 93%|████████████████████████████████████████████████████████████████████████▍     | 6622/7135 [6:02:48<27:20,  3.20s/it] 93%|████████████████████████████████████████████████████████████████████████▍     | 6623/7135 [6:02:51<27:02,  3.17s/it] 93%|████████████████████████████████████████████████████████████████████████▍     | 6624/7135 [6:02:55<26:59,  3.17s/it] 93%|████████████████████████████████████████████████████████████████████████▍     | 6625/7135 [6:02:57<26:06,  3.07s/it] 93%|████████████████████████████████████████████████████████████████████████▍     | 6626/7135 [6:03:01<26:02,  3.07s/it] 93%|████████████████████████████████████████████████████████████████████████▍     | 6627/7135 [6:03:04<28:04,  3.32s/it] 93%|████████████████████████████████████████████████████████████████████████▍     | 6628/7135 [6:03:07<26:47,  3.17s/it] 93%|████████████████████████████████████████████████████████████████████████▍     | 6629/7135 [6:03:10<26:37,  3.16s/it] 93%|████████████████████████████████████████████████████████████████████████▍     | 6630/7135 [6:03:13<25:52,  3.07s/it]                                                                                                                         {'loss': 0.8208, 'grad_norm': 5.46875, 'learning_rate': 6.355268648154e-08, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 460.67, 'epoch': 9.29}
 93%|████████████████████████████████████████████████████████████████████████▍     | 6630/7135 [6:03:13<25:52,  3.07s/it] 93%|████████████████████████████████████████████████████████████████████████▍     | 6631/7135 [6:03:16<25:36,  3.05s/it] 93%|████████████████████████████████████████████████████████████████████████▌     | 6632/7135 [6:03:20<26:17,  3.14s/it] 93%|████████████████████████████████████████████████████████████████████████▌     | 6633/7135 [6:03:23<26:02,  3.11s/it] 93%|████████████████████████████████████████████████████████████████████████▌     | 6634/7135 [6:03:26<26:00,  3.11s/it] 93%|████████████████████████████████████████████████████████████████████████▌     | 6635/7135 [6:03:29<25:50,  3.10s/it] 93%|████████████████████████████████████████████████████████████████████████▌     | 6636/7135 [6:03:32<24:55,  3.00s/it] 93%|████████████████████████████████████████████████████████████████████████▌     | 6637/7135 [6:03:35<25:12,  3.04s/it] 93%|████████████████████████████████████████████████████████████████████████▌     | 6638/7135 [6:03:38<26:12,  3.16s/it] 93%|████████████████████████████████████████████████████████████████████████▌     | 6639/7135 [6:03:41<25:44,  3.11s/it] 93%|████████████████████████████████████████████████████████████████████████▌     | 6640/7135 [6:03:44<25:43,  3.12s/it]                                                                                                                         {'loss': 0.6463, 'grad_norm': 3.1875, 'learning_rate': 6.10757221467595e-08, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 388.63, 'epoch': 9.3}
 93%|████████████████████████████████████████████████████████████████████████▌     | 6640/7135 [6:03:44<25:43,  3.12s/it] 93%|████████████████████████████████████████████████████████████████████████▌     | 6641/7135 [6:03:48<26:11,  3.18s/it] 93%|████████████████████████████████████████████████████████████████████████▌     | 6642/7135 [6:03:50<24:44,  3.01s/it] 93%|████████████████████████████████████████████████████████████████████████▌     | 6643/7135 [6:03:53<24:20,  2.97s/it] 93%|████████████████████████████████████████████████████████████████████████▋     | 6644/7135 [6:03:56<24:02,  2.94s/it] 93%|████████████████████████████████████████████████████████████████████████▋     | 6645/7135 [6:03:59<24:37,  3.02s/it] 93%|████████████████████████████████████████████████████████████████████████▋     | 6646/7135 [6:04:02<24:20,  2.99s/it] 93%|████████████████████████████████████████████████████████████████████████▋     | 6647/7135 [6:04:05<24:59,  3.07s/it] 93%|████████████████████████████████████████████████████████████████████████▋     | 6648/7135 [6:04:08<24:20,  3.00s/it] 93%|████████████████████████████████████████████████████████████████████████▋     | 6649/7135 [6:04:11<24:26,  3.02s/it] 93%|████████████████████████████████████████████████████████████████████████▋     | 6650/7135 [6:04:15<24:54,  3.08s/it]                                                                                                                         {'loss': 0.6926, 'grad_norm': 4.1875, 'learning_rate': 5.864739507602746e-08, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 319.86, 'epoch': 9.31}
 93%|████████████████████████████████████████████████████████████████████████▋     | 6650/7135 [6:04:15<24:54,  3.08s/it] 93%|████████████████████████████████████████████████████████████████████████▋     | 6651/7135 [6:04:17<24:31,  3.04s/it] 93%|████████████████████████████████████████████████████████████████████████▋     | 6652/7135 [6:04:20<24:15,  3.01s/it] 93%|████████████████████████████████████████████████████████████████████████▋     | 6653/7135 [6:04:24<24:58,  3.11s/it] 93%|████████████████████████████████████████████████████████████████████████▋     | 6654/7135 [6:04:27<24:25,  3.05s/it] 93%|████████████████████████████████████████████████████████████████████████▊     | 6655/7135 [6:04:30<25:11,  3.15s/it] 93%|████████████████████████████████████████████████████████████████████████▊     | 6656/7135 [6:04:33<24:35,  3.08s/it] 93%|████████████████████████████████████████████████████████████████████████▊     | 6657/7135 [6:04:36<24:35,  3.09s/it] 93%|████████████████████████████████████████████████████████████████████████▊     | 6658/7135 [6:04:39<24:28,  3.08s/it] 93%|████████████████████████████████████████████████████████████████████████▊     | 6659/7135 [6:04:42<24:24,  3.08s/it] 93%|████████████████████████████████████████████████████████████████████████▊     | 6660/7135 [6:04:45<24:36,  3.11s/it]                                                                                                                         {'loss': 0.8184, 'grad_norm': 3.875, 'learning_rate': 5.626775369527687e-08, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 435.66, 'epoch': 9.33}
 93%|████████████████████████████████████████████████████████████████████████▊     | 6660/7135 [6:04:45<24:36,  3.11s/it] 93%|████████████████████████████████████████████████████████████████████████▊     | 6661/7135 [6:04:48<23:38,  2.99s/it] 93%|████████████████████████████████████████████████████████████████████████▊     | 6662/7135 [6:04:52<25:01,  3.18s/it] 93%|████████████████████████████████████████████████████████████████████████▊     | 6663/7135 [6:04:55<24:57,  3.17s/it] 93%|████████████████████████████████████████████████████████████████████████▊     | 6664/7135 [6:04:59<28:17,  3.60s/it] 93%|████████████████████████████████████████████████████████████████████████▊     | 6665/7135 [6:05:03<28:19,  3.62s/it] 93%|████████████████████████████████████████████████████████████████████████▊     | 6666/7135 [6:05:07<28:23,  3.63s/it] 93%|████████████████████████████████████████████████████████████████████████▉     | 6667/7135 [6:05:10<28:21,  3.64s/it] 93%|████████████████████████████████████████████████████████████████████████▉     | 6668/7135 [6:05:14<28:37,  3.68s/it] 93%|████████████████████████████████████████████████████████████████████████▉     | 6669/7135 [6:05:17<27:11,  3.50s/it] 93%|████████████████████████████████████████████████████████████████████████▉     | 6670/7135 [6:05:21<27:07,  3.50s/it]                                                                                                                         {'loss': 0.8465, 'grad_norm': 6.15625, 'learning_rate': 5.393684545954736e-08, 'memory/max_active (GiB)': 45.33, 'memory/max_allocated (GiB)': 45.33, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 432.67, 'epoch': 9.34}
 93%|████████████████████████████████████████████████████████████████████████▉     | 6670/7135 [6:05:21<27:07,  3.50s/it] 93%|████████████████████████████████████████████████████████████████████████▉     | 6671/7135 [6:05:24<25:36,  3.31s/it] 94%|████████████████████████████████████████████████████████████████████████▉     | 6672/7135 [6:05:26<23:46,  3.08s/it] 94%|████████████████████████████████████████████████████████████████████████▉     | 6673/7135 [6:05:29<24:12,  3.14s/it] 94%|████████████████████████████████████████████████████████████████████████▉     | 6674/7135 [6:05:33<24:25,  3.18s/it] 94%|████████████████████████████████████████████████████████████████████████▉     | 6675/7135 [6:05:37<26:28,  3.45s/it] 94%|████████████████████████████████████████████████████████████████████████▉     | 6676/7135 [6:05:41<27:25,  3.59s/it] 94%|████████████████████████████████████████████████████████████████████████▉     | 6677/7135 [6:05:44<26:09,  3.43s/it] 94%|█████████████████████████████████████████████████████████████████████████     | 6678/7135 [6:05:46<24:00,  3.15s/it] 94%|█████████████████████████████████████████████████████████████████████████     | 6679/7135 [6:05:49<23:59,  3.16s/it] 94%|█████████████████████████████████████████████████████████████████████████     | 6680/7135 [6:05:52<23:00,  3.03s/it]                                                                                                                         {'loss': 0.8488, 'grad_norm': 5.4375, 'learning_rate': 5.1654716852036216e-08, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 501.79, 'epoch': 9.36}
 94%|█████████████████████████████████████████████████████████████████████████     | 6680/7135 [6:05:52<23:00,  3.03s/it] 94%|█████████████████████████████████████████████████████████████████████████     | 6681/7135 [6:05:55<23:21,  3.09s/it] 94%|█████████████████████████████████████████████████████████████████████████     | 6682/7135 [6:05:59<24:42,  3.27s/it] 94%|█████████████████████████████████████████████████████████████████████████     | 6683/7135 [6:06:02<23:57,  3.18s/it] 94%|█████████████████████████████████████████████████████████████████████████     | 6684/7135 [6:06:06<26:29,  3.52s/it] 94%|█████████████████████████████████████████████████████████████████████████     | 6685/7135 [6:06:10<26:41,  3.56s/it] 94%|█████████████████████████████████████████████████████████████████████████     | 6686/7135 [6:06:13<25:23,  3.39s/it] 94%|█████████████████████████████████████████████████████████████████████████     | 6687/7135 [6:06:17<26:04,  3.49s/it] 94%|█████████████████████████████████████████████████████████████████████████     | 6688/7135 [6:06:19<24:03,  3.23s/it] 94%|█████████████████████████████████████████████████████████████████████████     | 6689/7135 [6:06:23<23:51,  3.21s/it] 94%|█████████████████████████████████████████████████████████████████████████▏    | 6690/7135 [6:06:25<23:04,  3.11s/it]                                                                                                                         {'loss': 0.6822, 'grad_norm': 4.4375, 'learning_rate': 4.942141338317274e-08, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 407.85, 'epoch': 9.37}
 94%|█████████████████████████████████████████████████████████████████████████▏    | 6690/7135 [6:06:26<23:04,  3.11s/it] 94%|█████████████████████████████████████████████████████████████████████████▏    | 6691/7135 [6:06:28<22:21,  3.02s/it] 94%|█████████████████████████████████████████████████████████████████████████▏    | 6692/7135 [6:06:32<24:17,  3.29s/it] 94%|█████████████████████████████████████████████████████████████████████████▏    | 6693/7135 [6:06:35<23:59,  3.26s/it] 94%|█████████████████████████████████████████████████████████████████████████▏    | 6694/7135 [6:06:38<22:52,  3.11s/it] 94%|█████████████████████████████████████████████████████████████████████████▏    | 6695/7135 [6:06:42<23:33,  3.21s/it] 94%|█████████████████████████████████████████████████████████████████████████▏    | 6696/7135 [6:06:45<24:32,  3.35s/it] 94%|█████████████████████████████████████████████████████████████████████████▏    | 6697/7135 [6:06:49<24:42,  3.39s/it] 94%|█████████████████████████████████████████████████████████████████████████▏    | 6698/7135 [6:06:52<24:17,  3.33s/it] 94%|█████████████████████████████████████████████████████████████████████████▏    | 6699/7135 [6:06:56<25:05,  3.45s/it] 94%|█████████████████████████████████████████████████████████████████████████▏    | 6700/7135 [6:06:59<24:22,  3.36s/it]                                                                                                                         {'loss': 0.7437, 'grad_norm': 4.59375, 'learning_rate': 4.7236979589711516e-08, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 415.85, 'epoch': 9.38}
 94%|█████████████████████████████████████████████████████████████████████████▏    | 6700/7135 [6:06:59<24:22,  3.36s/it] 94%|█████████████████████████████████████████████████████████████████████████▎    | 6701/7135 [6:07:02<23:35,  3.26s/it] 94%|█████████████████████████████████████████████████████████████████████████▎    | 6702/7135 [6:07:05<24:11,  3.35s/it] 94%|█████████████████████████████████████████████████████████████████████████▎    | 6703/7135 [6:07:08<23:18,  3.24s/it] 94%|█████████████████████████████████████████████████████████████████████████▎    | 6704/7135 [6:07:12<24:05,  3.35s/it] 94%|█████████████████████████████████████████████████████████████████████████▎    | 6705/7135 [6:07:16<24:22,  3.40s/it] 94%|█████████████████████████████████████████████████████████████████████████▎    | 6706/7135 [6:07:18<23:21,  3.27s/it] 94%|█████████████████████████████████████████████████████████████████████████▎    | 6707/7135 [6:07:21<22:16,  3.12s/it] 94%|█████████████████████████████████████████████████████████████████████████▎    | 6708/7135 [6:07:25<23:18,  3.28s/it] 94%|█████████████████████████████████████████████████████████████████████████▎    | 6709/7135 [6:07:28<23:39,  3.33s/it] 94%|█████████████████████████████████████████████████████████████████████████▎    | 6710/7135 [6:07:32<23:21,  3.30s/it]                                                                                                                         {'loss': 0.7693, 'grad_norm': 6.125, 'learning_rate': 4.510145903384222e-08, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 407.37, 'epoch': 9.4}
 94%|█████████████████████████████████████████████████████████████████████████▎    | 6710/7135 [6:07:32<23:21,  3.30s/it] 94%|█████████████████████████████████████████████████████████████████████████▎    | 6711/7135 [6:07:35<24:27,  3.46s/it] 94%|█████████████████████████████████████████████████████████████████████████▍    | 6712/7135 [6:07:39<24:04,  3.41s/it] 94%|█████████████████████████████████████████████████████████████████████████▍    | 6713/7135 [6:07:42<24:25,  3.47s/it] 94%|█████████████████████████████████████████████████████████████████████████▍    | 6714/7135 [6:07:45<23:28,  3.35s/it] 94%|█████████████████████████████████████████████████████████████████████████▍    | 6715/7135 [6:07:49<23:16,  3.33s/it] 94%|█████████████████████████████████████████████████████████████████████████▍    | 6716/7135 [6:07:52<23:32,  3.37s/it] 94%|█████████████████████████████████████████████████████████████████████████▍    | 6717/7135 [6:07:55<23:15,  3.34s/it] 94%|█████████████████████████████████████████████████████████████████████████▍    | 6718/7135 [6:07:58<21:46,  3.13s/it] 94%|█████████████████████████████████████████████████████████████████████████▍    | 6719/7135 [6:08:02<23:04,  3.33s/it] 94%|█████████████████████████████████████████████████████████████████████████▍    | 6720/7135 [6:08:05<22:45,  3.29s/it]                                                                                                                         {'loss': 0.8589, 'grad_norm': 5.625, 'learning_rate': 4.301489430232259e-08, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 432.49, 'epoch': 9.41}
 94%|█████████████████████████████████████████████████████████████████████████▍    | 6720/7135 [6:08:05<22:45,  3.29s/it] 94%|█████████████████████████████████████████████████████████████████████████▍    | 6721/7135 [6:08:08<22:49,  3.31s/it] 94%|█████████████████████████████████████████████████████████████████████████▍    | 6722/7135 [6:08:12<22:38,  3.29s/it] 94%|█████████████████████████████████████████████████████████████████████████▍    | 6723/7135 [6:08:15<22:21,  3.26s/it] 94%|█████████████████████████████████████████████████████████████████████████▌    | 6724/7135 [6:08:18<22:26,  3.28s/it] 94%|█████████████████████████████████████████████████████████████████████████▌    | 6725/7135 [6:08:21<22:32,  3.30s/it] 94%|█████████████████████████████████████████████████████████████████████████▌    | 6726/7135 [6:08:24<21:35,  3.17s/it] 94%|█████████████████████████████████████████████████████████████████████████▌    | 6727/7135 [6:08:28<23:15,  3.42s/it] 94%|█████████████████████████████████████████████████████████████████████████▌    | 6728/7135 [6:08:32<23:52,  3.52s/it] 94%|█████████████████████████████████████████████████████████████████████████▌    | 6729/7135 [6:08:36<24:18,  3.59s/it] 94%|█████████████████████████████████████████████████████████████████████████▌    | 6730/7135 [6:08:39<22:56,  3.40s/it]                                                                                                                         {'loss': 0.7831, 'grad_norm': 3.734375, 'learning_rate': 4.097732700562906e-08, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 480.21, 'epoch': 9.43}
 94%|█████████████████████████████████████████████████████████████████████████▌    | 6730/7135 [6:08:39<22:56,  3.40s/it] 94%|█████████████████████████████████████████████████████████████████████████▌    | 6731/7135 [6:08:43<23:32,  3.50s/it] 94%|█████████████████████████████████████████████████████████████████████████▌    | 6732/7135 [6:08:46<22:38,  3.37s/it] 94%|█████████████████████████████████████████████████████████████████████████▌    | 6733/7135 [6:08:49<22:34,  3.37s/it] 94%|█████████████████████████████████████████████████████████████████████████▌    | 6734/7135 [6:08:53<23:20,  3.49s/it] 94%|█████████████████████████████████████████████████████████████████████████▋    | 6735/7135 [6:08:56<22:15,  3.34s/it] 94%|█████████████████████████████████████████████████████████████████████████▋    | 6736/7135 [6:08:59<21:46,  3.28s/it] 94%|█████████████████████████████████████████████████████████████████████████▋    | 6737/7135 [6:09:02<21:25,  3.23s/it] 94%|█████████████████████████████████████████████████████████████████████████▋    | 6738/7135 [6:09:05<21:43,  3.28s/it] 94%|█████████████████████████████████████████████████████████████████████████▋    | 6739/7135 [6:09:09<22:06,  3.35s/it] 94%|█████████████████████████████████████████████████████████████████████████▋    | 6740/7135 [6:09:12<21:07,  3.21s/it]                                                                                                                         {'loss': 0.6915, 'grad_norm': 7.375, 'learning_rate': 3.898879777712528e-08, 'memory/max_active (GiB)': 37.84, 'memory/max_allocated (GiB)': 37.84, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 487.56, 'epoch': 9.44}
 94%|█████████████████████████████████████████████████████████████████████████▋    | 6740/7135 [6:09:12<21:07,  3.21s/it] 94%|█████████████████████████████████████████████████████████████████████████▋    | 6741/7135 [6:09:16<22:36,  3.44s/it] 94%|█████████████████████████████████████████████████████████████████████████▋    | 6742/7135 [6:09:19<21:34,  3.29s/it] 95%|█████████████████████████████████████████████████████████████████████████▋    | 6743/7135 [6:09:22<21:45,  3.33s/it] 95%|█████████████████████████████████████████████████████████████████████████▋    | 6744/7135 [6:09:25<21:39,  3.32s/it] 95%|█████████████████████████████████████████████████████████████████████████▋    | 6745/7135 [6:09:28<20:58,  3.23s/it] 95%|█████████████████████████████████████████████████████████████████████████▋    | 6746/7135 [6:09:32<22:14,  3.43s/it] 95%|█████████████████████████████████████████████████████████████████████████▊    | 6747/7135 [6:09:35<21:36,  3.34s/it] 95%|█████████████████████████████████████████████████████████████████████████▊    | 6748/7135 [6:09:39<21:49,  3.38s/it] 95%|█████████████████████████████████████████████████████████████████████████▊    | 6749/7135 [6:09:42<21:06,  3.28s/it] 95%|█████████████████████████████████████████████████████████████████████████▊    | 6750/7135 [6:09:45<20:30,  3.20s/it]                                                                                                                         {'loss': 0.6391, 'grad_norm': 5.15625, 'learning_rate': 3.704934627225376e-08, 'memory/max_active (GiB)': 46.16, 'memory/max_allocated (GiB)': 46.16, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 386.32, 'epoch': 9.45}
 95%|█████████████████████████████████████████████████████████████████████████▊    | 6750/7135 [6:09:45<20:30,  3.20s/it] 95%|█████████████████████████████████████████████████████████████████████████▊    | 6751/7135 [6:09:48<20:32,  3.21s/it] 95%|█████████████████████████████████████████████████████████████████████████▊    | 6752/7135 [6:09:52<20:33,  3.22s/it] 95%|█████████████████████████████████████████████████████████████████████████▊    | 6753/7135 [6:09:55<20:56,  3.29s/it] 95%|█████████████████████████████████████████████████████████████████████████▊    | 6754/7135 [6:09:58<20:33,  3.24s/it] 95%|█████████████████████████████████████████████████████████████████████████▊    | 6755/7135 [6:10:01<20:38,  3.26s/it] 95%|█████████████████████████████████████████████████████████████████████████▊    | 6756/7135 [6:10:04<19:40,  3.12s/it] 95%|█████████████████████████████████████████████████████████████████████████▊    | 6757/7135 [6:10:07<19:31,  3.10s/it] 95%|█████████████████████████████████████████████████████████████████████████▉    | 6758/7135 [6:10:10<18:59,  3.02s/it] 95%|█████████████████████████████████████████████████████████████████████████▉    | 6759/7135 [6:10:13<19:15,  3.07s/it] 95%|█████████████████████████████████████████████████████████████████████████▉    | 6760/7135 [6:10:17<19:43,  3.16s/it]                                                                                                                         {'loss': 0.752, 'grad_norm': 4.59375, 'learning_rate': 3.515901116774412e-08, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 361.42, 'epoch': 9.47}
 95%|█████████████████████████████████████████████████████████████████████████▉    | 6760/7135 [6:10:17<19:43,  3.16s/it] 95%|█████████████████████████████████████████████████████████████████████████▉    | 6761/7135 [6:10:20<19:47,  3.18s/it] 95%|█████████████████████████████████████████████████████████████████████████▉    | 6762/7135 [6:10:23<19:01,  3.06s/it] 95%|█████████████████████████████████████████████████████████████████████████▉    | 6763/7135 [6:10:26<19:10,  3.09s/it] 95%|█████████████████████████████████████████████████████████████████████████▉    | 6764/7135 [6:10:29<20:14,  3.27s/it] 95%|█████████████████████████████████████████████████████████████████████████▉    | 6765/7135 [6:10:33<20:09,  3.27s/it] 95%|█████████████████████████████████████████████████████████████████████████▉    | 6766/7135 [6:10:36<20:52,  3.39s/it] 95%|█████████████████████████████████████████████████████████████████████████▉    | 6767/7135 [6:10:40<20:50,  3.40s/it] 95%|█████████████████████████████████████████████████████████████████████████▉    | 6768/7135 [6:10:43<20:12,  3.30s/it] 95%|█████████████████████████████████████████████████████████████████████████▉    | 6769/7135 [6:10:46<20:05,  3.29s/it] 95%|██████████████████████████████████████████████████████████████████████████    | 6770/7135 [6:10:49<19:58,  3.28s/it]                                                                                                                         {'loss': 0.8281, 'grad_norm': 4.6875, 'learning_rate': 3.3317830160842226e-08, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 380.28, 'epoch': 9.48}
 95%|██████████████████████████████████████████████████████████████████████████    | 6770/7135 [6:10:49<19:58,  3.28s/it] 95%|██████████████████████████████████████████████████████████████████████████    | 6771/7135 [6:10:53<19:42,  3.25s/it] 95%|██████████████████████████████████████████████████████████████████████████    | 6772/7135 [6:10:56<19:37,  3.24s/it] 95%|██████████████████████████████████████████████████████████████████████████    | 6773/7135 [6:10:59<19:25,  3.22s/it] 95%|██████████████████████████████████████████████████████████████████████████    | 6774/7135 [6:11:02<18:57,  3.15s/it] 95%|██████████████████████████████████████████████████████████████████████████    | 6775/7135 [6:11:06<19:35,  3.26s/it] 95%|██████████████████████████████████████████████████████████████████████████    | 6776/7135 [6:11:09<19:30,  3.26s/it] 95%|██████████████████████████████████████████████████████████████████████████    | 6777/7135 [6:11:12<20:04,  3.36s/it] 95%|██████████████████████████████████████████████████████████████████████████    | 6778/7135 [6:11:17<21:51,  3.67s/it] 95%|██████████████████████████████████████████████████████████████████████████    | 6779/7135 [6:11:20<20:37,  3.48s/it] 95%|██████████████████████████████████████████████████████████████████████████    | 6780/7135 [6:11:23<20:06,  3.40s/it]                                                                                                                         {'loss': 0.752, 'grad_norm': 5.5625, 'learning_rate': 3.152583996855752e-08, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 535.88, 'epoch': 9.5}
 95%|██████████████████████████████████████████████████████████████████████████    | 6780/7135 [6:11:23<20:06,  3.40s/it] 95%|██████████████████████████████████████████████████████████████████████████▏   | 6781/7135 [6:11:27<20:29,  3.47s/it] 95%|██████████████████████████████████████████████████████████████████████████▏   | 6782/7135 [6:11:30<19:23,  3.30s/it] 95%|██████████████████████████████████████████████████████████████████████████▏   | 6783/7135 [6:11:33<19:50,  3.38s/it] 95%|██████████████████████████████████████████████████████████████████████████▏   | 6784/7135 [6:11:37<20:07,  3.44s/it] 95%|██████████████████████████████████████████████████████████████████████████▏   | 6785/7135 [6:11:40<20:04,  3.44s/it] 95%|██████████████████████████████████████████████████████████████████████████▏   | 6786/7135 [6:11:43<19:19,  3.32s/it] 95%|██████████████████████████████████████████████████████████████████████████▏   | 6787/7135 [6:11:46<18:20,  3.16s/it] 95%|██████████████████████████████████████████████████████████████████████████▏   | 6788/7135 [6:11:49<17:35,  3.04s/it] 95%|██████████████████████████████████████████████████████████████████████████▏   | 6789/7135 [6:11:52<18:24,  3.19s/it] 95%|██████████████████████████████████████████████████████████████████████████▏   | 6790/7135 [6:11:56<18:26,  3.21s/it]                                                                                                                         {'loss': 0.6769, 'grad_norm': 5.15625, 'learning_rate': 2.9783076326932447e-08, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 309.06, 'epoch': 9.51}
 95%|██████████████████████████████████████████████████████████████████████████▏   | 6790/7135 [6:11:56<18:26,  3.21s/it] 95%|██████████████████████████████████████████████████████████████████████████▏   | 6791/7135 [6:11:59<18:32,  3.24s/it] 95%|██████████████████████████████████████████████████████████████████████████▎   | 6792/7135 [6:12:02<18:28,  3.23s/it] 95%|██████████████████████████████████████████████████████████████████████████▎   | 6793/7135 [6:12:05<18:18,  3.21s/it] 95%|██████████████████████████████████████████████████████████████████████████▎   | 6794/7135 [6:12:09<18:22,  3.23s/it] 95%|██████████████████████████████████████████████████████████████████████████▎   | 6795/7135 [6:12:12<18:55,  3.34s/it] 95%|██████████████████████████████████████████████████████████████████████████▎   | 6796/7135 [6:12:15<18:35,  3.29s/it] 95%|██████████████████████████████████████████████████████████████████████████▎   | 6797/7135 [6:12:18<18:09,  3.22s/it] 95%|██████████████████████████████████████████████████████████████████████████▎   | 6798/7135 [6:12:21<17:39,  3.14s/it] 95%|██████████████████████████████████████████████████████████████████████████▎   | 6799/7135 [6:12:25<18:01,  3.22s/it] 95%|██████████████████████████████████████████████████████████████████████████▎   | 6800/7135 [6:12:28<17:34,  3.15s/it]                                                                                                                         {'loss': 0.8506, 'grad_norm': 4.1875, 'learning_rate': 2.8089573990328077e-08, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 459.06, 'epoch': 9.52}
 95%|██████████████████████████████████████████████████████████████████████████▎   | 6800/7135 [6:12:28<17:34,  3.15s/it] 95%|██████████████████████████████████████████████████████████████████████████▎   | 6801/7135 [6:12:31<17:12,  3.09s/it] 95%|██████████████████████████████████████████████████████████████████████████▎   | 6802/7135 [6:12:33<16:44,  3.02s/it] 95%|██████████████████████████████████████████████████████████████████████████▎   | 6803/7135 [6:12:37<17:16,  3.12s/it] 95%|██████████████████████████████████████████████████████████████████████████▍   | 6804/7135 [6:12:40<16:40,  3.02s/it] 95%|██████████████████████████████████████████████████████████████████████████▍   | 6805/7135 [6:12:43<16:54,  3.07s/it] 95%|██████████████████████████████████████████████████████████████████████████▍   | 6806/7135 [6:12:46<16:17,  2.97s/it] 95%|██████████████████████████████████████████████████████████████████████████▍   | 6807/7135 [6:12:49<16:36,  3.04s/it] 95%|██████████████████████████████████████████████████████████████████████████▍   | 6808/7135 [6:12:52<16:44,  3.07s/it] 95%|██████████████████████████████████████████████████████████████████████████▍   | 6809/7135 [6:12:55<17:04,  3.14s/it] 95%|██████████████████████████████████████████████████████████████████████████▍   | 6810/7135 [6:12:58<17:02,  3.15s/it]                                                                                                                         {'loss': 0.7083, 'grad_norm': 5.34375, 'learning_rate': 2.644536673073156e-08, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 330.43, 'epoch': 9.54}
 95%|██████████████████████████████████████████████████████████████████████████▍   | 6810/7135 [6:12:58<17:02,  3.15s/it] 95%|██████████████████████████████████████████████████████████████████████████▍   | 6811/7135 [6:13:02<17:01,  3.15s/it] 95%|██████████████████████████████████████████████████████████████████████████▍   | 6812/7135 [6:13:05<16:39,  3.10s/it] 95%|██████████████████████████████████████████████████████████████████████████▍   | 6813/7135 [6:13:08<17:13,  3.21s/it] 96%|██████████████████████████████████████████████████████████████████████████▍   | 6814/7135 [6:13:11<16:19,  3.05s/it] 96%|██████████████████████████████████████████████████████████████████████████▌   | 6815/7135 [6:13:15<17:34,  3.29s/it] 96%|██████████████████████████████████████████████████████████████████████████▌   | 6816/7135 [6:13:18<17:18,  3.26s/it] 96%|██████████████████████████████████████████████████████████████████████████▌   | 6817/7135 [6:13:21<17:16,  3.26s/it] 96%|██████████████████████████████████████████████████████████████████████████▌   | 6818/7135 [6:13:24<16:24,  3.11s/it] 96%|██████████████████████████████████████████████████████████████████████████▌   | 6819/7135 [6:13:27<16:54,  3.21s/it] 96%|██████████████████████████████████████████████████████████████████████████▌   | 6820/7135 [6:13:31<17:20,  3.30s/it]                                                                                                                         {'loss': 0.7289, 'grad_norm': 4.0, 'learning_rate': 2.4850487337083896e-08, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 360.75, 'epoch': 9.55}
 96%|██████████████████████████████████████████████████████████████████████████▌   | 6820/7135 [6:13:31<17:20,  3.30s/it] 96%|██████████████████████████████████████████████████████████████████████████▌   | 6821/7135 [6:13:34<17:00,  3.25s/it] 96%|██████████████████████████████████████████████████████████████████████████▌   | 6822/7135 [6:13:37<16:13,  3.11s/it] 96%|██████████████████████████████████████████████████████████████████████████▌   | 6823/7135 [6:13:40<16:35,  3.19s/it] 96%|██████████████████████████████████████████████████████████████████████████▌   | 6824/7135 [6:13:43<16:29,  3.18s/it] 96%|██████████████████████████████████████████████████████████████████████████▌   | 6825/7135 [6:13:46<16:15,  3.15s/it] 96%|██████████████████████████████████████████████████████████████████████████▌   | 6826/7135 [6:13:50<16:40,  3.24s/it] 96%|██████████████████████████████████████████████████████████████████████████▋   | 6827/7135 [6:13:53<16:15,  3.17s/it] 96%|██████████████████████████████████████████████████████████████████████████▋   | 6828/7135 [6:13:56<16:23,  3.20s/it] 96%|██████████████████████████████████████████████████████████████████████████▋   | 6829/7135 [6:13:59<15:41,  3.08s/it] 96%|██████████████████████████████████████████████████████████████████████████▋   | 6830/7135 [6:14:02<15:53,  3.13s/it]                                                                                                                         {'loss': 0.7187, 'grad_norm': 4.46875, 'learning_rate': 2.3304967614623808e-08, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 334.7, 'epoch': 9.57}
 96%|██████████████████████████████████████████████████████████████████████████▋   | 6830/7135 [6:14:02<15:53,  3.13s/it] 96%|██████████████████████████████████████████████████████████████████████████▋   | 6831/7135 [6:14:05<15:26,  3.05s/it] 96%|██████████████████████████████████████████████████████████████████████████▋   | 6832/7135 [6:14:08<15:33,  3.08s/it] 96%|██████████████████████████████████████████████████████████████████████████▋   | 6833/7135 [6:14:12<16:17,  3.24s/it] 96%|██████████████████████████████████████████████████████████████████████████▋   | 6834/7135 [6:14:15<15:57,  3.18s/it] 96%|██████████████████████████████████████████████████████████████████████████▋   | 6835/7135 [6:14:18<15:34,  3.12s/it] 96%|██████████████████████████████████████████████████████████████████████████▋   | 6836/7135 [6:14:21<15:20,  3.08s/it] 96%|██████████████████████████████████████████████████████████████████████████▋   | 6837/7135 [6:14:24<15:14,  3.07s/it] 96%|██████████████████████████████████████████████████████████████████████████▊   | 6838/7135 [6:14:27<15:48,  3.19s/it] 96%|██████████████████████████████████████████████████████████████████████████▊   | 6839/7135 [6:14:31<16:37,  3.37s/it] 96%|██████████████████████████████████████████████████████████████████████████▊   | 6840/7135 [6:14:34<15:54,  3.24s/it]                                                                                                                         {'loss': 0.7146, 'grad_norm': 5.59375, 'learning_rate': 2.180883838425518e-08, 'memory/max_active (GiB)': 42.02, 'memory/max_allocated (GiB)': 42.02, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 407.08, 'epoch': 9.58}
 96%|██████████████████████████████████████████████████████████████████████████▊   | 6840/7135 [6:14:34<15:54,  3.24s/it] 96%|██████████████████████████████████████████████████████████████████████████▊   | 6841/7135 [6:14:37<15:34,  3.18s/it] 96%|██████████████████████████████████████████████████████████████████████████▊   | 6842/7135 [6:14:40<15:43,  3.22s/it] 96%|██████████████████████████████████████████████████████████████████████████▊   | 6843/7135 [6:14:43<15:24,  3.17s/it] 96%|██████████████████████████████████████████████████████████████████████████▊   | 6844/7135 [6:14:46<15:08,  3.12s/it] 96%|██████████████████████████████████████████████████████████████████████████▊   | 6845/7135 [6:14:49<14:56,  3.09s/it] 96%|██████████████████████████████████████████████████████████████████████████▊   | 6846/7135 [6:14:53<15:14,  3.17s/it] 96%|██████████████████████████████████████████████████████████████████████████▊   | 6847/7135 [6:14:56<14:54,  3.11s/it] 96%|██████████████████████████████████████████████████████████████████████████▊   | 6848/7135 [6:14:59<14:52,  3.11s/it] 96%|██████████████████████████████████████████████████████████████████████████▊   | 6849/7135 [6:15:02<14:47,  3.10s/it] 96%|██████████████████████████████████████████████████████████████████████████▉   | 6850/7135 [6:15:05<14:54,  3.14s/it]                                                                                                                         {'loss': 0.6985, 'grad_norm': 4.09375, 'learning_rate': 2.036212948193228e-08, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 421.95, 'epoch': 9.59}
 96%|██████████████████████████████████████████████████████████████████████████▉   | 6850/7135 [6:15:05<14:54,  3.14s/it] 96%|██████████████████████████████████████████████████████████████████████████▉   | 6851/7135 [6:15:08<14:54,  3.15s/it] 96%|██████████████████████████████████████████████████████████████████████████▉   | 6852/7135 [6:15:11<14:42,  3.12s/it] 96%|██████████████████████████████████████████████████████████████████████████▉   | 6853/7135 [6:15:15<15:12,  3.24s/it] 96%|██████████████████████████████████████████████████████████████████████████▉   | 6854/7135 [6:15:18<14:46,  3.16s/it] 96%|██████████████████████████████████████████████████████████████████████████▉   | 6855/7135 [6:15:22<15:55,  3.41s/it] 96%|██████████████████████████████████████████████████████████████████████████▉   | 6856/7135 [6:15:25<15:41,  3.38s/it] 96%|██████████████████████████████████████████████████████████████████████████▉   | 6857/7135 [6:15:28<15:22,  3.32s/it] 96%|██████████████████████████████████████████████████████████████████████████▉   | 6858/7135 [6:15:32<16:03,  3.48s/it] 96%|██████████████████████████████████████████████████████████████████████████▉   | 6859/7135 [6:15:35<15:28,  3.36s/it] 96%|██████████████████████████████████████████████████████████████████████████▉   | 6860/7135 [6:15:38<15:12,  3.32s/it]                                                                                                                         {'loss': 0.7141, 'grad_norm': 3.859375, 'learning_rate': 1.896486975806411e-08, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 423.85, 'epoch': 9.61}
 96%|██████████████████████████████████████████████████████████████████████████▉   | 6860/7135 [6:15:38<15:12,  3.32s/it] 96%|███████████████████████████████████████████████████████████████████████████   | 6861/7135 [6:15:41<14:26,  3.16s/it] 96%|███████████████████████████████████████████████████████████████████████████   | 6862/7135 [6:15:44<14:23,  3.16s/it] 96%|███████████████████████████████████████████████████████████████████████████   | 6863/7135 [6:15:47<13:50,  3.05s/it] 96%|███████████████████████████████████████████████████████████████████████████   | 6864/7135 [6:15:50<13:58,  3.10s/it] 96%|███████████████████████████████████████████████████████████████████████████   | 6865/7135 [6:15:53<13:35,  3.02s/it] 96%|███████████████████████████████████████████████████████████████████████████   | 6866/7135 [6:15:56<13:18,  2.97s/it] 96%|███████████████████████████████████████████████████████████████████████████   | 6867/7135 [6:15:59<13:41,  3.07s/it] 96%|███████████████████████████████████████████████████████████████████████████   | 6868/7135 [6:16:03<13:52,  3.12s/it] 96%|███████████████████████████████████████████████████████████████████████████   | 6869/7135 [6:16:05<13:31,  3.05s/it] 96%|███████████████████████████████████████████████████████████████████████████   | 6870/7135 [6:16:09<14:04,  3.19s/it]                                                                                                                         {'loss': 0.7443, 'grad_norm': 2.84375, 'learning_rate': 1.761708707693932e-08, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 346.3, 'epoch': 9.62}
 96%|███████████████████████████████████████████████████████████████████████████   | 6870/7135 [6:16:09<14:04,  3.19s/it] 96%|███████████████████████████████████████████████████████████████████████████   | 6871/7135 [6:16:12<13:50,  3.15s/it] 96%|███████████████████████████████████████████████████████████████████████████   | 6872/7135 [6:16:15<14:01,  3.20s/it] 96%|███████████████████████████████████████████████████████████████████████████▏  | 6873/7135 [6:16:18<13:05,  3.00s/it] 96%|███████████████████████████████████████████████████████████████████████████▏  | 6874/7135 [6:16:22<14:04,  3.24s/it] 96%|███████████████████████████████████████████████████████████████████████████▏  | 6875/7135 [6:16:25<14:09,  3.27s/it] 96%|███████████████████████████████████████████████████████████████████████████▏  | 6876/7135 [6:16:28<13:40,  3.17s/it] 96%|███████████████████████████████████████████████████████████████████████████▏  | 6877/7135 [6:16:32<14:50,  3.45s/it] 96%|███████████████████████████████████████████████████████████████████████████▏  | 6878/7135 [6:16:35<14:41,  3.43s/it] 96%|███████████████████████████████████████████████████████████████████████████▏  | 6879/7135 [6:16:39<14:27,  3.39s/it] 96%|███████████████████████████████████████████████████████████████████████████▏  | 6880/7135 [6:16:43<15:17,  3.60s/it]                                                                                                                         {'loss': 0.7542, 'grad_norm': 4.59375, 'learning_rate': 1.6318808316170275e-08, 'memory/max_active (GiB)': 41.19, 'memory/max_allocated (GiB)': 41.19, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 305.11, 'epoch': 9.64}
 96%|███████████████████████████████████████████████████████████████████████████▏  | 6880/7135 [6:16:43<15:17,  3.60s/it] 96%|███████████████████████████████████████████████████████████████████████████▏  | 6881/7135 [6:16:46<14:12,  3.36s/it] 96%|███████████████████████████████████████████████████████████████████████████▏  | 6882/7135 [6:16:49<13:39,  3.24s/it] 96%|███████████████████████████████████████████████████████████████████████████▏  | 6883/7135 [6:16:51<13:10,  3.14s/it] 96%|███████████████████████████████████████████████████████████████████████████▎  | 6884/7135 [6:16:55<13:12,  3.16s/it] 96%|███████████████████████████████████████████████████████████████████████████▎  | 6885/7135 [6:16:58<13:43,  3.29s/it] 97%|███████████████████████████████████████████████████████████████████████████▎  | 6886/7135 [6:17:01<13:18,  3.21s/it] 97%|███████████████████████████████████████████████████████████████████████████▎  | 6887/7135 [6:17:05<13:45,  3.33s/it] 97%|███████████████████████████████████████████████████████████████████████████▎  | 6888/7135 [6:17:08<13:30,  3.28s/it] 97%|███████████████████████████████████████████████████████████████████████████▎  | 6889/7135 [6:17:11<13:13,  3.23s/it] 97%|███████████████████████████████████████████████████████████████████████████▎  | 6890/7135 [6:17:14<13:14,  3.24s/it]                                                                                                                         {'loss': 0.8796, 'grad_norm': 4.90625, 'learning_rate': 1.5070059366157908e-08, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 388.97, 'epoch': 9.65}
 97%|███████████████████████████████████████████████████████████████████████████▎  | 6890/7135 [6:17:14<13:14,  3.24s/it] 97%|███████████████████████████████████████████████████████████████████████████▎  | 6891/7135 [6:17:17<12:52,  3.17s/it] 97%|███████████████████████████████████████████████████████████████████████████▎  | 6892/7135 [6:17:20<12:36,  3.11s/it] 97%|███████████████████████████████████████████████████████████████████████████▎  | 6893/7135 [6:17:23<12:30,  3.10s/it] 97%|███████████████████████████████████████████████████████████████████████████▎  | 6894/7135 [6:17:27<12:30,  3.11s/it] 97%|███████████████████████████████████████████████████████████████████████████▍  | 6895/7135 [6:17:30<12:28,  3.12s/it] 97%|███████████████████████████████████████████████████████████████████████████▍  | 6896/7135 [6:17:33<13:05,  3.29s/it] 97%|███████████████████████████████████████████████████████████████████████████▍  | 6897/7135 [6:17:36<12:20,  3.11s/it] 97%|███████████████████████████████████████████████████████████████████████████▍  | 6898/7135 [6:17:39<11:53,  3.01s/it] 97%|███████████████████████████████████████████████████████████████████████████▍  | 6899/7135 [6:17:42<11:36,  2.95s/it] 97%|███████████████████████████████████████████████████████████████████████████▍  | 6900/7135 [6:17:45<12:03,  3.08s/it]                                                                                                                         {'loss': 0.6862, 'grad_norm': 4.28125, 'learning_rate': 1.387086512957464e-08, 'memory/max_active (GiB)': 36.82, 'memory/max_allocated (GiB)': 36.82, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 361.86, 'epoch': 9.66}
 97%|███████████████████████████████████████████████████████████████████████████▍  | 6900/7135 [6:17:45<12:03,  3.08s/it] 97%|███████████████████████████████████████████████████████████████████████████▍  | 6901/7135 [6:17:48<11:38,  2.99s/it] 97%|███████████████████████████████████████████████████████████████████████████▍  | 6902/7135 [6:17:51<11:46,  3.03s/it] 97%|███████████████████████████████████████████████████████████████████████████▍  | 6903/7135 [6:17:54<11:29,  2.97s/it] 97%|███████████████████████████████████████████████████████████████████████████▍  | 6904/7135 [6:17:57<11:45,  3.05s/it] 97%|███████████████████████████████████████████████████████████████████████████▍  | 6905/7135 [6:18:00<12:02,  3.14s/it] 97%|███████████████████████████████████████████████████████████████████████████▍  | 6906/7135 [6:18:04<12:28,  3.27s/it] 97%|███████████████████████████████████████████████████████████████████████████▌  | 6907/7135 [6:18:07<12:16,  3.23s/it] 97%|███████████████████████████████████████████████████████████████████████████▌  | 6908/7135 [6:18:10<11:43,  3.10s/it] 97%|███████████████████████████████████████████████████████████████████████████▌  | 6909/7135 [6:18:13<11:16,  2.99s/it] 97%|███████████████████████████████████████████████████████████████████████████▌  | 6910/7135 [6:18:16<11:19,  3.02s/it]                                                                                                                         {'loss': 0.8454, 'grad_norm': 5.3125, 'learning_rate': 1.2721249520868118e-08, 'memory/max_active (GiB)': 37.88, 'memory/max_allocated (GiB)': 37.88, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 468.77, 'epoch': 9.68}
 97%|███████████████████████████████████████████████████████████████████████████▌  | 6910/7135 [6:18:16<11:19,  3.02s/it] 97%|███████████████████████████████████████████████████████████████████████████▌  | 6911/7135 [6:18:19<11:22,  3.05s/it] 97%|███████████████████████████████████████████████████████████████████████████▌  | 6912/7135 [6:18:22<11:23,  3.07s/it] 97%|███████████████████████████████████████████████████████████████████████████▌  | 6913/7135 [6:18:25<11:05,  3.00s/it] 97%|███████████████████████████████████████████████████████████████████████████▌  | 6914/7135 [6:18:28<11:11,  3.04s/it] 97%|███████████████████████████████████████████████████████████████████████████▌  | 6915/7135 [6:18:31<11:05,  3.03s/it] 97%|███████████████████████████████████████████████████████████████████████████▌  | 6916/7135 [6:18:34<10:34,  2.90s/it] 97%|███████████████████████████████████████████████████████████████████████████▌  | 6917/7135 [6:18:38<11:42,  3.22s/it] 97%|███████████████████████████████████████████████████████████████████████████▋  | 6918/7135 [6:18:40<11:13,  3.11s/it] 97%|███████████████████████████████████████████████████████████████████████████▋  | 6919/7135 [6:18:43<11:00,  3.06s/it] 97%|███████████████████████████████████████████████████████████████████████████▋  | 6920/7135 [6:18:46<10:45,  3.00s/it]                                                                                                                         {'loss': 0.6405, 'grad_norm': 4.9375, 'learning_rate': 1.1621235465784087e-08, 'memory/max_active (GiB)': 40.78, 'memory/max_allocated (GiB)': 40.78, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 382.87, 'epoch': 9.69}
 97%|███████████████████████████████████████████████████████████████████████████▋  | 6920/7135 [6:18:46<10:45,  3.00s/it] 97%|███████████████████████████████████████████████████████████████████████████▋  | 6921/7135 [6:18:49<10:33,  2.96s/it] 97%|███████████████████████████████████████████████████████████████████████████▋  | 6922/7135 [6:18:52<10:32,  2.97s/it] 97%|███████████████████████████████████████████████████████████████████████████▋  | 6923/7135 [6:18:55<10:51,  3.07s/it] 97%|███████████████████████████████████████████████████████████████████████████▋  | 6924/7135 [6:18:59<11:05,  3.15s/it] 97%|███████████████████████████████████████████████████████████████████████████▋  | 6925/7135 [6:19:02<10:50,  3.10s/it] 97%|███████████████████████████████████████████████████████████████████████████▋  | 6926/7135 [6:19:05<10:36,  3.04s/it] 97%|███████████████████████████████████████████████████████████████████████████▋  | 6927/7135 [6:19:09<11:45,  3.39s/it] 97%|███████████████████████████████████████████████████████████████████████████▋  | 6928/7135 [6:19:12<11:18,  3.28s/it] 97%|███████████████████████████████████████████████████████████████████████████▋  | 6929/7135 [6:19:15<11:10,  3.25s/it] 97%|███████████████████████████████████████████████████████████████████████████▊  | 6930/7135 [6:19:19<12:09,  3.56s/it]                                                                                                                         {'loss': 0.8038, 'grad_norm': 1.765625, 'learning_rate': 1.0570844900909261e-08, 'memory/max_active (GiB)': 44.58, 'memory/max_allocated (GiB)': 44.58, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 369.44, 'epoch': 9.71}
 97%|███████████████████████████████████████████████████████████████████████████▊  | 6930/7135 [6:19:19<12:09,  3.56s/it] 97%|███████████████████████████████████████████████████████████████████████████▊  | 6931/7135 [6:19:23<12:02,  3.54s/it] 97%|███████████████████████████████████████████████████████████████████████████▊  | 6932/7135 [6:19:26<11:34,  3.42s/it] 97%|███████████████████████████████████████████████████████████████████████████▊  | 6933/7135 [6:19:29<11:04,  3.29s/it] 97%|███████████████████████████████████████████████████████████████████████████▊  | 6934/7135 [6:19:33<11:52,  3.54s/it] 97%|███████████████████████████████████████████████████████████████████████████▊  | 6935/7135 [6:19:36<11:20,  3.40s/it] 97%|███████████████████████████████████████████████████████████████████████████▊  | 6936/7135 [6:19:39<10:46,  3.25s/it] 97%|███████████████████████████████████████████████████████████████████████████▊  | 6937/7135 [6:19:42<10:33,  3.20s/it] 97%|███████████████████████████████████████████████████████████████████████████▊  | 6938/7135 [6:19:45<10:38,  3.24s/it] 97%|███████████████████████████████████████████████████████████████████████████▊  | 6939/7135 [6:19:49<10:37,  3.25s/it] 97%|███████████████████████████████████████████████████████████████████████████▊  | 6940/7135 [6:19:52<11:04,  3.41s/it]                                                                                                                         {'loss': 0.7581, 'grad_norm': 3.78125, 'learning_rate': 9.570098773233894e-09, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 320.52, 'epoch': 9.72}
 97%|███████████████████████████████████████████████████████████████████████████▊  | 6940/7135 [6:19:52<11:04,  3.41s/it] 97%|███████████████████████████████████████████████████████████████████████████▉  | 6941/7135 [6:19:56<10:47,  3.34s/it] 97%|███████████████████████████████████████████████████████████████████████████▉  | 6942/7135 [6:19:59<10:24,  3.24s/it] 97%|███████████████████████████████████████████████████████████████████████████▉  | 6943/7135 [6:20:02<10:12,  3.19s/it] 97%|███████████████████████████████████████████████████████████████████████████▉  | 6944/7135 [6:20:06<10:50,  3.41s/it] 97%|███████████████████████████████████████████████████████████████████████████▉  | 6945/7135 [6:20:09<10:44,  3.39s/it] 97%|███████████████████████████████████████████████████████████████████████████▉  | 6946/7135 [6:20:12<10:37,  3.37s/it] 97%|███████████████████████████████████████████████████████████████████████████▉  | 6947/7135 [6:20:15<10:04,  3.21s/it] 97%|███████████████████████████████████████████████████████████████████████████▉  | 6948/7135 [6:20:18<10:00,  3.21s/it] 97%|███████████████████████████████████████████████████████████████████████████▉  | 6949/7135 [6:20:21<09:32,  3.08s/it] 97%|███████████████████████████████████████████████████████████████████████████▉  | 6950/7135 [6:20:24<09:22,  3.04s/it]                                                                                                                         {'loss': 0.6575, 'grad_norm': 4.4375, 'learning_rate': 8.619017039734334e-09, 'memory/max_active (GiB)': 39.91, 'memory/max_allocated (GiB)': 39.91, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 463.73, 'epoch': 9.73}
 97%|███████████████████████████████████████████████████████████████████████████▉  | 6950/7135 [6:20:24<09:22,  3.04s/it] 97%|███████████████████████████████████████████████████████████████████████████▉  | 6951/7135 [6:20:27<09:06,  2.97s/it] 97%|███████████████████████████████████████████████████████████████████████████▉  | 6952/7135 [6:20:30<08:50,  2.90s/it] 97%|████████████████████████████████████████████████████████████████████████████  | 6953/7135 [6:20:32<08:40,  2.86s/it] 97%|████████████████████████████████████████████████████████████████████████████  | 6954/7135 [6:20:35<08:43,  2.89s/it] 97%|████████████████████████████████████████████████████████████████████████████  | 6955/7135 [6:20:39<09:00,  3.00s/it] 97%|████████████████████████████████████████████████████████████████████████████  | 6956/7135 [6:20:42<09:38,  3.23s/it] 98%|████████████████████████████████████████████████████████████████████████████  | 6957/7135 [6:20:46<09:34,  3.23s/it] 98%|████████████████████████████████████████████████████████████████████████████  | 6958/7135 [6:20:49<09:24,  3.19s/it] 98%|████████████████████████████████████████████████████████████████████████████  | 6959/7135 [6:20:52<09:20,  3.18s/it] 98%|████████████████████████████████████████████████████████████████████████████  | 6960/7135 [6:20:55<09:24,  3.22s/it]                                                                                                                         {'loss': 0.8935, 'grad_norm': 4.9375, 'learning_rate': 7.717618666974458e-09, 'memory/max_active (GiB)': 38.71, 'memory/max_allocated (GiB)': 38.71, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 375.08, 'epoch': 9.75}
 98%|████████████████████████████████████████████████████████████████████████████  | 6960/7135 [6:20:55<09:24,  3.22s/it] 98%|████████████████████████████████████████████████████████████████████████████  | 6961/7135 [6:20:58<09:27,  3.26s/it] 98%|████████████████████████████████████████████████████████████████████████████  | 6962/7135 [6:21:01<09:09,  3.18s/it] 98%|████████████████████████████████████████████████████████████████████████████  | 6963/7135 [6:21:05<08:59,  3.14s/it] 98%|████████████████████████████████████████████████████████████████████████████▏ | 6964/7135 [6:21:07<08:37,  3.03s/it] 98%|████████████████████████████████████████████████████████████████████████████▏ | 6965/7135 [6:21:10<08:23,  2.96s/it] 98%|████████████████████████████████████████████████████████████████████████████▏ | 6966/7135 [6:21:13<08:07,  2.88s/it] 98%|████████████████████████████████████████████████████████████████████████████▏ | 6967/7135 [6:21:16<08:00,  2.86s/it] 98%|████████████████████████████████████████████████████████████████████████████▏ | 6968/7135 [6:21:19<08:15,  2.97s/it] 98%|████████████████████████████████████████████████████████████████████████████▏ | 6969/7135 [6:21:22<08:13,  2.97s/it] 98%|████████████████████████████████████████████████████████████████████████████▏ | 6970/7135 [6:21:25<08:09,  2.97s/it]                                                                                                                         {'loss': 0.7027, 'grad_norm': 4.40625, 'learning_rate': 6.865921630727912e-09, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 367.87, 'epoch': 9.76}
 98%|████████████████████████████████████████████████████████████████████████████▏ | 6970/7135 [6:21:25<08:09,  2.97s/it] 98%|████████████████████████████████████████████████████████████████████████████▏ | 6971/7135 [6:21:28<08:08,  2.98s/it] 98%|████████████████████████████████████████████████████████████████████████████▏ | 6972/7135 [6:21:31<08:16,  3.05s/it] 98%|████████████████████████████████████████████████████████████████████████████▏ | 6973/7135 [6:21:34<08:30,  3.15s/it] 98%|████████████████████████████████████████████████████████████████████████████▏ | 6974/7135 [6:21:38<08:47,  3.28s/it] 98%|████████████████████████████████████████████████████████████████████████████▎ | 6975/7135 [6:21:41<08:53,  3.34s/it] 98%|████████████████████████████████████████████████████████████████████████████▎ | 6976/7135 [6:21:44<08:13,  3.11s/it] 98%|████████████████████████████████████████████████████████████████████████████▎ | 6977/7135 [6:21:47<08:07,  3.09s/it] 98%|████████████████████████████████████████████████████████████████████████████▎ | 6978/7135 [6:21:50<08:16,  3.16s/it] 98%|████████████████████████████████████████████████████████████████████████████▎ | 6979/7135 [6:21:54<08:27,  3.25s/it] 98%|████████████████████████████████████████████████████████████████████████████▎ | 6980/7135 [6:21:57<08:23,  3.25s/it]                                                                                                                         {'loss': 0.7385, 'grad_norm': 5.5625, 'learning_rate': 6.063942915619514e-09, 'memory/max_active (GiB)': 37.46, 'memory/max_allocated (GiB)': 37.46, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 351.81, 'epoch': 9.78}
 98%|████████████████████████████████████████████████████████████████████████████▎ | 6980/7135 [6:21:57<08:23,  3.25s/it] 98%|████████████████████████████████████████████████████████████████████████████▎ | 6981/7135 [6:22:00<08:10,  3.18s/it] 98%|████████████████████████████████████████████████████████████████████████████▎ | 6982/7135 [6:22:03<08:00,  3.14s/it] 98%|████████████████████████████████████████████████████████████████████████████▎ | 6983/7135 [6:22:06<07:43,  3.05s/it] 98%|████████████████████████████████████████████████████████████████████████████▎ | 6984/7135 [6:22:09<07:28,  2.97s/it] 98%|████████████████████████████████████████████████████████████████████████████▎ | 6985/7135 [6:22:12<07:37,  3.05s/it] 98%|████████████████████████████████████████████████████████████████████████████▎ | 6986/7135 [6:22:15<07:41,  3.10s/it] 98%|████████████████████████████████████████████████████████████████████████████▍ | 6987/7135 [6:22:19<07:54,  3.21s/it] 98%|████████████████████████████████████████████████████████████████████████████▍ | 6988/7135 [6:22:21<07:33,  3.08s/it] 98%|████████████████████████████████████████████████████████████████████████████▍ | 6989/7135 [6:22:25<07:43,  3.18s/it] 98%|████████████████████████████████████████████████████████████████████████████▍ | 6990/7135 [6:22:28<07:35,  3.14s/it]                                                                                                                         {'loss': 0.7494, 'grad_norm': 5.9375, 'learning_rate': 5.311698514786356e-09, 'memory/max_active (GiB)': 35.56, 'memory/max_allocated (GiB)': 35.56, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 349.39, 'epoch': 9.79}
 98%|████████████████████████████████████████████████████████████████████████████▍ | 6990/7135 [6:22:28<07:35,  3.14s/it] 98%|████████████████████████████████████████████████████████████████████████████▍ | 6991/7135 [6:22:32<08:21,  3.48s/it] 98%|████████████████████████████████████████████████████████████████████████████▍ | 6992/7135 [6:22:35<07:37,  3.20s/it] 98%|████████████████████████████████████████████████████████████████████████████▍ | 6993/7135 [6:22:38<07:44,  3.27s/it] 98%|████████████████████████████████████████████████████████████████████████████▍ | 6994/7135 [6:22:42<07:48,  3.33s/it] 98%|████████████████████████████████████████████████████████████████████████████▍ | 6995/7135 [6:22:45<07:41,  3.30s/it] 98%|████████████████████████████████████████████████████████████████████████████▍ | 6996/7135 [6:22:48<07:48,  3.37s/it] 98%|████████████████████████████████████████████████████████████████████████████▍ | 6997/7135 [6:22:52<08:00,  3.48s/it] 98%|████████████████████████████████████████████████████████████████████████████▌ | 6998/7135 [6:22:55<07:44,  3.39s/it] 98%|████████████████████████████████████████████████████████████████████████████▌ | 6999/7135 [6:22:59<07:56,  3.50s/it] 98%|████████████████████████████████████████████████████████████████████████████▌ | 7000/7135 [6:23:02<07:36,  3.38s/it]                                                                                                                         {'loss': 0.9475, 'grad_norm': 4.65625, 'learning_rate': 4.609203429558895e-09, 'memory/max_active (GiB)': 43.3, 'memory/max_allocated (GiB)': 43.3, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 490.67, 'epoch': 9.8}
 98%|████████████████████████████████████████████████████████████████████████████▌ | 7000/7135 [6:23:02<07:36,  3.38s/it] 98%|████████████████████████████████████████████████████████████████████████████▌ | 7001/7135 [6:23:06<08:06,  3.63s/it] 98%|████████████████████████████████████████████████████████████████████████████▌ | 7002/7135 [6:23:09<07:32,  3.40s/it] 98%|████████████████████████████████████████████████████████████████████████████▌ | 7003/7135 [6:23:13<07:36,  3.46s/it] 98%|████████████████████████████████████████████████████████████████████████████▌ | 7004/7135 [6:23:16<07:10,  3.29s/it] 98%|████████████████████████████████████████████████████████████████████████████▌ | 7005/7135 [6:23:19<06:55,  3.20s/it] 98%|████████████████████████████████████████████████████████████████████████████▌ | 7006/7135 [6:23:22<06:55,  3.22s/it] 98%|████████████████████████████████████████████████████████████████████████████▌ | 7007/7135 [6:23:25<06:38,  3.11s/it] 98%|████████████████████████████████████████████████████████████████████████████▌ | 7008/7135 [6:23:28<06:39,  3.14s/it] 98%|████████████████████████████████████████████████████████████████████████████▌ | 7009/7135 [6:23:31<06:32,  3.12s/it] 98%|████████████████████████████████████████████████████████████████████████████▋ | 7010/7135 [6:23:34<06:26,  3.09s/it]                                                                                                                         {'loss': 0.8462, 'grad_norm': 4.8125, 'learning_rate': 3.956471669162299e-09, 'memory/max_active (GiB)': 45.41, 'memory/max_allocated (GiB)': 45.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 505.66, 'epoch': 9.82}
 98%|████████████████████████████████████████████████████████████████████████████▋ | 7010/7135 [6:23:34<06:26,  3.09s/it] 98%|████████████████████████████████████████████████████████████████████████████▋ | 7011/7135 [6:23:37<06:17,  3.04s/it] 98%|████████████████████████████████████████████████████████████████████████████▋ | 7012/7135 [6:23:40<06:20,  3.09s/it] 98%|████████████████████████████████████████████████████████████████████████████▋ | 7013/7135 [6:23:43<06:15,  3.08s/it] 98%|████████████████████████████████████████████████████████████████████████████▋ | 7014/7135 [6:23:46<06:08,  3.05s/it] 98%|████████████████████████████████████████████████████████████████████████████▋ | 7015/7135 [6:23:50<06:11,  3.10s/it] 98%|████████████████████████████████████████████████████████████████████████████▋ | 7016/7135 [6:23:53<06:04,  3.06s/it] 98%|████████████████████████████████████████████████████████████████████████████▋ | 7017/7135 [6:23:56<06:08,  3.12s/it] 98%|████████████████████████████████████████████████████████████████████████████▋ | 7018/7135 [6:24:00<06:35,  3.38s/it] 98%|████████████████████████████████████████████████████████████████████████████▋ | 7019/7135 [6:24:03<06:10,  3.20s/it] 98%|████████████████████████████████████████████████████████████████████████████▋ | 7020/7135 [6:24:05<05:58,  3.12s/it]                                                                                                                         {'loss': 0.8067, 'grad_norm': 3.453125, 'learning_rate': 3.3535162504366726e-09, 'memory/max_active (GiB)': 43.68, 'memory/max_allocated (GiB)': 43.68, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 499.08, 'epoch': 9.83}
 98%|████████████████████████████████████████████████████████████████████████████▋ | 7020/7135 [6:24:05<05:58,  3.12s/it] 98%|████████████████████████████████████████████████████████████████████████████▊ | 7021/7135 [6:24:08<05:50,  3.08s/it] 98%|████████████████████████████████████████████████████████████████████████████▊ | 7022/7135 [6:24:11<05:43,  3.04s/it] 98%|████████████████████████████████████████████████████████████████████████████▊ | 7023/7135 [6:24:15<06:00,  3.22s/it] 98%|████████████████████████████████████████████████████████████████████████████▊ | 7024/7135 [6:24:18<05:58,  3.23s/it] 98%|████████████████████████████████████████████████████████████████████████████▊ | 7025/7135 [6:24:21<05:48,  3.16s/it] 98%|████████████████████████████████████████████████████████████████████████████▊ | 7026/7135 [6:24:25<05:49,  3.21s/it] 98%|████████████████████████████████████████████████████████████████████████████▊ | 7027/7135 [6:24:28<05:43,  3.18s/it] 99%|████████████████████████████████████████████████████████████████████████████▊ | 7028/7135 [6:24:31<05:39,  3.17s/it] 99%|████████████████████████████████████████████████████████████████████████████▊ | 7029/7135 [6:24:34<05:30,  3.12s/it] 99%|████████████████████████████████████████████████████████████████████████████▊ | 7030/7135 [6:24:37<05:19,  3.04s/it]                                                                                                                         {'loss': 0.8257, 'grad_norm': 5.0, 'learning_rate': 2.8003491975772677e-09, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 448.45, 'epoch': 9.85}
 99%|████████████████████████████████████████████████████████████████████████████▊ | 7030/7135 [6:24:37<05:19,  3.04s/it] 99%|████████████████████████████████████████████████████████████████████████████▊ | 7031/7135 [6:24:40<05:23,  3.11s/it] 99%|████████████████████████████████████████████████████████████████████████████▊ | 7032/7135 [6:24:43<05:29,  3.20s/it] 99%|████████████████████████████████████████████████████████████████████████████▉ | 7033/7135 [6:24:46<05:16,  3.10s/it] 99%|████████████████████████████████████████████████████████████████████████████▉ | 7034/7135 [6:24:49<05:07,  3.04s/it] 99%|████████████████████████████████████████████████████████████████████████████▉ | 7035/7135 [6:24:52<05:01,  3.02s/it] 99%|████████████████████████████████████████████████████████████████████████████▉ | 7036/7135 [6:24:55<05:03,  3.06s/it] 99%|████████████████████████████████████████████████████████████████████████████▉ | 7037/7135 [6:24:58<04:49,  2.95s/it] 99%|████████████████████████████████████████████████████████████████████████████▉ | 7038/7135 [6:25:02<05:09,  3.19s/it] 99%|████████████████████████████████████████████████████████████████████████████▉ | 7039/7135 [6:25:05<04:56,  3.09s/it] 99%|████████████████████████████████████████████████████████████████████████████▉ | 7040/7135 [6:25:08<04:54,  3.10s/it]                                                                                                                         {'loss': 0.6976, 'grad_norm': 5.34375, 'learning_rate': 2.2969815418946716e-09, 'memory/max_active (GiB)': 38.67, 'memory/max_allocated (GiB)': 38.67, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 363.53, 'epoch': 9.86}
 99%|████████████████████████████████████████████████████████████████████████████▉ | 7040/7135 [6:25:08<04:54,  3.10s/it] 99%|████████████████████████████████████████████████████████████████████████████▉ | 7041/7135 [6:25:11<04:52,  3.12s/it] 99%|████████████████████████████████████████████████████████████████████████████▉ | 7042/7135 [6:25:15<05:07,  3.30s/it] 99%|████████████████████████████████████████████████████████████████████████████▉ | 7043/7135 [6:25:18<05:00,  3.26s/it] 99%|█████████████████████████████████████████████████████████████████████████████ | 7044/7135 [6:25:21<05:00,  3.30s/it] 99%|█████████████████████████████████████████████████████████████████████████████ | 7045/7135 [6:25:25<04:59,  3.33s/it] 99%|█████████████████████████████████████████████████████████████████████████████ | 7046/7135 [6:25:28<04:49,  3.26s/it] 99%|█████████████████████████████████████████████████████████████████████████████ | 7047/7135 [6:25:31<04:49,  3.30s/it] 99%|█████████████████████████████████████████████████████████████████████████████ | 7048/7135 [6:25:34<04:46,  3.29s/it] 99%|█████████████████████████████████████████████████████████████████████████████ | 7049/7135 [6:25:37<04:36,  3.22s/it] 99%|█████████████████████████████████████████████████████████████████████████████ | 7050/7135 [6:25:41<04:36,  3.25s/it]                                                                                                                         {'loss': 0.8155, 'grad_norm': 5.0, 'learning_rate': 1.843423321596094e-09, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 424.94, 'epoch': 9.87}
 99%|█████████████████████████████████████████████████████████████████████████████ | 7050/7135 [6:25:41<04:36,  3.25s/it] 99%|█████████████████████████████████████████████████████████████████████████████ | 7051/7135 [6:25:44<04:29,  3.21s/it] 99%|█████████████████████████████████████████████████████████████████████████████ | 7052/7135 [6:25:47<04:35,  3.31s/it] 99%|█████████████████████████████████████████████████████████████████████████████ | 7053/7135 [6:25:51<04:27,  3.26s/it] 99%|█████████████████████████████████████████████████████████████████████████████ | 7054/7135 [6:25:54<04:24,  3.26s/it] 99%|█████████████████████████████████████████████████████████████████████████████▏| 7055/7135 [6:25:57<04:28,  3.35s/it] 99%|█████████████████████████████████████████████████████████████████████████████▏| 7056/7135 [6:26:00<04:12,  3.19s/it] 99%|█████████████████████████████████████████████████████████████████████████████▏| 7057/7135 [6:26:03<03:58,  3.06s/it] 99%|█████████████████████████████████████████████████████████████████████████████▏| 7058/7135 [6:26:06<04:02,  3.15s/it] 99%|█████████████████████████████████████████████████████████████████████████████▏| 7059/7135 [6:26:10<04:01,  3.18s/it] 99%|█████████████████████████████████████████████████████████████████████████████▏| 7060/7135 [6:26:13<04:15,  3.41s/it]                                                                                                                         {'loss': 0.6488, 'grad_norm': 5.53125, 'learning_rate': 1.4396835815827515e-09, 'memory/max_active (GiB)': 41.61, 'memory/max_allocated (GiB)': 41.61, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 302.32, 'epoch': 9.89}
 99%|█████████████████████████████████████████████████████████████████████████████▏| 7060/7135 [6:26:14<04:15,  3.41s/it] 99%|█████████████████████████████████████████████████████████████████████████████▏| 7061/7135 [6:26:16<03:56,  3.20s/it] 99%|█████████████████████████████████████████████████████████████████████████████▏| 7062/7135 [6:26:19<03:49,  3.15s/it] 99%|█████████████████████████████████████████████████████████████████████████████▏| 7063/7135 [6:26:23<03:58,  3.31s/it] 99%|█████████████████████████████████████████████████████████████████████████████▏| 7064/7135 [6:26:26<03:51,  3.26s/it] 99%|█████████████████████████████████████████████████████████████████████████████▏| 7065/7135 [6:26:29<03:40,  3.15s/it] 99%|█████████████████████████████████████████████████████████████████████████████▏| 7066/7135 [6:26:32<03:38,  3.17s/it] 99%|█████████████████████████████████████████████████████████████████████████████▎| 7067/7135 [6:26:35<03:37,  3.20s/it] 99%|█████████████████████████████████████████████████████████████████████████████▎| 7068/7135 [6:26:39<03:40,  3.29s/it] 99%|█████████████████████████████████████████████████████████████████████████████▎| 7069/7135 [6:26:43<03:45,  3.42s/it] 99%|█████████████████████████████████████████████████████████████████████████████▎| 7070/7135 [6:26:46<03:42,  3.43s/it]                                                                                                                         {'loss': 0.9261, 'grad_norm': 4.78125, 'learning_rate': 1.085770373271955e-09, 'memory/max_active (GiB)': 35.98, 'memory/max_allocated (GiB)': 35.98, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 373.91, 'epoch': 9.9}
 99%|█████████████████████████████████████████████████████████████████████████████▎| 7070/7135 [6:26:46<03:42,  3.43s/it] 99%|█████████████████████████████████████████████████████████████████████████████▎| 7071/7135 [6:26:49<03:31,  3.31s/it] 99%|█████████████████████████████████████████████████████████████████████████████▎| 7072/7135 [6:26:52<03:14,  3.08s/it] 99%|█████████████████████████████████████████████████████████████████████████████▎| 7073/7135 [6:26:55<03:12,  3.11s/it] 99%|█████████████████████████████████████████████████████████████████████████████▎| 7074/7135 [6:26:58<03:02,  2.99s/it] 99%|█████████████████████████████████████████████████████████████████████████████▎| 7075/7135 [6:27:01<03:05,  3.10s/it] 99%|█████████████████████████████████████████████████████████████████████████████▎| 7076/7135 [6:27:04<03:07,  3.17s/it] 99%|█████████████████████████████████████████████████████████████████████████████▎| 7077/7135 [6:27:07<03:02,  3.15s/it] 99%|█████████████████████████████████████████████████████████████████████████████▍| 7078/7135 [6:27:10<02:54,  3.06s/it] 99%|█████████████████████████████████████████████████████████████████████████████▍| 7079/7135 [6:27:14<02:58,  3.18s/it] 99%|█████████████████████████████████████████████████████████████████████████████▍| 7080/7135 [6:27:17<02:52,  3.14s/it]                                                                                                                         {'loss': 0.6988, 'grad_norm': 4.40625, 'learning_rate': 7.816907544352936e-10, 'memory/max_active (GiB)': 37.42, 'memory/max_allocated (GiB)': 37.42, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 410.96, 'epoch': 9.92}
 99%|█████████████████████████████████████████████████████████████████████████████▍| 7080/7135 [6:27:17<02:52,  3.14s/it] 99%|█████████████████████████████████████████████████████████████████████████████▍| 7081/7135 [6:27:20<02:46,  3.09s/it] 99%|█████████████████████████████████████████████████████████████████████████████▍| 7082/7135 [6:27:23<02:50,  3.21s/it] 99%|█████████████████████████████████████████████████████████████████████████████▍| 7083/7135 [6:27:27<02:53,  3.35s/it] 99%|█████████████████████████████████████████████████████████████████████████████▍| 7084/7135 [6:27:30<02:48,  3.30s/it] 99%|█████████████████████████████████████████████████████████████████████████████▍| 7085/7135 [6:27:33<02:46,  3.33s/it] 99%|█████████████████████████████████████████████████████████████████████████████▍| 7086/7135 [6:27:37<02:42,  3.31s/it] 99%|█████████████████████████████████████████████████████████████████████████████▍| 7087/7135 [6:27:40<02:34,  3.22s/it] 99%|█████████████████████████████████████████████████████████████████████████████▍| 7088/7135 [6:27:43<02:27,  3.13s/it] 99%|█████████████████████████████████████████████████████████████████████████████▍| 7089/7135 [6:27:46<02:21,  3.07s/it] 99%|█████████████████████████████████████████████████████████████████████████████▌| 7090/7135 [6:27:49<02:17,  3.06s/it]                                                                                                                         {'loss': 0.7655, 'grad_norm': 5.8125, 'learning_rate': 5.274507890576375e-10, 'memory/max_active (GiB)': 36.41, 'memory/max_allocated (GiB)': 36.41, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 444.02, 'epoch': 9.93}
 99%|█████████████████████████████████████████████████████████████████████████████▌| 7090/7135 [6:27:49<02:17,  3.06s/it] 99%|█████████████████████████████████████████████████████████████████████████████▌| 7091/7135 [6:27:52<02:19,  3.18s/it] 99%|█████████████████████████████████████████████████████████████████████████████▌| 7092/7135 [6:27:55<02:19,  3.25s/it] 99%|█████████████████████████████████████████████████████████████████████████████▌| 7093/7135 [6:27:59<02:18,  3.30s/it] 99%|█████████████████████████████████████████████████████████████████████████████▌| 7094/7135 [6:28:02<02:17,  3.35s/it] 99%|█████████████████████████████████████████████████████████████████████████████▌| 7095/7135 [6:28:05<02:11,  3.28s/it] 99%|█████████████████████████████████████████████████████████████████████████████▌| 7096/7135 [6:28:08<02:03,  3.16s/it] 99%|█████████████████████████████████████████████████████████████████████████████▌| 7097/7135 [6:28:12<02:03,  3.25s/it] 99%|█████████████████████████████████████████████████████████████████████████████▌| 7098/7135 [6:28:15<01:56,  3.15s/it] 99%|█████████████████████████████████████████████████████████████████████████████▌| 7099/7135 [6:28:18<01:52,  3.11s/it]100%|█████████████████████████████████████████████████████████████████████████████▌| 7100/7135 [6:28:21<01:49,  3.13s/it]                                                                                                                         {'loss': 0.7141, 'grad_norm': 4.59375, 'learning_rate': 3.2305554721723253e-10, 'memory/max_active (GiB)': 37.01, 'memory/max_allocated (GiB)': 37.01, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 401.98, 'epoch': 9.94}
100%|█████████████████████████████████████████████████████████████████████████████▌| 7100/7135 [6:28:21<01:49,  3.13s/it]100%|█████████████████████████████████████████████████████████████████████████████▋| 7101/7135 [6:28:24<01:40,  2.97s/it]100%|█████████████████████████████████████████████████████████████████████████████▋| 7102/7135 [6:28:26<01:36,  2.94s/it]100%|█████████████████████████████████████████████████████████████████████████████▋| 7103/7135 [6:28:29<01:35,  2.98s/it]100%|█████████████████████████████████████████████████████████████████████████████▋| 7104/7135 [6:28:33<01:34,  3.05s/it]100%|█████████████████████████████████████████████████████████████████████████████▋| 7105/7135 [6:28:36<01:36,  3.23s/it]100%|█████████████████████████████████████████████████████████████████████████████▋| 7106/7135 [6:28:40<01:33,  3.22s/it]100%|█████████████████████████████████████████████████████████████████████████████▋| 7107/7135 [6:28:43<01:32,  3.31s/it]100%|█████████████████████████████████████████████████████████████████████████████▋| 7108/7135 [6:28:46<01:26,  3.21s/it]100%|█████████████████████████████████████████████████████████████████████████████▋| 7109/7135 [6:28:50<01:26,  3.34s/it]100%|█████████████████████████████████████████████████████████████████████████████▋| 7110/7135 [6:28:53<01:19,  3.19s/it]                                                                                                                         {'loss': 0.6343, 'grad_norm': 5.96875, 'learning_rate': 1.6850910498383833e-10, 'memory/max_active (GiB)': 38.25, 'memory/max_allocated (GiB)': 38.25, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 451.66, 'epoch': 9.96}
100%|█████████████████████████████████████████████████████████████████████████████▋| 7110/7135 [6:28:53<01:19,  3.19s/it]100%|█████████████████████████████████████████████████████████████████████████████▋| 7111/7135 [6:28:56<01:16,  3.18s/it]100%|█████████████████████████████████████████████████████████████████████████████▋| 7112/7135 [6:28:59<01:12,  3.14s/it]100%|█████████████████████████████████████████████████████████████████████████████▊| 7113/7135 [6:29:02<01:10,  3.19s/it]100%|█████████████████████████████████████████████████████████████████████████████▊| 7114/7135 [6:29:05<01:07,  3.21s/it]100%|█████████████████████████████████████████████████████████████████████████████▊| 7115/7135 [6:29:08<01:03,  3.19s/it]100%|█████████████████████████████████████████████████████████████████████████████▊| 7116/7135 [6:29:12<01:00,  3.18s/it]100%|█████████████████████████████████████████████████████████████████████████████▊| 7117/7135 [6:29:15<00:57,  3.17s/it]100%|█████████████████████████████████████████████████████████████████████████████▊| 7118/7135 [6:29:18<00:55,  3.25s/it]100%|█████████████████████████████████████████████████████████████████████████████▊| 7119/7135 [6:29:21<00:49,  3.12s/it]100%|█████████████████████████████████████████████████████████████████████████████▊| 7120/7135 [6:29:24<00:47,  3.13s/it]                                                                                                                         {'loss': 0.7654, 'grad_norm': 5.09375, 'learning_rate': 6.381454433712631e-11, 'memory/max_active (GiB)': 36.18, 'memory/max_allocated (GiB)': 36.18, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 438.21, 'epoch': 9.97}
100%|█████████████████████████████████████████████████████████████████████████████▊| 7120/7135 [6:29:24<00:47,  3.13s/it]100%|█████████████████████████████████████████████████████████████████████████████▊| 7121/7135 [6:29:27<00:44,  3.15s/it]100%|█████████████████████████████████████████████████████████████████████████████▊| 7122/7135 [6:29:31<00:41,  3.20s/it]100%|█████████████████████████████████████████████████████████████████████████████▊| 7123/7135 [6:29:34<00:39,  3.31s/it]100%|█████████████████████████████████████████████████████████████████████████████▉| 7124/7135 [6:29:37<00:34,  3.17s/it]100%|█████████████████████████████████████████████████████████████████████████████▉| 7125/7135 [6:29:40<00:31,  3.13s/it]100%|█████████████████████████████████████████████████████████████████████████████▉| 7126/7135 [6:29:43<00:27,  3.04s/it]100%|█████████████████████████████████████████████████████████████████████████████▉| 7127/7135 [6:29:46<00:24,  3.03s/it]100%|█████████████████████████████████████████████████████████████████████████████▉| 7128/7135 [6:29:49<00:21,  3.07s/it]100%|█████████████████████████████████████████████████████████████████████████████▉| 7129/7135 [6:29:52<00:17,  2.93s/it]100%|█████████████████████████████████████████████████████████████████████████████▉| 7130/7135 [6:29:55<00:14,  2.95s/it]                                                                                                                         {'loss': 0.7463, 'grad_norm': 4.625, 'learning_rate': 8.973953106727885e-12, 'memory/max_active (GiB)': 35.77, 'memory/max_allocated (GiB)': 35.77, 'memory/device_reserved (GiB)': 49.99, 'tokens_per_second_per_gpu': 386.29, 'epoch': 9.99}
100%|█████████████████████████████████████████████████████████████████████████████▉| 7130/7135 [6:29:55<00:14,  2.95s/it]100%|█████████████████████████████████████████████████████████████████████████████▉| 7131/7135 [6:29:58<00:11,  2.94s/it]100%|█████████████████████████████████████████████████████████████████████████████▉| 7132/7135 [6:30:00<00:08,  2.89s/it]100%|█████████████████████████████████████████████████████████████████████████████▉| 7133/7135 [6:30:04<00:06,  3.10s/it]100%|█████████████████████████████████████████████████████████████████████████████▉| 7134/7135 [6:30:07<00:03,  3.15s/it]100%|██████████████████████████████████████████████████████████████████████████████| 7135/7135 [6:30:10<00:00,  3.00s/it][2025-12-23 20:54:16,064] [INFO] [axolotl.core.trainers.base._save:671] [PID:5064] Saving model checkpoint to ./outputs/qwen3-4b-instruct-abd-full-train/checkpoint-7135
                                                                                                                         {'train_runtime': 23471.009, 'train_samples_per_second': 9.728, 'train_steps_per_second': 0.304, 'train_loss': 0.775560412978324, 'memory/max_active (GiB)': 35.33, 'memory/max_allocated (GiB)': 35.33, 'memory/device_reserved (GiB)': 49.99, 'epoch': 9.99}
100%|██████████████████████████████████████████████████████████████████████████████| 7135/7135 [6:31:11<00:00,  3.00s/it]100%|██████████████████████████████████████████████████████████████████████████████| 7135/7135 [6:31:11<00:00,  3.29s/it]
[2025-12-23 20:55:16,884] [INFO] [axolotl.train.save_trained_model:218] [PID:5064] Training completed! Saving trained model to ./outputs/qwen3-4b-instruct-abd-full-train.
[2025-12-23 20:55:39,424] [INFO] [axolotl.train.save_trained_model:336] [PID:5064] Model successfully saved to ./outputs/qwen3-4b-instruct-abd-full-train